판결문 속 민감한 개인정보, 사람 대신 AI가 자동으로 지운다
  • 작성일 2026.04.15.
  • 작성자 커뮤니케이션팀
  • 조회수 13


일자, 제목, 내용(요약), 담당부서, 문의 안내
일     자

2026.4.15

제     목

판결문 속 민감한 개인정보, 사람 대신 AI가 자동으로 지운다

내     용
(요   약)

□ 고려대학교(총장 김동원) 컴퓨터학과 정연돈 교수 연구팀이 인공지능을 이용해 판결문 속 개인정보를 빠르고 정확하게 비식별화하는 기술을 개발했다. 


□ 대한민국 헌법 제109조에 따라 재판의 심리와 판결은 공개되어야 하며, 이는 사법적 투명성을 보장하고 국민의 신뢰를 유지하기 위한 필수적인 조치다. 이때 판결문 공개는 개인의 이름, 주민등록번호, 주소 등 민감한 개인식별정보를 보호하는 방식으로 이뤄져야 한다.


□ 기존의 수작업 방식으로는 개인정보를 가리는 데 문서 한 건당 약 2주가 소요됐다. 그 결과, 병목 현상이 발생해 전체 판결문 중 단 5.97%만이 비식별화 처리가 완료되어 공개된 상태다. 법원에서도 자동화를 추진하려 했으나 기존 시스템은 개인정보를 찾아 마스킹하는 정확도가 약 8% 수준에 그쳐 실효성이 떨어졌다.


□ 연구팀은 대규모 벤치마크 데이터셋 ‘K-LegalDeID’과 고성능 인공지능 모델 ‘KLUEBERT-CRF’를 개발해 문제를 해결했다. 39개 법률 분야 2,000건의 판결문과 SNS 대화 데이터 등을 결합해 약 100만 건에 달하는 대규모 학습 데이터를 구축하고, 인공지능이 이를 학습해 비식별화를 수행하는 방식이다. 기존 모델에 조건부 무작위장을 결합해 한국어 특유의 교착어 형태와 법률 문서의 복잡한 문장 구조를 효과적으로 처리하는 게 특징이다. 

*벤치마크 데이터셋: AI나 프로그램의 성능을 공정하게 비교하기 위해 사용되는 표준화된 데이터 모음
*조건부 무작위장(CRF, Conditional Random Field): 앞뒤 단어들 사이의 관계를 파악해 조건(문맥)에 가장 알맞은 판단을 내리는 방식


□ 특히 KLUEBERT-CRF 모델은 정확도를 평가하는 지표인 ‘개체 수준 마이크로 F1 점수’에서 세계 최고 수준인 0.9923을 달성했다. 또 파라미터를 기존 타 모델 대비 20배 가벼운 1억 1천만 개 수준으로 설계해, 메모리 사용량을 대폭 절감했다. 법원에서 실제로 활용할 수 있도록 실용성과 효율성을 극대화한 것이다. 

*파라미터: 인공지능이 데이터를 학습하면서 저장한 판단 기준의 개수로, 적을수록 모델이 가볍고 빠르게 작동한다


□ 연구팀은 “고품질의 벤치마크 데이터셋을 통해 한국 리걸 테크(Legal Tech) 분야의 고질적인 데이터 부족 문제를 해결했다”며 “판결문 비식별화 업무를 자동화함으로써 판결문 공개를 획기적으로 확대하고 사법 투명성을 높이는 데 기여할 것”이라고 의의를 밝혔다.


□ 본 연구 성과는 3월 26일 모로코 라바트에서 개최된 자연어 처리 분야 세계 최고 권위 학회 중 하나인 ‘EACL 2026’에서 발표됐으며, 국내 특허로도 출원되었다.

*논문명: K-LegalDeID: A Benchmark Dataset and KLUEBERT-CRF for De-identification in Korean Court Judgments 
*DOI: 10.18653/v1/2026.eacl-long.103
*URL: https://aclanthology.org/2026.eacl-long.103/


□ 이번 연구는 과학기술정보통신부 및 정보통신기획평가원의 ICT명품인재양성 사업과 한국연구재단 이공분야기초연구사업의 지원을 받아 수행됐다. 

담당부서

컴퓨터학과 (02-3290-3209)

문     의

커뮤니케이션팀 (02-3290-1063)