과제
고객사는 법률 상담 서비스용 학습 데이터가 필요하였습니다. 판례문 텍스트 데이터를 사용하기 위해 법적 전문 용어를 간단히 하고, 긴 문장을 분리하며, 개인 정보를 마스킹해야 했습니다. 이러한 복잡성과 민감성 때문에 적절한 데이터 가공 업체를 찾기 어려웠고, 이에 고객사는 틱택코리아에 데이터 수집 및 가공을 의뢰하였습니다.
고객사 소개: AI 법률 상담 서비스 개발
고객사는 AI 및 빅데이터 솔루션을 전문으로 하는 기업으로, 자연어 처리와 이미지 인식 등의 분야에서 탁월한 프로젝트를 수행하고 있습니다. 특히, 리걸테크(Legal+Tech) 분야에서 AI를 활용한 법률 상담 서비스를 제공하여, 소비자에게 합리적인 비용으로 고품질의 법률 서비스에 쉽게 접근할 수 있게 만들었습니다. 이를 통해 법조 시장에 혁신과 부가가치를 도입하는 것을 목표로 하고 있습니다.
틱택코리아 작업 내용
틱택코리아는 공공데이터포털에서 제공하는 판결문을 고객사의 가이드라인에 따라 크롤링해 원천 데이터를 수집하였습니다. 수집된 데이터는 파이썬으로 문장별로 분리한 후, Tictag 앱을 통해 가공되었습니다. 법률 전문가들의 도움으로 텍스트 라벨링을 완료하였고, 최종 가공된 데이터를 고객사에게 제공했습니다.
판결문 데이터는 대부분 익명화 처리가 되어 있으나, 2013년 이전 데이터에서는 익명화가 미흡할 수 있다는 대법원의 안내에 따라, 이름, 주소, 주민번호, 시간 등의 모든 개인정보를 철저하게 마스킹 처리했습니다.
틱택코리아에서 수행한 세부 작업:
A. 판례 데이터 수집 및 가공
B. 개인정보 비식별화 처리
C. 법률 어휘를 일반 용어로 전환
D. 용어 사전을 활용한 자연스러운 번역
E. 긴 문장의 분리
F. 분리된 문장의 독립적 가공
G. 판례문의 긍정/부정적 표현 평가 및 문장 작성
솔루션: 작업 결과
틱택코리아는 5개월간 진행된 프로젝트에서, 고객사의 요구 사항과 가이드라인을 준수하여 텍스트 수집 및 가공 작업을 효율적으로 수행하였습니다. 법률 어휘의 복잡성과 민감한 정보 처리에도 불구하고, 전문가 팀의 노력으로 프로젝트를 성공적으로 완료했습니다.
본 작업의 결과로, 틱택코리아는 5만 개의 판례문과 30만 개의 문장을 성공적으로 가공하여 고객사에 전달하였습니다.
틱택코리아는 고객사와의 사전 미팅을 통해 프로젝트의 요구 사항을 깊이 이해한 후, 지속적인 모니터링으로 데이터 품질과 작업의 효율성을 확보하였습니다.
Comments