로앤컴퍼니는 왜 법률 AI 경진대회를 개최했을까?
SERVICE
BY | 로앤컴퍼니
DATE | 2022. 12. 05.
로앤컴퍼니는 AI 기술을 적용한 법률 정보 검색 서비스 ‘빅케이스’ 출시에 이어, 국내 기업 최다 규모로 법률 AI 데이터셋을 공개하고 AI 모델 개발 경진대회인 ‘클레이드 챌린지 2022’를 개최했습니다.
로앤컴퍼니는 지난 달 법률 AI 데이터셋을 무료로 공개하고 AI 모델 개발 경진대회 ‘클레이드 챌린지 2022’ 을 개최했습니다. 이번에 공개한 데이터셋은 16만 건의 ‘형사 범죄 분류’ 데이터로 일반 AI 연구자들이 쉽게 접하기 어려운 대규모 데이터셋이에요.
로앤컴퍼니가 공개한 판결 데이터는 무엇이고, AI 연구 개발의 장을 마련한 이유는 무엇일까요?
한국어 법률 AI 데이터셋 ‘클레이드’를 만들다.
로앤컴퍼니는 자체 보유한 데이터를 기반으로 만든 법률 AI 데이터셋을 ‘클레이드’라고 부르고 있습니다.
클레이드(KLAID)는 로앤컴퍼니가 자체 보유한 데이터를 기반으로 만든 ‘한국어 법률 AI 데이터셋’으로, Korean Legal AI Datasets 의 앞 글자를 따서 만든 이름이에요.
‘데이터셋’이 무엇일까요?
데이터셋은 AI 학습에 있어서 특정 작업을 잘 수행하도록 관련성 있는 데이터를 모아놓은 자료에요. 법률 AI 데이터셋은 형사 범죄, 민사, 행정 등과 같이 ‘특정’ 법률 AI 연구에 대해 관련도 높은 데이터 정보의 세트를 구성한 것이죠.
참고로 AI는 인간의 인지, 추론, 지각, 판단 등의 능력을 컴퓨터로 실현한 기술인데요, 연구를 위해서는 방대한 데이터가 필요합니다. 학습하는 내용이 많을수록 더 정확한 예측을 할 수 있기 때문입니다. 또한, 좋은 성능의 AI 모델을 만들기 위해서는 데이터의 양뿐만 아니라 질도 중요합니다. AI 연구자들은 이처럼 방대한 양질의 데이터를 바탕으로 고도화된 AI 기술을 선보일 수 있어요.
로앤컴퍼니는 지난 11월 14일 첫번째 클레이드로 ‘형사 범죄 분류’ 데이터셋을 무료로 공개했습니다.
데이터셋 공개를 위해 로앤컴퍼니는 자체 보유한 약 320만 건의 판결문 중 55만 건의 1심 형사사건을 분석했고, 범죄사실과 그에 따른 적용법조를 하나의 쌍으로 구성했습니다. 공개하는 데이터셋 양은 무려 16만 건으로 국내 기업 중에서는 최다 규모예요.
데이터셋으로 무엇을 할 수 있을까요? ‘형사 범죄 분류’ 데이터셋을 활용하면 피고인의 범죄사실에 대해 위반한 법령을 추측하는 AI 모델을 개발할 수 있습니다. 예를 들어 ‘어떠한 피고인이 혈중알콜농도가 0.1%인 상태에서 운전했다’는 사실에 근거한 상황을 입력할 경우 ‘도로교통법 제 48조의 2 제3항 제 2호’, ‘도로교통법 제44조 제1항’과 같이 위반한 법령을 알려주는 것이지요.
로앤컴퍼니가 16만 건의 법률 AI 데이터셋을 공개하는 이유
로앤컴퍼니는 왜 그렇게 많은 법률 AI 데이터셋을 무료로 공개하기로 했을까요?
법률 AI 데이터셋 공개 자체만으로도 리걸테크 산업 발전에 기여
법률은 고도의 전문지식과 논리적 사고가 필요한 분야로 인간 지능의 중요한 측면을 표현하고 있어요. 따라서 법률 AI 데이터셋을 활용한 연구는 그 자체로 AI 연구 발전에도 도움이 됩니다.
특히 판결문은 법률 AI 연구 개발에 있어 핵심적인 데이터입니다. 법률문제에 대해 다양한 사실 관계와 서로 다른 주장, 이에 대한 법원의 법리 판단과 결론 등 하나의 문서에 많은 정보를 포함하고 있기 때문이에요. 또한 판결문은 오랜 기간 동안 훈련받은 법률가가 정제된 표현으로 작성한 문서로 예측 모델의 정확도가 높은 편입니다. 따라서 응용 서비스 개발에도 활용하기 쉽습니다.
하지만 판결문은 누구나 쉽게 볼 수 있는 데이터는 아니에요. 무료로 공개되는 판결문이 있지만 그 수가 전체 판결문에 비해 너무 적고, 일부 판결문은 별도 비용을 내고 구매해야합니다.
법률 AI 연구에 필요한 판결문 기반의 법률 AI 데이터셋 확보도 쉽지 않습니다. AI 통합 플랫폼 ‘AI허브’에서 법률 분야를 포함해 다양한 영역의 AI 학습 데이터를 공개하고 있지만 법률 AI 데이터셋 중 형사 판결문은 수천 건 정도입니다.
리걸테크 산업이 다양하게 발전하기 위해서는 법률 AI 연구가 활발하게 이뤄져야 합니다. 그러기 위해서는 AI 연구자들이 필요한 데이터를 쉽게 이용할 수 있어야겠죠. 로앤컴퍼니가 국내 기업 중 가장 많은 법률 AI 데이터셋을 공개한 이유가 여기 있습니다.
리걸테크의 큰 미래를 꿈꾸는 로앤컴퍼니의 법률 AI 연구 개발
로앤컴퍼니는 이번에 공개한 16만 건의 ‘형사 범죄 분류’ 데이터셋을 시작으로 더 많은 범위에서 AI 연구 활동에 도움이 되는 데이터를 꾸준히 공개해 나갈 계획입니다.
그리고 데이터셋 공개에 그치지 않고 실제 법률 AI 모델을 개발하고, 구축한 모델이 얼마나 정확하게 결과를 보여주는지 확인받을 수 있는 대학생 및 대학원생 대상의 경진대회를 개최해 더 많은 AI 연구자들이 법률 AI 연구에 관심을 기울이고, 의미있는 연구를 진행할 수 있도록 힘을 보탤 것입니다.
이번 경진대회에 참여하지 않더라도 AI 연구자라면 누구든지 클레이드 홈페이지에서 데이터셋을 다운로드 받아 AI 모델을 만들어 볼 수 있습니다. 리걸테크의 큰 미래를 꿈꾸며 법률 AI 연구 개발의 장을 만들어 나가는 로앤컴퍼니의 행보에 AI 연구자분들도 적극 동참하시기를 기대해봅니다.
Edit 박가영 Graphic 허주경
-이 아티클은 2022년 12월 기준으로 작성되었습니다.