[Insight] 생성형 AI: 리걸테크의 혁신을 이끄는 기술 (2)
INSIGHT
BY | 강서영
DATE | 2025. 02. 20.
리걸테크 서비스는 단순 검색을 넘어, 방대한 법률 문서를 분석하고 요약하며, 법적 논리를 정리하는 기능까지 제공하고 있는데요, 지난 1편에 이어 2편에서는 리걸테크 산업을 더욱 혁신적으로 변화시키고 있는 LLM기술을 알아보겠습니다. LLM이 어떻게 언어를 학습하는지, 법률 데이터와 결합했을 때 어떤 시너지를 내는지, 그리고 실제 리걸테크 서비스에서 어떻게 활용되는지 지금 바로 확인해보세요!
지난 1편에서는 초기 리걸테크 서비스 기술인 ‘DB 검색’에 대해 설명드렸었는데요, 리걸테크 산업의 토대를 마련하는 기술을 다뤘다면 이번 2편에서는 리걸테크 산업의 새로운 혁신을 선도하는 LLM (Large Language Model) 기술에 대해 설명 드리려고 합니다.
LLM 기술을 적용한 리걸테크 서비스들은 시간이 많이 드는 반복적인 법률 업무를 보조함으로써 업무 효율성을 크게 높이고 있는데요, 이러한 생성형 AI 기반 서비스들의 기술과 작동방식에 대해서 이해하게 된다면 리걸테크 산업의 가능성과 잠재력에 대해서도 더 깊게 이해할 수 있을거에요.
리걸테크 산업에 혁명을 일으키며 혁신의 새로운 지평을 연 LLM
생성형 AI에 대한 관심과 그 열기가 계속되고 있는데요, AI 모델의 발전으로 생성형 AI가 더 사실적이고 정교한 결과를 생성할 수 있게 되면서 다양한 분야에 큰 영향을 미치고 있습니다.
이렇듯 생성형 AI에 대한 대중적인 이해와 인식이 증가함에 따라, 생성형 AI 기반 서비스들이 다양한 분야에서 정보 검색, 아이디어 생성, 문제 해결 등 여러 목적에 맞게 유용하게 활용되고 있어요. 실제로 생성형 AI를 이용하면 방법은 저희에게 익숙한데요, 질문하고 답변을 받는 채팅과 같습니다. 메신저를 하듯 대화창에서 이용자가 하고 싶은 말을 입력하고 생성형 AI가 제공하는 답변을 기다리면 되죠.
로앤컴퍼니가 운영하는 생성형 AI 기반 서비스 ‘슈퍼로이어’ 이용 화면
생성형 AI 서비스는 마치 인간과 자연스럽게 대화할 수 있도록 설계되어 있는데요, 복잡하고 어려운 질문에도 질문의 목적과 의미를 이해하고 정확하고 빠른 답변을 제공합니다.
그렇다면 위 슈퍼로이어 서비스 화면과 같은 생성형 AI 서비스의 답변은 어떻게 만들어지는 걸까요? 생성형 AI 서비스의 핵심 구성 요소인 LLM을 학습시키는 방법과 답변을 생성하는 과정을 설명드리려고 합니다.
생성형 AI 서비스의 핵심 기술인 LLM의 동작 방식을 이해하게 된다면, 생성형 AI 서비스의 혁신적인 활용법과 서비스와의 상호작용이 가져다 줄 더 큰 가치를 발견할 수 있을거에요.
LLM은 언어데이터를 어떻게 학습시킬까?
LLM의 가장 큰 특징은 거대한 양의 언어 데이터를 학습해 문맥과 의미를 정밀하게 분석할 수 있다는 점인데요, 그렇다면 LLM은 언어데이터를 어떻게 학습시킬까요? 우선 LLM에 대한 간단한 이해가 필요한데요, LLM은 Large Language Model(거대언어모델)라는 이름에서 알 수 있듯이 대량의 텍스트 데이터를 학습하고, 이를 바탕으로 인간의 자연어를 이해하고 생성해내는 딥러닝 모델입니다.
LLM을 학습시키는 방법에 대해 더 자세히 알아볼게요. LLM은 딥러닝과 신경망을 기반으로 작동하는데요, 특히 자연어 학습을 위해서는 ‘트랜스포머 모델(Transformer Model)’이 필요합니다. 트랜스포머 모델은 문장 속 단어의 관계를 이용해 맥락과 의미를 학습하는데 매우 유리하며, 이를 통해 문장의 의미를 보다 정확하게 추론할 수 있습니다. 마치 우리 인간이 문장을 읽으며 자연스럽게 맥락을 파악하는 것과 비슷하다고 볼 수 있어요.
예를 들어 트랜스포머 모델로 “대한민국의 국민이 되는 요건은 법률로 정한다.” 라는 문장을 학습한다고 가정해보겠습니다. 컴퓨터는 ‘대한민국’, ‘국민’, ‘법률’ 과 같은 단어를 이해할 수 없기 때문에 새로운 명칭을 붙여야 하는데요, 이때 숫자를 이용합니다. 컴퓨터는 숫자만 이해할 수 있기 때문에, 텍스트를 숫자로 표현해야 AI 모델을 이용한 학습 및 추론이 가능합니다. 이렇게 기계가 이해할 수 있도록 단어를 숫자 표현으로 변환하는 단계를 ‘임베딩’ 이라고 부르는데요, “대한민국의 국민이 되는 요건은 법률로 정한다.” 라는 문장의 임베딩은 아래와 같습니다.
임베딩된 자연어는 벡터(Vector) 형태가 됩니다. 벡터는 무엇이고, 왜 하필 벡터일까요?
머신러닝 분야에서 벡터는 n차원 공간의 숫자 정보를 포함하고 있습니다. 따라서 숫자로 임베딩 된 단어를 맥락적 의미를 기반으로 다차원 공간에서 기계가 읽을 수 있는 수치인 벡터로 표현할 수 있는데요, 벡터는 위치 정보를 포함하기 때문에 서로 의미가 유사하거나 관련이 깊은 단어들은 가까이, 완전히 다른 단어들은 멀리 있게끔 변환할 수 있습니다.
단어를 컴퓨터가 이해할 수 있도록 문장의 위치 정보를 포함한 벡터로 임베딩했다면, 이제 단어들끼리의 관계를 보면서 문장을 이해해야겠죠?
트랜스포머 모델에서는 단어들간의 관계를 파악하기 위해 ‘셀프 어텐션(Self-Attention)’이라는 기법을 활용합니다. 해당 기법은 병렬처리를 통해 하나의 단어를 문장 내 다른 모든 단어들과 비교하는 방식으로, 모든 단어들과 비교하기때문에 단어들 간의 관계를 잘 파악할 수 있습니다. 단어들의 모든 부분에 주의(Attention)를 기울일 수 있는 기법이라 셀프 어텐션으로 불려요!
아래는 “대한민국의 국민이 되는 요건은 법률로 정한다.” 라는 문장 내 단어들의 셀프 어텐션 결과인데요, 이미지와 같이 셀프 어텐션 과정을 거치면 단어간의 상관관계에 있어 일종의 값이 나옵니다. 이 값으로 문장에서 중요한 단어가 무엇인지 판단할 수 있습니다.
예시 문장에서는 동일한 단어간의 값을 제외한 것 중 “국민은”과 “자유를”의 단어간의 점수가 1.0으로 가장 높다는 것을 확인할 수 있는데요, 이에 “국민은”과 “자유를”의 상관관계가 가장 중요하다고 판단할 수 있습니다. 이러한 단계(Layer)를 여러 번 거치며 점점 더 나은 결과값을 얻어낼 수 있는데요, 여러 번 거치게 되면 최종적으로는 무수히 많은 텍스트 데이터의 문맥을 파악할 수 있게 됩니다.
사람의 말로 답을 하는 LLM
이번에는 사용자의 입력에 맞추어 답변을 생성하는 과정을 살펴볼게요.
LLM은 학습한 데이터를 바탕으로 질문 다음에 올 수 있는 말을 예측합니다. 모델을 학습시킬 때 구한 단어끼리의 상관 관계를 이용해 가장 자연스러운 구문을 찾는 것입니다. 예시를 하나 들어볼게요!
LLM에 “변호사는”이라고 입력하였습니다. 그러면 LLM은 학습된 데이터를 기반으로 관련된 단어를 탐색합니다. 가지마다 가중치를 비교하며 “의뢰인의”, “비밀을”, “지킨다”가 등장할 가능성이 높다고 예측하고, “변호사는 의뢰인의 비밀을 지킨다”를 답변합니다. 이해가 되시나요?
이러한 과정을 거쳐 범용성이 높은 LLM이 탄생하는 것입니다.
법률 데이터 처리에 최적화된 LLM
LLM의 학습 방법과 답변 처리 방식을 이해하면 법률 데이터 특성상 LLM과 강한 시너지 효과를 낼 수 있다는 것을 알 수 있습니다.
우선 법률 데이터는 문맥 의존성이 강하고 논리적 구조가 명확합니다. LLM은 대규모 문맥 정보를 활용하여 문서의 핵심 요지를 파악하는 데 강한 성능을 보이기 때문에 법률 데이터를 효과적으로 처리할 수 있어요. 또한, LLM의 텍스트 내 패턴을 학습하는 능력을 활용하연 법률 판례에서 중요한 법적 논리나 판결 경향을 분석하여 유사한 사례를 빠르게 검색하거나 예측할 수 있습니다. 예를 들어, 특정 법적 분쟁에서 과거 판례를 기반으로 유사한 사건의 판결 결과를 예측하는 것이 가능해요.
일반적으로 법률 문서는 방대한 분량의 텍스트로 구성되며, 판례, 법령, 계약서, 논문 등의 다양한 형식을 포함하는데요, LLM의 대량의 비정형 데이터를 빠르게 처리하고 중요한 정보를 요약할 수 있는 NLP 기술은 방대한 양과 다양한 형식의 법률 문서를 정교하게 분석하고 요약하는 데 적합합니다. 뿐만 아니라 일반적으로 법률 문서는 일정한 패턴을 따르는 경우가 많아요. LLM을 기반으로 특정 사건에 맞는 법률 문서 초안을 생성하고 법률 전문가가 이를 검토하여 수정하는 방식으로 업무 효율성을 높일 수 있습니다.
이렇듯 LLM은 법률 데이터가 가지는 논리적 구조와 문맥 의존성에 적합하게 설계되어 있어 리걸테크 서비스와 강한 시너지 효과를 낼 수 있는데요, 법률 분야에서 LLM은 법률 전문가의 보조 서비스 제공을 위한 핵심 기술로 활용되고 있어요.
LLM을 활용한 리걸테크 서비스
생성형 AI 기반 리걸테크 서비스는 로톡엑스에서도 여러차례 소개한 바 있는데요, LLM 기술을 법률 분야에 적용하여 자동화, 분석, 예측, 문서 생성 등의 다양한 역할을 수행하는 서비스에는 어떤 것들이 있을까요?
Superlawyer
슈퍼로이어는 앞서 설명 드린 법률문서 자동 작성 및 요약 기능과 리서치 기능 외에도 문서/사건 기반 대화 기능 등 변호사 법률 업무에 특화된 기능들을 제공하고 있어요.
슈퍼로이어는 492만 건 이상의 판례 데이터를 기반으로 법률 리서치를 돕고, 법률서면 초안 작성을 도우며, 업로드한 문서를 바탕으로 관련 내용을 찾아 답변해주기도 합니다. 고객의 프롬프트에 따른 다양한 기능을 제공하기 때문에 범용성이 한층 넓어졌다고 볼 수 있어요. 또한, 생성형 AI의 한계로 꼽히고 있는 할루시네이션을 최소화하기 위해 자체 수집한 방대한 법률 데이터를 RAG 및 에이전트 기술을 적용해 답변에 활용하여 신뢰성을 높였습니다.
그밖에도 슈퍼로이어와 같이 법률 업무와 관련된 다양한 영역에서 업무 효율을 높여주는 대표적인 법률 AI 비서 서비스로는 미국의 리걸테크 기업 Casetext에서 출시한 Harvey AI, CoCounsel 서비스와 톰슨로이터에서 출시한 Practical law AI 등이 있어요.
DoNotPay
DoNotPay에서 서비스 중인 ‘로봇 변호사’는 본래 주차 딱지 이의제기를 위해 출시된 서비스였으나, 지금은 그 범위가 확장되어 일상 생활 속 법률 조언이 필요한 상황이라면 언제든 서비스를 사용할 수 있게 되었습니다. 예를 들어 DoNotPay 이용자들은 정기 구독 서비스 해지나 항공편 지연 및 취소에 대한 보상, 은행 수수료 환불, 임대차 분쟁 해결, 의료보험 사기, 암호화폐 동결, 결혼 증명 등 다양한 생활영역에서 법률 정보를 얻을 수 있어요.
DoNotPay와 같은 서비스는 AI 기반 법률 정보 챗봇인데요, 이러한 서비스들은 법률 지식이 없이도 플랫폼을 쉽게 이용할 수 있고, 경제적인 부담이 적다는 점에서 큰 호응을 얻고 있습니다.
리걸테크의 미래에 대해 많은 관심과 기대 부탁 드립니다
1편의 법령DB 검색부터 시작해 2편의 LLM까지 모두 다뤄보았는데요, 기술의 발전으로 법률 업무의 정확성과 효율성이 크게 향상되며 국민들의 사법 접근성도 상당히 높아졌습니다.
LLM을 활용한 리걸테크 서비스는 앞으로 더욱 정교해질 것이며, 법률 전문가들이 보다 효율적으로 업무를 수행할 수 있도록 도울 것입니다.
기술의 발전이 법률 시장에 가져올 변화는 단순한 자동화를 넘어, 사법 접근성을 확대하고 법률 서비스를 더욱 혁신적으로 개선하는 방향으로 나아가고 있습니다. 앞으로도 법률 산업에서 AI와 리걸테크의 발전이 어떻게 이루어질지 많은 기대가 됩니다!
Edit 신다솜
-이 아티클은 2025년 2월 기준으로 작성되었습니다.