[Insight] 법령 DB 검색 기술 : 리걸테크의 시작 (1)
INSIGHT
BY | 강서영
DATE | 2025. 02. 20.
법률가는 관련 기록과 판례를 기반으로 논리를 구성해야 하기 때문에 방대한 법률 정보를 신속하고 정확하게 찾아야 합니다. 이를 지원하기 위해 법령 DB 검색 시스템이 등장했는데요, 법령 DB 검색 기술은 법률 정보를 신속하고 정확하게 검색할 수 있도록 지원하는 리걸테크의 핵심 기술입니다. 법령 DB 검색 기술과 관련 서비스들을 설명 드리겠습니다.
리걸테크(LegalTech)는 법률(Legal)과 기술(Technology)이 결합된 개념으로, 법률 업무를 지원하는 다양한 기술과 서비스를 포함하는 산업입니다.
리걸테크 서비스는 적용되는 기술에 따라 목적과 기능이 달라지며, 이를 이해하면 변호사의 업무 방식 변화부터 리걸테크 시장의 흐름까지 폭넓게 파악할 수 있습니다.
이번 시리즈에서는 리걸테크의 핵심 기술을 다룰 예정입니다. 1편에서는 법령 DB 검색 기술을, 2편에서는 최근 법률 시장의 혁신을 이끄는 생성형 AI 기술을 살펴보겠습니다.
리걸테크 서비스의 시작 ‘법령 DB 검색’
필요한 정보를 찾을 때 우리는 검색창에 키워드를 입력하고 원하는 결과를 얻습니다.
이와 마찬가지로 법률 산업에서도 필요한 법률 정보를 찾기위해 검색 서비스를 활용하는데요, 수많은 법률 데이터에 기반하여 내가 원하는 정보를 찾을 수 있도록 개발된 서비스가 바로 ‘법령 DB 검색’ 서비스입니다.
법률가들은 법적인 판단을 내릴때 관련 기록과 히스토리를 기반으로 판단을 내리기 때문에 자료를 검토하고 활용하는 것이 매우 중요합니다. 이러한 업무를 돕기 위해 이용자가 필요한 법률 정보를 정확하게 찾을 수 있는 법령 DB 검색 시스템이 개발되었습니다.
DB 검색 시스템으로 법령 검색 사이트를 구현한 법제처의 국가법령정보센터
법령 DB 검색 시스템에는 어떤 기술이 이용될까? DB 검색 기술의 A to Z
DB, 데이터베이스란?
‘법령 DB 검색’ 의 DB, 데이터베이스가 무엇인지 알아볼까요?
데이터베이스는 여러 사람에 의해 공유되어 사용될 목적으로 통합하여 관리되는 여러 데이터의 집합을 의미합니다. 우리가 메시지를 주고 받거나, 물건을 살 때, 대중교통을 이용할 때 모두 데이터가 생깁니다. 이 데이터를 산발적으로 두지 않고 하나로 모은 것을 데이터베이스라고 해요.
데이터베이스의 형태는 매우 다양한데요, 크게는 계층형 데이터베이스와 네트워크 데이터베이스, 객체 지향 데이터베이스 등이 있습니다. 그 중 관계형 데이터베이스는 우리에게 비교적 친숙합니다. 관계형 데이터베이스는 ‘테이블 형식’으로 이루어져있는데, 이는 우리가 흔히 접하는 엑셀 시트의 행과 열로 이루어져 있어요.
위 이미지에서 엑셀과 관계형 데이터베이스, 두가지의 형태과 구조가 매우 비슷하다는 것이 느껴지시나요? 이미지를 통해서 여러 데이터들의 집합이 데이터베이스라는 것을 한 눈에 이해하셨을 거예요.
데이터베이스를 어떻게 사용할까요?
그렇다면 이러한 데이터를 모아서 만든 데이터베이스를 어떻게 사용할 수 있을까요?
데이터베이스 자체만으로는 사용하는 것이 거의 불가합니다. 따라서 데이터베이스를 사용하기 위해서는 데이터베이스를 관리하고 운영하는 소프트웨어인 DBMS(Database Management System)를 이용해야 합니다. DBMS라는 용어가 다소 생소할 수 있는데요, DBMS는 데이터베이스 관리 시스템으로 문서를 작성하는 워드나 한글 프로그램과 같다고 생각하시면 됩니다.
대표적인 DBMS 프로그램
가장 널리 쓰이고 있는 DBMS는 관계형 DBMS 입니다. 앞서 언급한 테이블로 된 관계형 데이터베이스로 관리하기 때문에, 관계형 DBMS라고 부릅니다. 관계형 DBMS를 이용하기 위한 표준언어가 따로 있는데요, 관계형 DBMS에서 사용하는 언어는 SQL(Structured Query Language)입니다. SQL을 쓰면서 데이터베이스의 정렬과 탐색을 활용하여 데이터를 이용할 수 있습니다.
*SGL은? SQL은 'Structured Query Language'의 약자로, 데이터베이스에서 데이터를 추출하고 조작하는 데에 사용하는 데이터 처리 언어
수많은 데이터를 분류하는 방법은?
법령 DB 검색 시스템을 구현하기 위해 단순히 법령 데이터를 차곡차곡 모아두기만 하면 될까요?
데이터베이스를 활용하기 위해서는 내가 쌓은 데이터가 어떤 데이터인지 한 눈에 알아볼 수 있어야 하는데요, 그래야만 데이터를 보관하는 체계가 생기고, 데이터 검색에 대한 시간이 줄어듭니다. 마트에서 식료품 / 전자제품 / 완구류 등의 대략적인 카테고리에 따라 물건을 보관하고, 빠르게 찾는 것과 같은 원리입니다.
그렇다면 데이터베이스에서 효율적인 분류와 빠른 탐색을 돕는 것은 무엇일까요? 바로 ‘인덱스(index)’입니다. 마치 책의 목차처럼 인덱스는 데이터베이스에서 특정 데이터를 빠르게 찾아내는 데 중요한 역할을 하는데요, 특히 법령DB는 데이터의 양이 방대하기 때문에 데이터 검색을 위해 인덱스가 꼭 필요합니다.
인덱스는 키(key)와 값(value)으로 되어 있습니다. 키는 데이터를 구분할 수 있는 정보, 값은 데이터의 위치 정보를 담고 있습니다. 위치 정보가 방향성을 가지고 있기 때문에, 값을 포인터(pointer)라고 부르기도 합니다.
인덱스 기법을 그림과 함께 이해해볼까요?
예를 들어 데이터에서 헌법 제1조를 찾는다고 했을때, 우선 인덱스에서 헌법이라는 카테고리를 찾아야 합니다. 이미지에 ‘CON1’ 라고 적힌 키가 있네요. 키를 찾았으니 구체적인 데이터가 있는 행을 찾아야겠죠? CON1과 같은 행의 값을 찾고, 값의 포인터, 즉 화살표를 따라 가봅시다. “대한민국은 민주공화국이다”라는 구절을 확인할 수 있습니다! 만약 인덱스가 없다면 데이터베이스는 헌법 제1조를 찾기위해 테이블을 처음부터 끝까지 스캔해야 헌법 제1조를 확인할 수 있기 때문에 검색하는 시간이 매우 길어집니다. 이렇듯 인덱스를 있을 때는 대량의 데이터에서도 검색 기능이 획기적으로 향상됩니다.
또한, 인덱스에서는 중복이 없을수록 좋습니다. 왜일까요? 인덱스를 이용해서 특정 데이터를 찾아야 하는데 똑같은 키가 있으면 무엇을 가져와야 되는지 알 수 없기 때문이죠. 따라서 인덱스를 중복없이 잘 설정해야 데이터베이스를 검색 엔진과 연결하는 과정에서도 문제가 생기지 않습니다.
어떻게 사람의 언어로 데이터를 찾을까?
데이터베이스 시스템에서는 어떤 과정을 통해 우리가 찾고자하는 정보를 검색을 할 수 있는 것일까요? 검색창에 입력하는 자연어를 데이터베이스 탐색에 필요한 키로 바꾸는 과정을 통해 설명하려고 합니다.
자연어란 우리가 평상시에 사용하는 언어를 말하는데요, 최저임금과 관련된 법령을 검색할 때 사용하는 ‘근로’나 ‘급여’가 바로 자연어입니다.
하지만 사람이 쓰는 자연어와 DB 키(Key)를 구상할 때 쓰는 단어는 다릅니다. DB 키(Key)는 한글이 아닌 경우가 많으며, 코드(Code)와 비슷한 패턴을 갖습니다. 패턴을 통해 간결하게 만들고 중복을 피할 수 있도록 합니다. 또한, 법령들에 지정된 키(Key)는 각각 한 개이나, 하나의 법령과 관련된 자연어는 무수히 많습니다. 자연어를 일일이 지정하여 두는 것도 불가합니다.
그렇다면, 어떻게 자연어 검색을 이용해 이용자가 필요로 하는 정보를 찾아낼 수 있을까요? 바로 자연어 처리, 영어로는 NLP(Natural Language Processing)가 있기 때문입니다.
자연어 처리는 컴퓨터가 인간의 언어를 이해할 수 있도록 하는 방법이에요. 노래 가사에 가장 자주 등장하는 단어를 찾거나, 영화의 리뷰를 긍/부정으로 나누는 것 등 모두 자연어 처리를 이용한 것입니다.
자연어 처리를 위해 첫번째로 사용자가 입력한 검색어를 형태소 단위로 쪼개야 합니다. 한국어는 조사, 접미사, 어미에 따라서도 의미가 달라지기 때문이에요. ‘”밥은 먹었니?”와 “밥까지 먹었니?”의 의미가 다른 것처럼요. 만약 숫자나 특수문자가 있을 경우 변환이나 제거 등의 처리를 하기도 합니다. 그런 다음 쪼개진 형태소들 중 핵심어를 추출해냅니다. 핵심어는 명사나, 빈도수가 제일 높은 단어, 다른 형태소와의 연관성이 높은 것 등 다양한 기준으로 선정될 수 있어요.
예를 들어 명사를 기준으로 선정시, 위 이미지 예시에서는 임금, 근로, 사람 등을 핵심어로 선정할 수 있습니다. 이러한 핵심어가 인덱스와 비슷한 형태가 될 때까지 여러 단계의 처리 과정을 거칩니다. 마지막으로 핵심어와 DB 인덱스를 대조하고 사용자가 원하는 데이터를 추출하여 보여주면 됩니다.
위 이미지와 같이 국가법령정보센터 검색창에 국가법령 ‘근로기준’이라는 키워드를 입력했더니, 핵심어와 매칭된 “근로기준법”, “근로기준법 시행령” 등이 검색되었습니다.
위에서 설명 드린 자연어 처리는 주로 사전 정의된 언어 규칙과 패턴을 기반으로 동작하거나 대량의 자연어 데이터를 기반으로 통계적 모델을 학습하여 자연어를 처리하는 방식인데요, 이러한 자연어 처리 방식은 자연어의 복잡성을 완전히 이해하고 처리하는데 어려움이 있습니다. 하지만 자연어 처리 기술은 점점 고도화되어 이러한 한계를 극복하고 2편에서 서술할 생성형 AI 기반 법률 서비스 기술의 근간이 됩니다.
법령 DB 검색 기술을 활용한 리걸테크 서비스
법령 DB 검색 기술을 이용한 리걸테크 서비스는 무엇이 있을까요? 대표적인 서비스로 미국의 Westlaw와 프랑스의 Juris Classeur가 있습니다.
Thomson Reuters사의 Westlaw는 1975년에 출시된 북미권의 법령DB 검색 서비스입니다. 운영 기간이 오래된 만큼, 사용자가 법령DB를 편하게 탐색할 수 있는 여러 기능이 탑재되어 있습니다. 사용자는 주석 기능을 통해 텍스트를 강조하거나 메모를 작성할 수 있습니다. 또한, 서비스에서 살펴보았던 자료를 저장 혹은 인쇄할 수 있습니다.
LexisNexis의 Juris Classeur 는 프랑스 법령 DB 검색 서비스입니다. 120만 건 이상의 판례법을 제공하고 130개 이상의 저널과 15만 건 이상의 기록을 가지고 있다고 합니다. 프랑스 뿐만 아니라 벨기에, 룩셈부르크 등 프랑스어로 활동하는 법조인들에게 편리한 검색 서비스를 제공하고 있습니다.
이러한 법령 검색 서비스는 지속적으로 발전하며, 더 정교한 검색 기능과 사용자 편의성을 개선하고 있습니다.
법령 DB 검색 기술과 생성형 AI 기술, 그리고 발전하는 리걸테크 산업
법령 DB 검색 시스템 기술에 대해 이해하고 서비스를 살펴보니, 서비스의 목적과 특징이 더욱 잘 이해되는 것 같지 않으시나요?
법령 DB 검색 기술은 법률 데이터 검색 및 인덱싱을 통해 필요한 법률 정보와 판례를 빠르고 정확하게 찾을 수 있도록 지원하는데요, 그러나 기존의 법령 DB 검색 기술만으로는 복잡한 질문에 대한 심층적 해석이 어렵습니다. 이러한 한계를 극복한 기술이 생성형 AI 에요. 생성형 AI 기술을 활용한 서비스는 사용자의 질문을 이해하고 자연어로 응답할 수 있으며 문서를 요약하고 핵심까지 파악할 수 있습니다.
2편에서는 생성형 AI 기술에 대한 설명과 법률 데이터와의 시너지, 그리고 생성형 AI 기술을 적용한 리걸테크 서비스들을 설명 드리겠습니다. 2편에도 많은 관심 부탁드립니다!
Edit 신다솜
-이 아티클은 2025년 2월 기준으로 작성되었습니다.