Offcanvas

AI / 로봇|자동화 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 신기술|미래 / 애플리케이션

사무원은 가고 마법사가 왔다··· 생성형 AI가 바꿔내는 데이터베이스 분야

2023.08.10 Peter Wayner  |  InfoWorld
생성형 AI는 챗봇만을 위한 기술이 아니다. 여기 AI와 머신러닝이 데이터를 저장하고 구조화하며 쿼리하는 방법을 어떻게 바꿔내고 있는지 살펴본다. 
 
Image Credit : Getty Images Bank


생성형 AI에 대한 열광과 조명에도 불구하고 이 새로운 주인공이 일으킬 가장 큰 변혁은 소프트웨어 스택 깊숙이 묻혀 있을 수 있다. 보이지 않는 곳에서 AI 알고리즘들이 데이터베이스 세상을 바꾸고 있다. 전 세계의 데이터를 규칙적인 테이블로 추적하도록 구축된 시스템을 뒤집고 있는 것이다.

이미 데이터 스토리지 스택의 모든 수준에서 업데이트가 이루어지고 있으며, 기본 데이터 구조가 새롭게 검토되고 있다. 데이터베이스 제조업체들은 AI 모델과 더 잘 작동하도록 우리가 정보를 저장하는 방식을 혁신하고 있다. 그리고 고착화되고 기계적이었던 데이터베이스 관리자의 역할 또한 더욱 광범위한 방향으로 진화하고 있다. 책만 보는 사무원은 사라지고 마음을 읽는 마법사가 등장했다.

AI로 인해 데이터베이스가 변화하고 발전하는 흐름을 10가지로 정리해 살펴본다.

벡터 및 임베딩
AI 개발자는 정보를 긴 숫자 벡터로 저장하곤 한다. 과거에는 데이터베이스에서 이러한 값을 행으로 저장하고 각 숫자를 별도의 열에 저장했다. 이제는 일부 데이터베이스가 순수 벡터를 지원하므로 정보를 행과 열로 세분화할 필요가 없다. 대신 데이터베이스가 이들을 함께 저장한다. 저장에 사용되는 일부 벡터는 수백 또는 수천 개의 긴 숫자다.

이러한 벡터는 일반적으로 복잡한 데이터를 단일 숫자 목록으로 변환하는 스키마인 임베딩과 짝을 이룬다. 임베딩 설계는 여전히 매우 예술적인 작업이며, 종종 기본 도메인에 대한 지식을 필요로 한다. 임베딩이 잘 설계되면 데이터베이스는 빠른 액세스와 복잡한 쿼리를 제공할 수 있다.

파인콘, 베스파, 밀버스, 마고, 위비에이트와 같은 일부 회사는 벡터를 저장하는 데 특화된 새로운 데이터베이스를 구축하고 있다. PostgreSQL과 같은 다른 회사들은 기존 툴에 벡터를 추가하고 있다.

쿼리 모델
데이터베이스에 벡터를 추가하면 편리함 그 이상을 얻을 수 있다. 새로운 쿼리 함수가 단순히 정확히 일치하는 것을 검색하는 것 이상의 것을 수행할 수 있는 것이다. 가령 ‘가장 가까운 값’을 찾을 수 있어 추천 엔진이나 이상 징후 탐지와 같은 시스템을 구현하는 데 도움이 된다. 벡터 공간에 데이터를 임베딩하면 단순한 기하학적 거리에 대한 매칭 및 연결과 관련된 까다로운 문제를 단순화할 수 있다.

파인콘, 베스파, 밀버스, 마고, 위비에이트와 같은 벡터 데이터베이스는 벡터 쿼리를 제공한다. 루씬(Lucene)이나 솔라(Solr)처럼 예상치 못한 툴도 비정형 텍스트 대형 블록에 대해 유사한 결과를 제공할 수 있는 유사도 일치도 제공한다.

권장 사항
새로운 벡터 기반 쿼리 시스템은 예전의 쿼리 시스템보다 더 신비로운 느낌을 준다. 이전 쿼리는 일치하는 항목을 찾았지만, 이들 새로운 AI 기반 데이터베이스는 사용자의 마음을 읽는 것처럼 느껴지기도 한다. 

유사도 검색을 사용하여 ‘가까운’ 데이터 항목을 찾으며, 이러한 데이터 항목은 사용자가 원하는 것과 잘 일치하는 경우가 많다. 그 밑바탕에 깔려 있는 수학은 n차원 공간에서 거리를 구하는 것처럼 간단할 수 있지만, 예상치 못한 결과를 제공하기에는 충분하다. 이러한 알고리즘은 오랫동안 전체 애플리케이션으로 별도로 실행되어 왔지만, 더 나은 복잡한 쿼리를 지원할 수 있도록 데이터베이스 자체에 서서히 겹쳐지고 있다.

오라클은 이 시장을 대상으로 하는 데이터베이스의 한 가지 예시다. 오라클은 오랫동안 퍼지 매칭과 유사도 검색을 위한 다양한 기능을 제공해 왔다. 이제 온라인 리테일과 같은 산업에 맞춤화 된 툴을 직접 제공한다.

인덱싱 패러다임
과거에는 데이터베이스에서 특정 열을 기준으로 더 빠른 검색을 지원하는 간단한 인덱스를 구축했다. 데이터베이스 관리자는 적절한 인덱스를 사용하여 더 빠르게 실행되는 조인 및 필터링 절을 사용하여 정교한 쿼리를 작성하는 데 능숙했다. 이제 벡터 데이터베이스는 벡터의 모든 값을 효과적으로 포괄하는 인덱스를 생성하도록 설계된다. 서로 ‘인접한’ 벡터를 찾기 위한 모든 애플리케이션을 이제 막 파악하기 시작했다.

하지만 이는 시작에 불과하다. AI는 데이터베이스에서 학습할 때 데이터베이스의 모든 정보를 효과적으로 흡수한다. 이제 AI에 일반 언어로 쿼리를 보내면 AI가 복잡하고 적응적인 방식으로 검색할 것이다.

데이터 분류 
AI는 단순히 데이터베이스에 새로운 구조를 추가하는 것만이 아니다. 때로는 데이터 자체에 새로운 구조를 추가하기도 한다. 어떤 데이터는 지저분한 비트 더미에 불과하다. 주석이 없는 이미지나 오래 전에 누군가가 작성한 커다란 텍스트 덩어리가 있을 수도 있다. 

하지만 인공지능 알고리즘이 혼란을 정리하고, 노이즈를 걸러내고, 혼란스러운 데이터 세트에 질서를 부여하기 시작했다. 표를 자동으로 채운다. 텍스트 블록의 감정 톤을 분류하거나 사진 속 얼굴의 태도를 추측할 수 있다. 이미지에서 작은 세부 사항을 추출할 수 있으며 알고리즘은 패턴을 감지하는 것을 학습할 수 있다. 데이터를 분류하고 중요한 세부 정보를 추출하여 규칙적이고 깔끔하게 묘사된 표 형식의 정보 보기를 생성한다.

아마존 웹 서비스는 세이지메이커와 같은 AI 툴과 오로라와 같은 데이터베이스를 연결하는 다양한 데이터 분류 서비스를 제공한다.

더 나은 성능
좋은 데이터베이스는 데이터 저장에 대한 많은 세부 사항을 처리한다. 과거에는 프로그래머가 데이터베이스가 효율적으로 작동하도록 하기 위해 데이터베이스에서 사용되는 다양한 매개변수와 스키마에 많은 시간을 할애해야 했다. 이러한 작업을 처리하기 위해 데이터베이스 관리자의 역할이 인정받기도 했다.

이러한 상위 수준의 메타 작업 중 상당수는 현재 머신러닝 알고리즘을 사용하여 쿼리 패턴과 데이터 구조를 이해함으로써 자동화되고 있다. 서버의 트래픽을 관찰하고 수요에 맞게 조정하는 계획을 발전시킬 수 있다. 실시간으로 적응하고 사용자에게 필요한 것이 무엇인지 예측하는 방법을 배울 수 있다.

오라클이 좋은 예 중 하나다. 과거에는 기업에서 데이터베이스를 관리하는 데이터베이스 관리자에게 거액의 급여를 지급했다. 이제 데이터베이스에 성능을 즉각적으로 조정하는 정교한 AI 알고리즘을 적용함에 따라 오라클은 자사의 데이터베이스에 대해 ‘자율적’이라는 표현을 사용한다.

더 정리된 데이터
좋은 데이터베이스를 운영하려면 소프트웨어가 제대로 작동하는 것뿐만 아니라 데이터가 최대한 깨끗하고 결함이 없는지 확인해야 한다. AI는 이상 징후를 검색하고, 플래그를 지정하고, 심지어 수정 사항을 제안함으로써 이러한 워크로드를 단순화한다. 고객 이름의 철자가 틀린 부분을 찾아낸 다음 나머지 데이터를 검색하여 올바른 철자를 찾아낼 수 있다. 또는 들어오는 데이터 형식을 학습하고 데이터를 수집하여 모든 이름, 날짜 및 기타 세부 정보가 가능한 한 일관되게 렌더링 되는 단일 통합 코퍼스를 생성할 수도 있다.

마이크로소프트의 SQL 서버는 데이터 품질 서비스와 긴밀하게 통합되어 누락된 필드나 중복된 날짜 등의 문제가 있는 데이터를 정리하는 데이터베이스의 예이다.

사기 탐지
보다 안전한 데이터 스토리지를 만드는 것은 머신러닝을 위한 특별한 응용 분야이다. 일부에서는 머신러닝 알고리즘을 사용하여 데이터 피드에서 이상 징후를 찾는데, 이는 사기의 좋은 징후가 될 수 있기 때문이다. 늦은 밤에 처음으로 ATM에 가는 사람이 있을까? 그 사람이 다른 특정 국가에서 신용카드를 사용한 적이 있는가? AI 알고리즘은 위험한 행을 찾아내어 데이터베이스를 사기 탐지 시스템으로 전환할 수 있다.

예를 들어 구글의 웹 서비스는 데이터 스토리지 스택에 사기 탐지를 통합할 수 있는 몇 가지 옵션을 제공한다.

보안 강화
일부 조직에서는 이러한 알고리즘을 내부적으로 적용하고 있다. AI는 단순히 사용 패턴에 맞게 데이터베이스를 최적화하는 것뿐만 아니라 누군가 침입하고 있다는 것을 나타낼 수 있는 비정상적인 사례도 찾아낸다. 매일같이 원격 사용자가 전체 테이블의 완전한 사본을 요청하지는 않는다. 좋은 AI는 수상한 낌새를 알아차릴 수 있다.

IBM의 가르디움 시큐리티는 데이터 스토리지 계층과 통합되어 액세스를 제어하고 이상 징후를 감시하는 툴의 한 예이다.

데이터베이스와 생성형 AI 병합
과거에는 AI가 데이터베이스와 별개로 존재했다. 모델을 학습시킬 때가 되면 데이터베이스에서 데이터를 추출하여 다시 포맷한 다음 AI에 입력했다. 새로운 시스템은 시행 중인 데이터에서 직접 모델을 학습시킨다. 이렇게 하면 단순히 데이터를 옮기는 데 며칠 또는 몇 주가 걸릴 수 있는 대규모 작업에 대해서 시간과 에너지를 절약할 수 있다. 또한 명령어 하나만 실행하면 AI 모델을 간단하게 학습시킬 수 있어 개발팀의 삶도 안락해진다.

심지어 데이터베이스를 완전히 교체하자는 이야기도 나오고 있다. 관계형 데이터베이스로 쿼리를 보내는 대신, 모든 형식의 쿼리에 마술처럼 답할 수 있는 AI에 직접 쿼리를 보내는 것이다. 구글은 바드를 제안하고 있으며, 마이크로소프트는 챗GPT를 추진하고 있다. 둘 다 검색 엔진을 대체할 유력한 경쟁자이다. 이들이 기존 데이터베이스를 대체하지 못할 이유도 없다.

물론 이 접근 방식에는 단점도 있다. 어떤 경우에는 AI가 환각을 일으켜 완전히 틀린 답을 내놓기도 한다. 또 다른 경우에는 변덕스럽게 출력 형식을 변경할 수도 있다.

그러나 도메인이 충분히 제한되어 있고 학습 세트가 적절하다면 인공지능은 만족스러운 결과를 제공할 수 있다. 또한 표 형식의 구조를 정의하고 사용자가 그 안에서 데이터를 찾는 쿼리를 작성해야 하는 번거로움 없이도 이러한 작업을 수행한다. 생성형 AI로 데이터를 저장하고 검색하는 것이 사용자와 제작자 모두에게 더욱 유연할 수 있다.

* Peter Wayner는 오픈소스 소프트웨어, 자율주행 차량, 개인정보 보호 강화, 디지털 트랜잭션, 스테가노그래피(steganography) 등 다양한 주제에 관한 16권 이상의 책을 저술한 저자다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.