Offcanvas

AI / 데이터센터 / 리더십|조직관리 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스

‘방대한 양의 과학 데이터’… NASA의 생성형 AI 도입 여정

2024.01.16 Thor Olavsrud  |  CIO
미 항공우주국(NASA)은 과학자들이 방대한 양의 과학 데이터에 쉽게 액세스할 수 있도록 생성형 AI를 활용해 상황에 맞는 결과를 제공하는 SDE(Science Discovery Engine)을 개발했다.
 
Kaylin Bugbee ⓒ NASA

NASA처럼 많은 데이터를 생성하고 수집하는 경우, 연구 프로젝트에 적합한 데이터 집합을 찾는 일이 문제될 수 있다.

운영 센터 7개, 연구 시설 9개, 직원 18,000명 이상을 보유한 NASA는 천체물리학, 태양물리학, 생물과학, 지구과학, 행성과학 등 5개 분야에 걸쳐 30개 이상의 과학 데이터 저장소에 방대한 양의 데이터를 생성하고 있다. 전체적으로 128개 데이터 소스, 88,000개 이상의 데이터세트, 715,000개 이상의 문서를 보유하고 있으며, 지구과학 데이터만 2025년까지 250페타바이트에 달할 것으로 예상됐다. 이러한 복잡성을 고려하면 과학자들이 데이터를 탐색하는 데는 단순한 분야별 전문 지식 이상이 필요하다.

앨라배마주 헌츠빌의 마샬 우주 비행 센터에서 근무하는 NASA 데이터 과학자 케일린 버그비는 “연구자는 어떤 리포지토리로 이동해야 하는지, 그리고 그 리포지토리에 무엇이 있는지 알아야 한다. 과학 지식과 데이터 지식이 모두 필요하다”라고 말했다.

2019년 NASA 과학 임무국(SMD)은 과학자들과의 인터뷰를 바탕으로 데이터를 찾는 데 도움이 되는 중앙 집중식 검색 기능이 필요하다는 내용의 보고서를 발표했다. SMD의 역할은 미국 과학계와 협력하고, 과학 연구를 후원하며 지구 궤도, 태양계 및 그 너머의 조사를 위해 항공기, 열기구, 우주 비행 프로그램을 활용하는 데 있다. 과학자와 연구자에게 데이터 액세스 권한을 부여하는 것이 기관 설립 취지의 핵심임을 인식한 SMD는 공개적으로 자금을 조달하는 과학 연구의 투명성, 포용력, 접근 가능성, 재현 가능성을 위해 오픈소스 과학 이니셔티브(OSSI)를 수립했다. OSSI의 사명은 소프트웨어, 데이터, 지식(알고리즘, 논문, 문서, 보조 정보 포함)을 연구 과정에서 가능한 한 빨리 공개하고 공유하는 데 있다.

버그비는 “이 프로젝트는 과학자와 과학 커뮤니티에서 나온 것이며, 학제 간 과학을 지원한다는 SMD의 우선순위와도 일치한다. 여기서 새로운 발견이 이뤄질 수 있다”라고 말했다.

이러한 역할을 촉진하기 위해 SMD는 신경망과 생성형 AI를 결합해 방대한 양의 데이터를 과학자들이 손쉽게 사용할 수 있도록 지원했다.

질서 복원하기
OSSI의 핵심에는 시네콰(Sinequa)의 엔터프라이즈 검색 플랫폼으로 구동되는, NASA의 모든 오픈 사이언스 데이터와 정보에 대한 중앙 집중식 검색 및 발견 기능인 SDE가 있다.

버그비는 “SDE가 만들어지기 전까지는 오픈 데이터와 설명서를 검색할 수 있는 곳이 한 군데도 없었다. 이제는 오픈 사이언스 데이터에 대한 단일 검색 기능을 갖췄다”라고 설명했다.

20여 년 전 시맨틱 검색 엔진으로 시작한 시네콰는 AI와 대규모 언어 모델(LLM)을 활용해 문맥에 맞는 검색 정보를 제공하는 데 주력하고 있다. 또한 마이크로소프트의 애저 오픈AI 서비스와 자체 신경망 검색 기능을 통합해 플랫폼을 강화했다.

특히 시네콰의 신경 검색 기능은 키워드와 벡터 검색을 결합해 정보를 검색하고, GPT는 수집된 정보를 빠르게 소화해 재사용 가능한 형식으로 요약한다. 또한 과학자들이 자연어를 사용해 더 심층적으로 질문하고 검색 또는 응답을 구체화할 수 있게 한다. SDE는 약 9,000개의 서로 다른 과학 용어를 이해할 수 있으며, AI 학습에 따라 그 수는 더 늘어날 것으로 예상되고 있다.

데이터 관리 및 정보학에 전문성을 갖춘 과학자, 개발자, AI 및 ML 전문가로 구성된 버그비의 학제 간 팀은 이해 관계자와 긴밀히 협력해 요구 사항을 파악하고, NASA의 최고정보책임자실 및 시네콰와 협력해 개념 증명을 구축했다.

그녀는 “필요한 환경 구축을 위해 이들의 도움을 받았다. 개방형 기능을 갖춰야 했기 때문에 몇 가지 특수한 아키텍처가 필요했다”라고 전했다.

버그비는 주요 장애물로 시스템 가동을 위한 콘텐츠가 NASA 에코시스템 전체에 분산돼 있다는 점을 꼽았다. 팀은 정보 환경, 데이터, 메타데이터 스키마를 이해하기 위해 약 1년간 연구했다.

버그비는 “데이터에 풍부한 정보를 제공하는 모든 맥락 정보(코드, 깃허브, 데이터 개발 방법을 설명하는 알고리즘 문서 등)는 여러 웹 페이지에 분산돼 있다. 이러한 콘텐츠가 어디에 있는지 큐레이션하고 식별하기 위해 노력해 왔다”라고 말했다.

출시 준비는 완료
버그비는 데이터 관리와 데이터 스튜어드십(stewardship)에 대해 잘 알고 있다. 그녀는 데이터.gov와 오바마 대통령의 기후 데이터 이니셔티브에서 메타데이터 품질을 개선하기 위해 현장 경험을 쌓았다. 하지만 SDE를 다루면서 좋은 큐레이션 워크플로우, 즉 원칙적이고 통제된 데이터 생성, 유지 및 관리 프로세스의 중요성을 절실히 깨달았다.

버그비는 “시간을 되돌릴 수 있다면 처음부터 더 강력한 큐레이션 워크플로우를 구축했을 것이다. 처음 시작할 때 즉시 사용 가능한 접근 방식을 사용했고, 한동안 효과가 있었지만 원하는 결과를 얻는 데는 큐레이션 워크플로우가 필요했다”라고 설명했다.

아직 SDE는 베타 버전이지만, 버그비는 자신의 팀이 지금까지 과학자들로부터 긍정적 피드백을 다수 받았으며 올해 말에는 보다 완벽하게 운영되는 시스템을 제공할 계획이라고 전했다. 이미 팀은 사용자가 검색을 시작하기 전에 주제별로 필터링할 수 있는 새로운 사용자 인터페이스를 구현했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.