2021.11.23

‘1.7억 건의 자료를 디지털화’··· 미 의회 도서관 CIO가 전하는 클라우드 이전기

Paula Rooney | CIO
미국 의회 도서관이 클라우드 및 디지털화 프로젝트를 진행하고 있다. 이를 통해 1억 7,000여 개에 이르는 물리적 자료의 문턱을 낮춘다는 방침이다. 주디스 콘클린 CIO가 이 세계 최대 도서관의 현대화를 이끌고 있다.

지난 9월, 버나드 바튼 CIO가 은퇴를 하면서 부CIO에서 CIO로 승진한 콘클린은 미국 의회 도서관(LOC ; Library of Congress)의 5개년 디지털 트랜스포메이션 계획을 진두지휘하고 있다. 수천 만에 달하는 책과 역사적 자료, 의회 자료를 복잡한 하이드리드 클라우드 환경으로 옮기는 계획이다.

이는 2019년 시작된 전략적 IT계획의 일환이다. 도서관이 보유한 자료 상당수를 모든 장치에서 액세스할 수 있도록 디지털화해 퍼블릭 환경으로 옮기는 것이 이번 계획의 뼈대다.

CIO 사무실 산하 직원 400명과 200명의 계약업자를 통솔하고 있는 콘클린은 “출판과 도서관 분야가 점점 더 디지털화되고 있는 추세이다. 의회 도서관 또한 마찬가지이다”라고 말했다. 

현재 캐피털 힐(Capitol Hill), 매디슨(Madison), 아담스(Adams)의 3개 빌딩과 제퍼슨 빌딩에 위치한 의회 도서관은 지속적으로 새로운 물리적, 디지털 데이터, 메타데이터를 수집한다. 보유 자료를 100% 디지털 하는 것을 목표로 삼고 있지는 않지만, 그래도 여전히 크고 복잡한 과업이다. 그녀는 “온프레미스에 유지할 데이터가 있고, 클라우드의 효율성과 탄성이 도움이 되는 데이터가 있다”라고 설명했다.

MIT 슬론 경영 대학원의 수석 연구 과학자 겸 수석 강사인 조지 웨스트먼은 이번 계획이 사회 전체에 이익을 준다고 강조했다. 웨스트먼은 “LOC가 디지털을 매개체로 ‘보물 창고’를 개방하는 목표를 추진하고 있는 것이 인상적이다. 이제 전국의 국민, 교사, 혁신가들이 워싱턴 DC를 방문하지 않고도 도서관의 다양한 자료들을 이용할 수 있게 되었다”라고 말했다.

미국 의회 도서관의 변신
LOC는 데이터센터 트랜스포메이션 프로젝트를 추진하는 데 도움을 받기 위해 액센츄어(Accenture)와 계약을 체결했었다. 3년 동안, 매디슨 빌딩에 위치한 ‘구식’ 데이터센터에서 130여 도서관 IT 시스템과 애플리케이션을 워싱턴 DC 밖 첨단 티어 III 데이터센터, 기타 도서관이 관리하고 여러 경로의 WAN으로 연결된 다른 데이터센터, 클라우드 서비스로 옮겼다. 해당 프로젝트는 성공적으로 완료됐다.



근간 엔터프라이즈 환경을 구축한 후, 이제는 저작권청(Copyright Office)용 ECS(ENterprise Copyright System), CRS(Congressional Research Service)용 IRIS(Integrated Research and Information System) 프로젝트, 기타 시청각 콘텐츠 관리 시스템과 새로운 도서관 콘텐츠 플랫폼 등 도서관의 자료 수집, 관리, 전달 방식을 향상시키는 다양한 프로젝트를 중점 추진하고 있다.

3대 대형 클라우드 공급업체 중 하나에 저작권 데이터를 맡긴 ECS 프로젝트는 저작권 신청 프로세스를 더 용이하게, 그리고 더 투명하게 만들 것으로 전망되고 있다(콘클린은 어떤 클라우드 기업인지 정확히 공개하지 않았다). 

콘클린은 자신의 자료를 저작권으로 등록하고 싶은 사람들이 증가하고 있으며, 이에 클라우드의 규모와 효율성이 중요해졌다고 설명했다. 라이선싱, 추천, 공개 기록 등 여러 부문으로 구성된 미국 저작권청은 여러 수동 프로세스, 현대화해야 하는 IT시스템을 통해 자동화한 프로세스들을 이용하고 있다. 국회는 여기에 6,000만 달러의 예산을 배정했다. 가동 시기는 2024년 10월로 예정돼 있다.

도서관의 프로젝트 관리 절차를 디지털 시대에 맞게 변화시키고 있는 콘클린은 여기에 더해 5개년 디지털 스토리지 계획을 추진하고 있다. 여러 소스에서 도서관으로 유입되는 ‘디지털 네이티브’ 자료를 수집 및 처리하고, 양원의 자료들을 디지털화 하는 것을 예로 들 수 있다.

또 수십년 동안 많은 중요한 역사적 자료와 문서 등을 기존 구식 시스템에 디지털화한 데이터로 저장했다. 디지털화 한 문서 가운데 일부는 온프레미스에 유지할 계획이다. 모든 것을 공개하는 것이 아니다.

콘클린은 “자료를 100% 디지털화 할 계획은 아니다. 여기에 실망하는 사람들도 있다”라고 말했다. 어쩔 수 없는 현실이다. 무한대의 디지털 데이터 웨어하우스를 구축할 예산을 갖고 있지 않기 때문이다. 그러나 국회는 2년 전 입법을 통해 더 많은 데이터를 공개할 수 있도록 만들었다고 그녀는 덧붙였다. 

실제로 의회 도서관의 디지털 트랜스포메이션은 국민들의 헌법에 대한 이해에 영향을 줬다. 내부 보존 전문가가 헌법을 디지털화 한 문서를 스펙트럼 분석, 이전에는 몰랐던 항목을 발견했기 때문이다.

콘클린은 “헌법 사본의 레이어를 분석했다. 그리고 알려지지 않았던 항목을 발견했다”라고 말했다. 그녀는 “헌법 초안 사본의 레이어를 차례로 분석한 결과 미처 알지 못했던 헌법의 수정본을 발견했다”라고 전했다.

도서관은 또 컴퓨터 비전, 머신러닝, 오디오 클립과 비주얼 아트에 초점이 맞춰진 애플리케이션 등 새로운 인공지능 기술을 실험하고 있다. 상당수는 오픈소스 소프트웨어로 제공되는 것들이다.

의회 도서관에는 계속해서 데이터와 메타데이터가 들어오기 때문에 디지털 트랜스포메이션도 계속될 것이다. 콘클린은 “이는 모든 CIO들의 도전과제이다”라고 말했다. ciokr@idg.co.kr



2021.11.23

‘1.7억 건의 자료를 디지털화’··· 미 의회 도서관 CIO가 전하는 클라우드 이전기

Paula Rooney | CIO
미국 의회 도서관이 클라우드 및 디지털화 프로젝트를 진행하고 있다. 이를 통해 1억 7,000여 개에 이르는 물리적 자료의 문턱을 낮춘다는 방침이다. 주디스 콘클린 CIO가 이 세계 최대 도서관의 현대화를 이끌고 있다.

지난 9월, 버나드 바튼 CIO가 은퇴를 하면서 부CIO에서 CIO로 승진한 콘클린은 미국 의회 도서관(LOC ; Library of Congress)의 5개년 디지털 트랜스포메이션 계획을 진두지휘하고 있다. 수천 만에 달하는 책과 역사적 자료, 의회 자료를 복잡한 하이드리드 클라우드 환경으로 옮기는 계획이다.

이는 2019년 시작된 전략적 IT계획의 일환이다. 도서관이 보유한 자료 상당수를 모든 장치에서 액세스할 수 있도록 디지털화해 퍼블릭 환경으로 옮기는 것이 이번 계획의 뼈대다.

CIO 사무실 산하 직원 400명과 200명의 계약업자를 통솔하고 있는 콘클린은 “출판과 도서관 분야가 점점 더 디지털화되고 있는 추세이다. 의회 도서관 또한 마찬가지이다”라고 말했다. 

현재 캐피털 힐(Capitol Hill), 매디슨(Madison), 아담스(Adams)의 3개 빌딩과 제퍼슨 빌딩에 위치한 의회 도서관은 지속적으로 새로운 물리적, 디지털 데이터, 메타데이터를 수집한다. 보유 자료를 100% 디지털 하는 것을 목표로 삼고 있지는 않지만, 그래도 여전히 크고 복잡한 과업이다. 그녀는 “온프레미스에 유지할 데이터가 있고, 클라우드의 효율성과 탄성이 도움이 되는 데이터가 있다”라고 설명했다.

MIT 슬론 경영 대학원의 수석 연구 과학자 겸 수석 강사인 조지 웨스트먼은 이번 계획이 사회 전체에 이익을 준다고 강조했다. 웨스트먼은 “LOC가 디지털을 매개체로 ‘보물 창고’를 개방하는 목표를 추진하고 있는 것이 인상적이다. 이제 전국의 국민, 교사, 혁신가들이 워싱턴 DC를 방문하지 않고도 도서관의 다양한 자료들을 이용할 수 있게 되었다”라고 말했다.

미국 의회 도서관의 변신
LOC는 데이터센터 트랜스포메이션 프로젝트를 추진하는 데 도움을 받기 위해 액센츄어(Accenture)와 계약을 체결했었다. 3년 동안, 매디슨 빌딩에 위치한 ‘구식’ 데이터센터에서 130여 도서관 IT 시스템과 애플리케이션을 워싱턴 DC 밖 첨단 티어 III 데이터센터, 기타 도서관이 관리하고 여러 경로의 WAN으로 연결된 다른 데이터센터, 클라우드 서비스로 옮겼다. 해당 프로젝트는 성공적으로 완료됐다.



근간 엔터프라이즈 환경을 구축한 후, 이제는 저작권청(Copyright Office)용 ECS(ENterprise Copyright System), CRS(Congressional Research Service)용 IRIS(Integrated Research and Information System) 프로젝트, 기타 시청각 콘텐츠 관리 시스템과 새로운 도서관 콘텐츠 플랫폼 등 도서관의 자료 수집, 관리, 전달 방식을 향상시키는 다양한 프로젝트를 중점 추진하고 있다.

3대 대형 클라우드 공급업체 중 하나에 저작권 데이터를 맡긴 ECS 프로젝트는 저작권 신청 프로세스를 더 용이하게, 그리고 더 투명하게 만들 것으로 전망되고 있다(콘클린은 어떤 클라우드 기업인지 정확히 공개하지 않았다). 

콘클린은 자신의 자료를 저작권으로 등록하고 싶은 사람들이 증가하고 있으며, 이에 클라우드의 규모와 효율성이 중요해졌다고 설명했다. 라이선싱, 추천, 공개 기록 등 여러 부문으로 구성된 미국 저작권청은 여러 수동 프로세스, 현대화해야 하는 IT시스템을 통해 자동화한 프로세스들을 이용하고 있다. 국회는 여기에 6,000만 달러의 예산을 배정했다. 가동 시기는 2024년 10월로 예정돼 있다.

도서관의 프로젝트 관리 절차를 디지털 시대에 맞게 변화시키고 있는 콘클린은 여기에 더해 5개년 디지털 스토리지 계획을 추진하고 있다. 여러 소스에서 도서관으로 유입되는 ‘디지털 네이티브’ 자료를 수집 및 처리하고, 양원의 자료들을 디지털화 하는 것을 예로 들 수 있다.

또 수십년 동안 많은 중요한 역사적 자료와 문서 등을 기존 구식 시스템에 디지털화한 데이터로 저장했다. 디지털화 한 문서 가운데 일부는 온프레미스에 유지할 계획이다. 모든 것을 공개하는 것이 아니다.

콘클린은 “자료를 100% 디지털화 할 계획은 아니다. 여기에 실망하는 사람들도 있다”라고 말했다. 어쩔 수 없는 현실이다. 무한대의 디지털 데이터 웨어하우스를 구축할 예산을 갖고 있지 않기 때문이다. 그러나 국회는 2년 전 입법을 통해 더 많은 데이터를 공개할 수 있도록 만들었다고 그녀는 덧붙였다. 

실제로 의회 도서관의 디지털 트랜스포메이션은 국민들의 헌법에 대한 이해에 영향을 줬다. 내부 보존 전문가가 헌법을 디지털화 한 문서를 스펙트럼 분석, 이전에는 몰랐던 항목을 발견했기 때문이다.

콘클린은 “헌법 사본의 레이어를 분석했다. 그리고 알려지지 않았던 항목을 발견했다”라고 말했다. 그녀는 “헌법 초안 사본의 레이어를 차례로 분석한 결과 미처 알지 못했던 헌법의 수정본을 발견했다”라고 전했다.

도서관은 또 컴퓨터 비전, 머신러닝, 오디오 클립과 비주얼 아트에 초점이 맞춰진 애플리케이션 등 새로운 인공지능 기술을 실험하고 있다. 상당수는 오픈소스 소프트웨어로 제공되는 것들이다.

의회 도서관에는 계속해서 데이터와 메타데이터가 들어오기 때문에 디지털 트랜스포메이션도 계속될 것이다. 콘클린은 “이는 모든 CIO들의 도전과제이다”라고 말했다. ciokr@idg.co.kr

X