2016.07.12

"DNA 가닥에 200MB 저장"··· DNA 스토리지 시대 '성큼'

Lucas Mearian | Computerworld
마이크로소프트와 워싱턴 주립대(University of Washington) 연구팀이 합성 DNA 가닥에 데이터 200MB를 저장하는 데 성공했다. DNA 스토리지 분야에서 새로운 기록을 수립했다.


Image Credit: Tara Brown Photography/ University of Washington

이번 연구의 놀라운 점은 합성 DNA에 그만큼 많은 정보를 담았다는 것만이 아니다. 이만한 데이터를 저장하는 공간이 매우 작았다는 점이다. 이 프로젝트를 이끈 마이크로소프트의 파트너 아키텍트 더글러스 카민은 "인코딩한 데이터는 연필심 끝보다 훨씬 작은 테스트 튜브 안에 들어갔다"고 말했다.

DNA 스토리지의 장점은 또 있다. 이 스토리지의 반감기는 혹독한 환경에서도 500년에 달한다. DNA 반감기란 방사성 물질과 똑같이 DNA 가닥 결합 절반이 붕괴하거나 깨지는 데 걸리는 시간으로, 이 긴 시간 동안 데이터를 온전하게 기록할 수 있음을 의미한다.

이번 연구는 DNA 스토리지 분야에서 의미 있는 진전이다. 카민은 "거대한 데이터센터에 저장된 모든 데이터를 각설탕 몇 개 정도로 축소할 수 있다고 상상해보라. 현재 인터넷에 있는 모든 데이터를 저장하는 것도 신발 상자 하나면 충분하다. 아직 기술적으로 극복해야 할 것이 많지만 바로 이것이 DNA 스토리지의 미래이다"라고 말했다.


연구팀이 이번 실험에서 분자 DNA에 저장한 데이터는 밴드 오케이 고(OK Go!)의 HD 뮤직비디오를 포함한 예술 작품과 100가지 이상 언어로 쓰인 세계 인권 선언문, 구텐베르크 프로젝트의 책 100여 권, 비영리 크롭 트러스트(Crop Trust)의 씨앗 데이터베이스 등이다. 이 모든 정보를 DNA 가닥에 저장했다.

이처럼 DNA는 새로운 스토리지 매개체로 주목받고 있다. 데이터가 기하급수적으로 늘어나는 가운데, 이 분자 단위 스토리지는 하드드라이브, SSD는 물론, 이제 막 신기술로 주목받는 상변화(Phase-change) 메모리보다도 훨씬 집적도가 높다. 워싱턴 주립대 연구팀은 “이들 시스템은 몇 년 혹은 몇 십년 후에는 분해되지만 DNA는 안정적으로 수백 년간 정보를 보존할 수 있다. 대신 DNA 스토리지는 즉각적으로 접속해야 하는 작업보다는 오랜 기간 저장해야 하는 애플리케이션에 더 적합하다"고 말했다.


워싱턴 주립대 부교수 루이 엔리케 체제, 연구자 리 오가닉이 원본 파일을 읽고 검색할 수 있게 해주는 시퀀싱을 위해 디지털 데이터를 담은 DNA를 준비하고 있다.

현재 미국에서는 이 팀을 포함해 2개 연구팀이 분자 구조에 데이터를 저장하는 기술 개발에서 일정한 성과를 내고 있다. 이들은 이 작업을 마치 찢어진 책이 가득 쌓인 도서관에서 책의 한 챕터를 다시 재구성하는 것과 같다고 묘사했다.

마이크로소프트와 워싱턴 주립대 연구팀은 0과 1로 구성된 긴 데이터의 끈을 DNA 배열을 구성하는 4가지 기본적인 요소를 변환하는 새로운 방법을 개발했다. 이 요소는 아데닌(A), 구아닌(G), 시토신(C), 티민(T) 등이다. 디지털 데이터를 이러한 요소로 나눈 후 무수히 많은 소형 DNA 분자로 합성해 저장된다. 이렇게 저장된 DNA는 장기간 저장하기 위해 탈수해 보존할 수도 있다.

DNA 스토리지의 발전이 바이오 신기술에 많이 의존하고 있지만 동시에 IT도 요구한다. 예를 들어 연구팀이 데이터를 인코딩할 때는 컴퓨터 메모리에서 널리 사용하는 오류 수정 스키마를 활용한다. 워싱턴 주립대 컴퓨터 공학과 엔지니어링 부교수이자 프로젝트 수석 연구원인 루이 엔리케 체제는 “이번 연구는 자연에서 DNA를 빌려 정보를 저장하는 것이 핵심이다. 동시에 우리는 메모리 오류 수정법 등 컴퓨터에서 배운 것도 자연에 적용하고 있다"고 말했다.



저장된 데이터에 접속하기 위해 연구팀은 우편번호와 도로명 주소에 해당하는 DNA 서열에 인코딩했다. 분자 생물학에서 흔히 사용되는 PCR(Polymerase Chain Reaction) 기법은 그들이 찾는 우편번호를 더 쉽게 식별하는 데 도움을 줬다. DNA 서열을 활용해 도로명 주소 데이터를 재정리했고, 이를 통해 데이터를 읽고 이를 비디오, 이미지 혹은 문서파일로 변환할 수 있었다.

현재 전 세계에 존재하는 데이터 대부분은 마그네틱과 광학 미디어에 저장돼 있다. 특히 저장 측면에서는 테이프 기술이 가장 앞서고 있다. 최근 185TB까지 커지면서 집적도에서 큰 향상을 이뤘다. 테이프 스토리지의 집적도는 밀리미터당 10GB로, 현재 상용화된 스토리지 중 가장 집적도가 높다.

최근 1PB까지 저장할 수 있는 광학 디스크에 대한 연구결과가 발표됐는데, 이는 밀리미터당 100GB에 해당하는 집적도다. 그러나 이렇게 발전한다고 해도 데이터의 증가 속도가 너무 빠르다. ZB(제타바이트, 10의 21승)급 데이터를 저장하려면 여전히 이런 제품 수백만 개가 필요하고 이를 놓아둘 엄청난 물리적 공간을 마련해야 한다.


DNA 분자 구조

반면 DNA 스토리지는 이론적으로 밀리미터당 1EB(엑사바이트, 10의 18승) 정도를 저장할 수 있다. 테이프 스토리지의 1억 배에 달하는 집적도다. 또한, DNA 기반 스토리지는 영원한 '연관성'의 혜택도 갖고 있다. 연구팀은 보고서를 통해 "DNA 기반 생명이 존재하는 한 이를 읽고 다뤄야 하는 강력한 이유가 있을 것이기 때문이다"라고 설명했다.

IDC와 EMC가 진행 중인 '디지털 유니버스(Digital Universe)' 연구 결과를 보면, 전 세계 데이터양은 2017년까지 16ZB를 넘어설 것으로 예상한다. 사물인터넷 때문에 데이터양이 2년마다 2배씩 증가해 2020년까지 44조GB에 달할 것으로 보인다. 연구팀은 "이 데이터의 상당 부분은 아카이브 형태로 존재하는데 예를 들어 페이스북은 최근 1EB의 콜드 스토리지만 전담하는 데이터센터를 구축했다"고 설명했다.


지난 4월 마이크로소프트와 워싱턴 주립대 연구팀은 이미지 3장을 DNA에 저장하는 데 성공했다.

DNA 스토리지 관련 연구는 꾸준히 발전해 오고 있다. 지난 1999년에는 불과 23자 메시지를 인코딩하고 복구하는 수준이었지만, 지난 4월 마이크로소프트와 워싱턴 주립대 연구팀은 DNA로 합성되고 시퀀싱 된 3개의 이미지 파일을 저장하는 데 성공했다. 지난 2013년 영국의 EMBL-유러피안 바이오인포매틱스 인스티튜트(EMBL-European Bioinformatics Institute)는 마틴 루서 킹의 '아이 해브 어 드림(I Have a Dream)' 연설의 MP3 버전을 DNA에 저장했다고 발표한 바 있다.

체제는 “DNA는 놀라운 정보 스토리지 분자로, 생명체가 어떻게 작동하는지에 대한 데이터를 저장한다. 우리는 그 DNA의 그 능력을 사진과 비디오, 문서 같은 디지털 데이터를 저장하는 데 사용하려고 한다. 이는 자연으로부터 빌려와 더 나은 컴퓨터 시스템을 구축하는 시도로 매우 중요한 사례가 될 것이다"라고 말했다. ciokr@idg.co.kr
 



2016.07.12

"DNA 가닥에 200MB 저장"··· DNA 스토리지 시대 '성큼'

Lucas Mearian | Computerworld
마이크로소프트와 워싱턴 주립대(University of Washington) 연구팀이 합성 DNA 가닥에 데이터 200MB를 저장하는 데 성공했다. DNA 스토리지 분야에서 새로운 기록을 수립했다.


Image Credit: Tara Brown Photography/ University of Washington

이번 연구의 놀라운 점은 합성 DNA에 그만큼 많은 정보를 담았다는 것만이 아니다. 이만한 데이터를 저장하는 공간이 매우 작았다는 점이다. 이 프로젝트를 이끈 마이크로소프트의 파트너 아키텍트 더글러스 카민은 "인코딩한 데이터는 연필심 끝보다 훨씬 작은 테스트 튜브 안에 들어갔다"고 말했다.

DNA 스토리지의 장점은 또 있다. 이 스토리지의 반감기는 혹독한 환경에서도 500년에 달한다. DNA 반감기란 방사성 물질과 똑같이 DNA 가닥 결합 절반이 붕괴하거나 깨지는 데 걸리는 시간으로, 이 긴 시간 동안 데이터를 온전하게 기록할 수 있음을 의미한다.

이번 연구는 DNA 스토리지 분야에서 의미 있는 진전이다. 카민은 "거대한 데이터센터에 저장된 모든 데이터를 각설탕 몇 개 정도로 축소할 수 있다고 상상해보라. 현재 인터넷에 있는 모든 데이터를 저장하는 것도 신발 상자 하나면 충분하다. 아직 기술적으로 극복해야 할 것이 많지만 바로 이것이 DNA 스토리지의 미래이다"라고 말했다.


연구팀이 이번 실험에서 분자 DNA에 저장한 데이터는 밴드 오케이 고(OK Go!)의 HD 뮤직비디오를 포함한 예술 작품과 100가지 이상 언어로 쓰인 세계 인권 선언문, 구텐베르크 프로젝트의 책 100여 권, 비영리 크롭 트러스트(Crop Trust)의 씨앗 데이터베이스 등이다. 이 모든 정보를 DNA 가닥에 저장했다.

이처럼 DNA는 새로운 스토리지 매개체로 주목받고 있다. 데이터가 기하급수적으로 늘어나는 가운데, 이 분자 단위 스토리지는 하드드라이브, SSD는 물론, 이제 막 신기술로 주목받는 상변화(Phase-change) 메모리보다도 훨씬 집적도가 높다. 워싱턴 주립대 연구팀은 “이들 시스템은 몇 년 혹은 몇 십년 후에는 분해되지만 DNA는 안정적으로 수백 년간 정보를 보존할 수 있다. 대신 DNA 스토리지는 즉각적으로 접속해야 하는 작업보다는 오랜 기간 저장해야 하는 애플리케이션에 더 적합하다"고 말했다.


워싱턴 주립대 부교수 루이 엔리케 체제, 연구자 리 오가닉이 원본 파일을 읽고 검색할 수 있게 해주는 시퀀싱을 위해 디지털 데이터를 담은 DNA를 준비하고 있다.

현재 미국에서는 이 팀을 포함해 2개 연구팀이 분자 구조에 데이터를 저장하는 기술 개발에서 일정한 성과를 내고 있다. 이들은 이 작업을 마치 찢어진 책이 가득 쌓인 도서관에서 책의 한 챕터를 다시 재구성하는 것과 같다고 묘사했다.

마이크로소프트와 워싱턴 주립대 연구팀은 0과 1로 구성된 긴 데이터의 끈을 DNA 배열을 구성하는 4가지 기본적인 요소를 변환하는 새로운 방법을 개발했다. 이 요소는 아데닌(A), 구아닌(G), 시토신(C), 티민(T) 등이다. 디지털 데이터를 이러한 요소로 나눈 후 무수히 많은 소형 DNA 분자로 합성해 저장된다. 이렇게 저장된 DNA는 장기간 저장하기 위해 탈수해 보존할 수도 있다.

DNA 스토리지의 발전이 바이오 신기술에 많이 의존하고 있지만 동시에 IT도 요구한다. 예를 들어 연구팀이 데이터를 인코딩할 때는 컴퓨터 메모리에서 널리 사용하는 오류 수정 스키마를 활용한다. 워싱턴 주립대 컴퓨터 공학과 엔지니어링 부교수이자 프로젝트 수석 연구원인 루이 엔리케 체제는 “이번 연구는 자연에서 DNA를 빌려 정보를 저장하는 것이 핵심이다. 동시에 우리는 메모리 오류 수정법 등 컴퓨터에서 배운 것도 자연에 적용하고 있다"고 말했다.



저장된 데이터에 접속하기 위해 연구팀은 우편번호와 도로명 주소에 해당하는 DNA 서열에 인코딩했다. 분자 생물학에서 흔히 사용되는 PCR(Polymerase Chain Reaction) 기법은 그들이 찾는 우편번호를 더 쉽게 식별하는 데 도움을 줬다. DNA 서열을 활용해 도로명 주소 데이터를 재정리했고, 이를 통해 데이터를 읽고 이를 비디오, 이미지 혹은 문서파일로 변환할 수 있었다.

현재 전 세계에 존재하는 데이터 대부분은 마그네틱과 광학 미디어에 저장돼 있다. 특히 저장 측면에서는 테이프 기술이 가장 앞서고 있다. 최근 185TB까지 커지면서 집적도에서 큰 향상을 이뤘다. 테이프 스토리지의 집적도는 밀리미터당 10GB로, 현재 상용화된 스토리지 중 가장 집적도가 높다.

최근 1PB까지 저장할 수 있는 광학 디스크에 대한 연구결과가 발표됐는데, 이는 밀리미터당 100GB에 해당하는 집적도다. 그러나 이렇게 발전한다고 해도 데이터의 증가 속도가 너무 빠르다. ZB(제타바이트, 10의 21승)급 데이터를 저장하려면 여전히 이런 제품 수백만 개가 필요하고 이를 놓아둘 엄청난 물리적 공간을 마련해야 한다.


DNA 분자 구조

반면 DNA 스토리지는 이론적으로 밀리미터당 1EB(엑사바이트, 10의 18승) 정도를 저장할 수 있다. 테이프 스토리지의 1억 배에 달하는 집적도다. 또한, DNA 기반 스토리지는 영원한 '연관성'의 혜택도 갖고 있다. 연구팀은 보고서를 통해 "DNA 기반 생명이 존재하는 한 이를 읽고 다뤄야 하는 강력한 이유가 있을 것이기 때문이다"라고 설명했다.

IDC와 EMC가 진행 중인 '디지털 유니버스(Digital Universe)' 연구 결과를 보면, 전 세계 데이터양은 2017년까지 16ZB를 넘어설 것으로 예상한다. 사물인터넷 때문에 데이터양이 2년마다 2배씩 증가해 2020년까지 44조GB에 달할 것으로 보인다. 연구팀은 "이 데이터의 상당 부분은 아카이브 형태로 존재하는데 예를 들어 페이스북은 최근 1EB의 콜드 스토리지만 전담하는 데이터센터를 구축했다"고 설명했다.


지난 4월 마이크로소프트와 워싱턴 주립대 연구팀은 이미지 3장을 DNA에 저장하는 데 성공했다.

DNA 스토리지 관련 연구는 꾸준히 발전해 오고 있다. 지난 1999년에는 불과 23자 메시지를 인코딩하고 복구하는 수준이었지만, 지난 4월 마이크로소프트와 워싱턴 주립대 연구팀은 DNA로 합성되고 시퀀싱 된 3개의 이미지 파일을 저장하는 데 성공했다. 지난 2013년 영국의 EMBL-유러피안 바이오인포매틱스 인스티튜트(EMBL-European Bioinformatics Institute)는 마틴 루서 킹의 '아이 해브 어 드림(I Have a Dream)' 연설의 MP3 버전을 DNA에 저장했다고 발표한 바 있다.

체제는 “DNA는 놀라운 정보 스토리지 분자로, 생명체가 어떻게 작동하는지에 대한 데이터를 저장한다. 우리는 그 DNA의 그 능력을 사진과 비디오, 문서 같은 디지털 데이터를 저장하는 데 사용하려고 한다. 이는 자연으로부터 빌려와 더 나은 컴퓨터 시스템을 구축하는 시도로 매우 중요한 사례가 될 것이다"라고 말했다. ciokr@idg.co.kr
 

X