2019.01.14

데이터 공유의 위력··· 가상 망원경, 천문학을 바꾸다

Thor Olavsrud | CIO
슬론 디지털 스카이 서베이(SDSS)가 생성한 15TB 용량의 쿼리 가능한 데이터가 천문학 분야의 연구 행태를 송두리째 바꿔놨다. 
 
Sloan Digital Sky Survey (CC BY 4.0)


1990년대, 천체물리학자 알렉스 스잘레이 박사와 컴퓨터 공학자 짐 그레이 박사는 한 흥미로운 생각을 했다. ‘천체 데이터베이스를 개방해 데이터 마이닝이 가능한 가상 망원경으로 바꾸면 어떨까?’라는 생각이었다. 

시간이 지나면서 이 아이디어는 수십 개의 연구소에 있는 수백 명의 과학자들이 국제적으로 협업하는 SDSS(Sloan Digital Sky Survey)로 현실화됐다.

SDSS의 목적은 뉴멕시코에 있는 APO(Apache Point Observatory)에 있는 전용 2.5미터 망원경을 이용해 하늘을 인덱싱(Indexing)하는 것이었다. 1억 2,000만 화소 카메라가 장착된 이 망원경은 밤 하늘의 1/4 이상을 한 번에 1.5 제곱도(Square Degree)씩 이미지화할 수 있다. 이 제품은 마이크로소프트 SQL 서버를 백엔드 데이터베이스로 사용했다.

1998년부터 2009년까지 해당 망원경은 영상화(imaging) 및 분광(spectroscopic) 모드로 작동했다. SDSS의 이미징 카메라는 2009년부터 사용이 중단되었지만 여전히 분광 모드로 작동하고 있다. 이 데이터는 온라인 포털인 스카이서버(SkyServer) 데이터베이스에서 공개적으로 제공되고 있다. 현재 이 데이터베이스에는 15TB의 검색 가능한 공개 데이터세트가 있고 약 150TB의 추가적인 미가공 캘리브레이션 파일이 존재한다.

별 정보의 디지털화
"전통적인 천문학에서는 천문학자가 프로젝트에 대한 아이디어를 가졌을지라도 우선 대상을 찾아야 했다"라고 스잘레이가 말했다. 그는 현재 블룸버그의 존스홉킨스 대학교  인문 과학 및 공대의 물리학, 천문학 및 컴퓨터 과학 교수로 재직 중이다.
 
ⓒFermilab Visual Media Services (CC BY 4.0)
슬론 디지털 스카이 서베이 2.5미터 망원경. 아파치 포인트 관측소에 소재한다. 

SDSS 이전에는 이 과정에 적지 않은 시간이 소요됐다. 천문학자는 아이디어를 시험하기 위해 제안서를 작성하고 넓은 하늘 영역을 선택하여 가능한 대상을 탐색해야 했다. 제안서가 수락되면 천문학자는 망원경 사용 시간을 예약할 수 있었다.

스잘레이는 "시간이 확보된다면 6개월 정도의 기간 내에 산 꼭대기에 가 볼 수 있었다. 운이 좋으면 비가 오거나 흐리지 않아 약간의 데이터를 얻을 수 있었다"라고 말했다.

그에 따르면 천문학자들은 다시 해당 데이터로 이미지 처리를 수행하느라 수 개월을 소요하여 수 백 개의 대상으로 압축시키게 된다. 대상이 확보된 천문학자는 이런 대상을 세부적으로 탐색하기 위해 더 큰 망원경에 대한 제안서를 제출할 수 있다. 망원경 사용 시간을 확보하여 데이터를 수집한 후 천문학자는 다시 수 개월에 걸쳐 해당 데이터를 줄이곤 했다. 
 
ⓒM. Blanton / SDSS (CC BY 4.0)
SDSS의 우주 지도. 각 점 하나하나가 은하계다. 각 색상은 해당 은하의 g-r 색상이다. 

스잘레이는 "이렇게 2년 반이 지난 후에는 실제로 자신의 아이디어를 시험할 수 있는 수준에 도달할 수 있었다"라고 말했다.

SDSS가 이 모든 것을 바꾸었다. 현재 천문학자들은 SQL로 쿼리를 작성하는 방법을 배워야 하지만 대신 연구 속도를 크게 높일 수 있다.

스잘레이는 "이제 웹사이트만 방문하면 가상 망원경을 하늘의 어느 곳이나 향하게 할 수 있다. 줄일 필요도 없고 원하는 대상만 선택하면 된다. 5분 만에 하늘을 보고 (대상을) 더 큰 망원경에 바로 적용할 수 있다. 종전에는 수 년이 소요되는 일이었다"라고 말했다.

SDSS 이전에 천문학자들이 보유한 데이터는 20만 개 미만의 은하계에 대한 것이었다. 현재 SDSS는 2억 2,000만 개 이상의 은하계에 대한 데이터를 보유하고 있다.

1998년 데이터베이스 및 트랜잭션 처리 연구에 대한 기여도로 튜링상(Turing Award)을 수상한 마이크로소프트 TF(Technical Fellow) 그레이는 2007년 항해 중 실종될 때까지 스잘레이 및 SDSS와 긴밀히 협력했다. 

그는 스카이서버와 테라서버(TerraServer-USA, 2016년 폐쇄 전 마이크로소프트 리서치 맵스(Research Maps)로 전환됨)의 주요 기여자였다. 그레이와 스잘레이는 SDSS 저장소에서 데이터 마이닝을 수행하기 위해 공간 인덱싱 기법을 개발했다. 스잘레이는 자신과 그레이가 개발한 공간 인덱스가 마이크로소프트 SQL 서버의 필수적인 요소로 포함될 것이라고 언급했다. 
 
ⓒM. Blanton / SDSS (CC BY 4.0)
SDSS ‘오렌지 스파이더’ : 이는 SDSS I/II, III 이미지에서 이용할 수 있는 정보 규모의 풍부함을 나타낸다. 상단 좌측의 사진은 하늘의 작은 부분에 대한 SDSS 시야다. 중앙에 갤럭시 메시에 33(M33)이 표시돼 있다. 상단 중앙과 우측의 사진은 M33을 좀더 확대한 이미지다. 하단의 이미지는 SDSS 이미지로부터 도출된 전체 하늘의 지도다. 지도에 전체 우주에서 가장 큰 구조물인 은하계가 클러스터와 벽으로 시각화되어 있다. 

마이크로소프트의 부사장 조셉 시로시와 마이크로소프트의 데이터 그룹 수석 소프트웨어 엔지니어 림마 V. 네메는 다음과 같이 밝혔다.

"은하계의 상호관계 속성을 연구하기 위한 애플리케이션을 개발하면서 스잘레이와 그의 팀은 통계 분석의 여러 패턴이 외부의 플랫(Flat) 파일보다는 데이터베이스 엔진 내부에서 훨씬 잘 수행되는 과업이 수반된다는 사실을 발견했다.”

“마이크로소프트 SQL 서버는 여러 개의 CPU, 작업, 대형 메인 메모리를 이용하여 복잡한 술어에 대한 고속 순차 검색을 제공했다. 또한 플랫 파일에 대한 수기 프로그램을 능가하는 정교한 인덱싱 및 데이터 조이닝 알고리즘도 있었다. 정교한 쿼리 최적화 장치 덕분에 수 일이 소요되는 많은 배치(Batch) 파일이 수 분 안에 데이터베이스 쿼리로 대체됐다."

규모의 천문학 
SDSS는 어떤 의미에서 천문학을 대중화했다. 이 프로젝트 전에는 선도적 과학자와 천문학자들만이 망원경과 데이터를 수집하는 기기에 접근할 수 있었다. 다른 사람들은 그들이 제공한 데이터만 이용해야 했다. 

시로시와 네메에 따르면 지난 14년 동안 스카이서버는 16억 회 이상의 웹 조회수를 기록했으며 수천 개의 소행성에 대한 측정부터 외곽의 은하수의 합병 이력에 대한 지도까지 여러 과학적인 발견을 뒷받침했다. 

또 SDSS가 생성한 데이터는 5,800개의 논문에 근거 자료로 사용되었고 24만 5,000회 이상 인용되었다. 스잘레이는 전 세계 천문학 전문 커뮤니티의 약 2/3가 매일 스카이서버를 사용하고 있다고 말했다.

한편 과학자와 천문학자들은 이미지에서 노이즈를 없애는 등의 작업을 지원하기 위해 풍부한 SDSS 데이터에 머신러닝과 신경망을 활용하기 시작했다.

SDSS 프로젝트는 지속되고 있지만 곧 후속 프로젝트가 탄생할 것이다. 현재 칠레에서 LSST(Large Synoptic Survey Telescope)가 개발 중이다. 이 계획은 2022년 1월부터 10년 동안 며칠에 한 번씩 밤마다 하늘 전체의 사진을 촬영하기 위한 광역 연구 반사 망원경에 대한 것이다. 이미지는 3.2기가픽셀 CCD 화상 카메라로 기록된다. 소형차 정도의 크기로 역사상 가장 큰 디지털 카메라다.

현재 LSST의 SAC(Science Advisory Council)에서 근무하는 스잘레이는 LSST가 SDSS가 8년에 걸쳐 수행한 일을 3일밤 만에 수행할 수 있을 것이라고 기대하며, 약 60페타바이트(Petabyte)의 데이터베이스를 생성할 것이라고 전했다. ciokr@idg.co.kr



2019.01.14

데이터 공유의 위력··· 가상 망원경, 천문학을 바꾸다

Thor Olavsrud | CIO
슬론 디지털 스카이 서베이(SDSS)가 생성한 15TB 용량의 쿼리 가능한 데이터가 천문학 분야의 연구 행태를 송두리째 바꿔놨다. 
 
Sloan Digital Sky Survey (CC BY 4.0)


1990년대, 천체물리학자 알렉스 스잘레이 박사와 컴퓨터 공학자 짐 그레이 박사는 한 흥미로운 생각을 했다. ‘천체 데이터베이스를 개방해 데이터 마이닝이 가능한 가상 망원경으로 바꾸면 어떨까?’라는 생각이었다. 

시간이 지나면서 이 아이디어는 수십 개의 연구소에 있는 수백 명의 과학자들이 국제적으로 협업하는 SDSS(Sloan Digital Sky Survey)로 현실화됐다.

SDSS의 목적은 뉴멕시코에 있는 APO(Apache Point Observatory)에 있는 전용 2.5미터 망원경을 이용해 하늘을 인덱싱(Indexing)하는 것이었다. 1억 2,000만 화소 카메라가 장착된 이 망원경은 밤 하늘의 1/4 이상을 한 번에 1.5 제곱도(Square Degree)씩 이미지화할 수 있다. 이 제품은 마이크로소프트 SQL 서버를 백엔드 데이터베이스로 사용했다.

1998년부터 2009년까지 해당 망원경은 영상화(imaging) 및 분광(spectroscopic) 모드로 작동했다. SDSS의 이미징 카메라는 2009년부터 사용이 중단되었지만 여전히 분광 모드로 작동하고 있다. 이 데이터는 온라인 포털인 스카이서버(SkyServer) 데이터베이스에서 공개적으로 제공되고 있다. 현재 이 데이터베이스에는 15TB의 검색 가능한 공개 데이터세트가 있고 약 150TB의 추가적인 미가공 캘리브레이션 파일이 존재한다.

별 정보의 디지털화
"전통적인 천문학에서는 천문학자가 프로젝트에 대한 아이디어를 가졌을지라도 우선 대상을 찾아야 했다"라고 스잘레이가 말했다. 그는 현재 블룸버그의 존스홉킨스 대학교  인문 과학 및 공대의 물리학, 천문학 및 컴퓨터 과학 교수로 재직 중이다.
 
ⓒFermilab Visual Media Services (CC BY 4.0)
슬론 디지털 스카이 서베이 2.5미터 망원경. 아파치 포인트 관측소에 소재한다. 

SDSS 이전에는 이 과정에 적지 않은 시간이 소요됐다. 천문학자는 아이디어를 시험하기 위해 제안서를 작성하고 넓은 하늘 영역을 선택하여 가능한 대상을 탐색해야 했다. 제안서가 수락되면 천문학자는 망원경 사용 시간을 예약할 수 있었다.

스잘레이는 "시간이 확보된다면 6개월 정도의 기간 내에 산 꼭대기에 가 볼 수 있었다. 운이 좋으면 비가 오거나 흐리지 않아 약간의 데이터를 얻을 수 있었다"라고 말했다.

그에 따르면 천문학자들은 다시 해당 데이터로 이미지 처리를 수행하느라 수 개월을 소요하여 수 백 개의 대상으로 압축시키게 된다. 대상이 확보된 천문학자는 이런 대상을 세부적으로 탐색하기 위해 더 큰 망원경에 대한 제안서를 제출할 수 있다. 망원경 사용 시간을 확보하여 데이터를 수집한 후 천문학자는 다시 수 개월에 걸쳐 해당 데이터를 줄이곤 했다. 
 
ⓒM. Blanton / SDSS (CC BY 4.0)
SDSS의 우주 지도. 각 점 하나하나가 은하계다. 각 색상은 해당 은하의 g-r 색상이다. 

스잘레이는 "이렇게 2년 반이 지난 후에는 실제로 자신의 아이디어를 시험할 수 있는 수준에 도달할 수 있었다"라고 말했다.

SDSS가 이 모든 것을 바꾸었다. 현재 천문학자들은 SQL로 쿼리를 작성하는 방법을 배워야 하지만 대신 연구 속도를 크게 높일 수 있다.

스잘레이는 "이제 웹사이트만 방문하면 가상 망원경을 하늘의 어느 곳이나 향하게 할 수 있다. 줄일 필요도 없고 원하는 대상만 선택하면 된다. 5분 만에 하늘을 보고 (대상을) 더 큰 망원경에 바로 적용할 수 있다. 종전에는 수 년이 소요되는 일이었다"라고 말했다.

SDSS 이전에 천문학자들이 보유한 데이터는 20만 개 미만의 은하계에 대한 것이었다. 현재 SDSS는 2억 2,000만 개 이상의 은하계에 대한 데이터를 보유하고 있다.

1998년 데이터베이스 및 트랜잭션 처리 연구에 대한 기여도로 튜링상(Turing Award)을 수상한 마이크로소프트 TF(Technical Fellow) 그레이는 2007년 항해 중 실종될 때까지 스잘레이 및 SDSS와 긴밀히 협력했다. 

그는 스카이서버와 테라서버(TerraServer-USA, 2016년 폐쇄 전 마이크로소프트 리서치 맵스(Research Maps)로 전환됨)의 주요 기여자였다. 그레이와 스잘레이는 SDSS 저장소에서 데이터 마이닝을 수행하기 위해 공간 인덱싱 기법을 개발했다. 스잘레이는 자신과 그레이가 개발한 공간 인덱스가 마이크로소프트 SQL 서버의 필수적인 요소로 포함될 것이라고 언급했다. 
 
ⓒM. Blanton / SDSS (CC BY 4.0)
SDSS ‘오렌지 스파이더’ : 이는 SDSS I/II, III 이미지에서 이용할 수 있는 정보 규모의 풍부함을 나타낸다. 상단 좌측의 사진은 하늘의 작은 부분에 대한 SDSS 시야다. 중앙에 갤럭시 메시에 33(M33)이 표시돼 있다. 상단 중앙과 우측의 사진은 M33을 좀더 확대한 이미지다. 하단의 이미지는 SDSS 이미지로부터 도출된 전체 하늘의 지도다. 지도에 전체 우주에서 가장 큰 구조물인 은하계가 클러스터와 벽으로 시각화되어 있다. 

마이크로소프트의 부사장 조셉 시로시와 마이크로소프트의 데이터 그룹 수석 소프트웨어 엔지니어 림마 V. 네메는 다음과 같이 밝혔다.

"은하계의 상호관계 속성을 연구하기 위한 애플리케이션을 개발하면서 스잘레이와 그의 팀은 통계 분석의 여러 패턴이 외부의 플랫(Flat) 파일보다는 데이터베이스 엔진 내부에서 훨씬 잘 수행되는 과업이 수반된다는 사실을 발견했다.”

“마이크로소프트 SQL 서버는 여러 개의 CPU, 작업, 대형 메인 메모리를 이용하여 복잡한 술어에 대한 고속 순차 검색을 제공했다. 또한 플랫 파일에 대한 수기 프로그램을 능가하는 정교한 인덱싱 및 데이터 조이닝 알고리즘도 있었다. 정교한 쿼리 최적화 장치 덕분에 수 일이 소요되는 많은 배치(Batch) 파일이 수 분 안에 데이터베이스 쿼리로 대체됐다."

규모의 천문학 
SDSS는 어떤 의미에서 천문학을 대중화했다. 이 프로젝트 전에는 선도적 과학자와 천문학자들만이 망원경과 데이터를 수집하는 기기에 접근할 수 있었다. 다른 사람들은 그들이 제공한 데이터만 이용해야 했다. 

시로시와 네메에 따르면 지난 14년 동안 스카이서버는 16억 회 이상의 웹 조회수를 기록했으며 수천 개의 소행성에 대한 측정부터 외곽의 은하수의 합병 이력에 대한 지도까지 여러 과학적인 발견을 뒷받침했다. 

또 SDSS가 생성한 데이터는 5,800개의 논문에 근거 자료로 사용되었고 24만 5,000회 이상 인용되었다. 스잘레이는 전 세계 천문학 전문 커뮤니티의 약 2/3가 매일 스카이서버를 사용하고 있다고 말했다.

한편 과학자와 천문학자들은 이미지에서 노이즈를 없애는 등의 작업을 지원하기 위해 풍부한 SDSS 데이터에 머신러닝과 신경망을 활용하기 시작했다.

SDSS 프로젝트는 지속되고 있지만 곧 후속 프로젝트가 탄생할 것이다. 현재 칠레에서 LSST(Large Synoptic Survey Telescope)가 개발 중이다. 이 계획은 2022년 1월부터 10년 동안 며칠에 한 번씩 밤마다 하늘 전체의 사진을 촬영하기 위한 광역 연구 반사 망원경에 대한 것이다. 이미지는 3.2기가픽셀 CCD 화상 카메라로 기록된다. 소형차 정도의 크기로 역사상 가장 큰 디지털 카메라다.

현재 LSST의 SAC(Science Advisory Council)에서 근무하는 스잘레이는 LSST가 SDSS가 8년에 걸쳐 수행한 일을 3일밤 만에 수행할 수 있을 것이라고 기대하며, 약 60페타바이트(Petabyte)의 데이터베이스를 생성할 것이라고 전했다. ciokr@idg.co.kr

X