2017.11.13

기업 BI 전략에 '유니버설 시맨틱 데이터 레이어'가 필요한 이유

Thor Olavsrud | CIO
애널리스트가 가치 있는 기업 정보를 만들려면 자신이 선호하는 툴을 이용해 데이터에 접근할 수 있도록 포괄적으로 허용해야 한다. 그러나 일부 파편화된 데이터 리포지토리는 그 시맨틱 데이터 레이어(semantic data layers)가 특정 BI(Business Intelligence) 툴에 최적화돼 있어 이런 접근을 방해해 왔다. ‘유니버설 시맨틱 데이터 레이어(universal semantic data layer)'가 필요한 것도 이 때문이다. 이를 데이터 레이크(data lake)에 적용하면 기업 BI 전략을 크게 강화할 수 있다.



유니버설 시맨틱 데이터 레이어란?
유니버설 시맨틱 데이터 레이어는 모든 기업 데이터의 단일화 개념이다. 최종 사용자가 그들이 선택한 BI와 애널리틱스 툴을 통해 일반적인 기업 용어를 이용해 모든 기업 데이터에 접근해 분석할 수 있도록 지원하기 위한 것이다. BI 플랫폼의 기반으로써 시맨틱 레이어 컨셉이 등장한 지는 꽤 됐다. 1991년 비즈니스 오브젝트(Business Objects)가 특허를 출원했고 2003년에 마이크로스트레티지(MicroStrategy)로 넘어갔다. 그러나 기존의 시맨틱 레이어는 주로 특정 BI 전용으로 사용됐다

이런 가운데 지난 10여 년간 데이터 레이크 개념이 부상했다. 네이티브 형식 그대로 저장된 모든 기업 데이터의 단일 저장소를 의미한다. 데이터 레이크는 기업이 데이터를 전혀 옮기지 않고도 선호하는 다양한 BI나 애널리틱스 툴을 이용해 모든 데이터에 접근할 가능성을 열었다. 그러나 결론적으로 이 가능성은 '한 조각’이 부족해 실현되지 않았다. 스타트업 엣스케일(AtScale)의 공동 설립자이자 CEO이고 과거 야후에서 개발 담당 부사장을 역임한 데이브 마리아니는 그 잃어버린 '한 조각’이 바로 유니버설 시맨틱 데이터 레이어라고 주장한다.

유니버설 시맨틱 데이터 레이어의 장점
마리아니는 “데이터 레이크는 단순한 파일 저장소에 불과하다. 그 위에 시맨틱이 없으면 이 수많은 데이터에서 가치를 찾을 수 없다. 시맨틱은 일종의 추상적 레이어다. 데이터가 저장된 방법과 위치를 추상화한다. 핵심적인 미가공 데이터를 찾아 기업을 위한 시맨틱 의미를 부여하는 역할을 한다”라고 말했다. 엣스케일의 CTO이자 공동 창업자인 메튜 베어드는 이를 ‘순매출’ 개념에 비유했다.

그는 “순매출 계산할 때 청구서 품목 비용이나 리베이트를 빼는 등 작게는 수십 가지 계산이 필요하지만 이를 부서 모델로 확장하면 수백 가지로 늘어날 수 있다. 마찬가지로 기업은 보고서를 만들거나 리스크를 판단할 때 일정 수준의 추상화 없이 그냥 IT 부서의 도움을 받는다. 그러나 이는 번거롭고 비용이 많이 들며 최악의 경우 실수가 포함될 수도 있다. 특히 모든 직원의 스프레드시트와 보고서를 검증하고, 아직은 표면화되지 않은 이런 오류를 찾아내는 것은 거의 불가능하다”라고 말했다.

기존까지 시맨틱 레이어는 포인트 솔루션이었다. 개별 BI 툴에서 이런 문제를 완화하는 역할을 했다. 유니버설 시맨틱 데이터 레이어 이면의 개념은 모든 핵심 비즈니스 성과 기준을 목록을 만드는 것이다. 이미 BI 툴에 있는 정의를 수집해 한 곳에서 관리, 수정할 수 있는 단일 추상화 레이어로 모으는 것이기도 하다. 마리아니는 “이를 통해 이런 성과 지표를 한 곳에서 관리할 수 있다. 다양한 방식으로 시각화하거나 재가공하는 것도 가능하다. 한 곳에 데이터를 몰아 넣고 다른 형태로 이용할 수도 있다”라고 말했다.

IT의 데이터 제어권 되찾기
유니버설 시맨틱 데이터 레이어 개념에 CIO가 주목해야 할 이유는 또 있다. 셀프 서비스 BI의 유연성과 속도는 그대로 현업에 제공하면서 데이터 파이프라인의 통제권을 IT의 영역으로 되돌릴 수 있기 때문이다.

마리아니는 “그동안 데이터의 이동과 데이터 파이프라인 관련 작업이 협업 부서로 꾸준히 분산돼 왔다. 그러나 (유니버설 시맨틱 데이터 레이어는) 이를 되찾아와 데이터 관리에 전문성을 가진 팀의 통제 아래 둘 수 있다. 그들은 특정 부서 입장이 아니라 전사적인 시각에서 데이터를 보기 때문에 새 데이터 소스가 등장했을 때 적절한 규모로 데이터를 만들고 빠르게 대응할 수 있다"라고 말했다.

또한, 유니버설 시맨틱 데이터 레이어는 전사적으로 데이터 이동과 데이터 중복을 최소화해 인프라스트럭처를 단순화하고 보안을 강화한다. 마리아니는 “커베로스(Kerberos)나 샌트리(Sentry), 레인저(Ranger) 등을 이용하면 하둡내 데이터 레이크의 보안을 강화할 수 있다. 데이터를 이용하는 애플리케이션이 아니라 데이터 비트 수준으로 보호된다. 데이터를 기업 외부로 보내고 현업 실무자가 자체적으로 다룰 때는 불가능했던 것이다”라고 말했다. ciokr@idg.co.kr 
2017.11.13

기업 BI 전략에 '유니버설 시맨틱 데이터 레이어'가 필요한 이유

Thor Olavsrud | CIO
애널리스트가 가치 있는 기업 정보를 만들려면 자신이 선호하는 툴을 이용해 데이터에 접근할 수 있도록 포괄적으로 허용해야 한다. 그러나 일부 파편화된 데이터 리포지토리는 그 시맨틱 데이터 레이어(semantic data layers)가 특정 BI(Business Intelligence) 툴에 최적화돼 있어 이런 접근을 방해해 왔다. ‘유니버설 시맨틱 데이터 레이어(universal semantic data layer)'가 필요한 것도 이 때문이다. 이를 데이터 레이크(data lake)에 적용하면 기업 BI 전략을 크게 강화할 수 있다.



유니버설 시맨틱 데이터 레이어란?
유니버설 시맨틱 데이터 레이어는 모든 기업 데이터의 단일화 개념이다. 최종 사용자가 그들이 선택한 BI와 애널리틱스 툴을 통해 일반적인 기업 용어를 이용해 모든 기업 데이터에 접근해 분석할 수 있도록 지원하기 위한 것이다. BI 플랫폼의 기반으로써 시맨틱 레이어 컨셉이 등장한 지는 꽤 됐다. 1991년 비즈니스 오브젝트(Business Objects)가 특허를 출원했고 2003년에 마이크로스트레티지(MicroStrategy)로 넘어갔다. 그러나 기존의 시맨틱 레이어는 주로 특정 BI 전용으로 사용됐다

이런 가운데 지난 10여 년간 데이터 레이크 개념이 부상했다. 네이티브 형식 그대로 저장된 모든 기업 데이터의 단일 저장소를 의미한다. 데이터 레이크는 기업이 데이터를 전혀 옮기지 않고도 선호하는 다양한 BI나 애널리틱스 툴을 이용해 모든 데이터에 접근할 가능성을 열었다. 그러나 결론적으로 이 가능성은 '한 조각’이 부족해 실현되지 않았다. 스타트업 엣스케일(AtScale)의 공동 설립자이자 CEO이고 과거 야후에서 개발 담당 부사장을 역임한 데이브 마리아니는 그 잃어버린 '한 조각’이 바로 유니버설 시맨틱 데이터 레이어라고 주장한다.

유니버설 시맨틱 데이터 레이어의 장점
마리아니는 “데이터 레이크는 단순한 파일 저장소에 불과하다. 그 위에 시맨틱이 없으면 이 수많은 데이터에서 가치를 찾을 수 없다. 시맨틱은 일종의 추상적 레이어다. 데이터가 저장된 방법과 위치를 추상화한다. 핵심적인 미가공 데이터를 찾아 기업을 위한 시맨틱 의미를 부여하는 역할을 한다”라고 말했다. 엣스케일의 CTO이자 공동 창업자인 메튜 베어드는 이를 ‘순매출’ 개념에 비유했다.

그는 “순매출 계산할 때 청구서 품목 비용이나 리베이트를 빼는 등 작게는 수십 가지 계산이 필요하지만 이를 부서 모델로 확장하면 수백 가지로 늘어날 수 있다. 마찬가지로 기업은 보고서를 만들거나 리스크를 판단할 때 일정 수준의 추상화 없이 그냥 IT 부서의 도움을 받는다. 그러나 이는 번거롭고 비용이 많이 들며 최악의 경우 실수가 포함될 수도 있다. 특히 모든 직원의 스프레드시트와 보고서를 검증하고, 아직은 표면화되지 않은 이런 오류를 찾아내는 것은 거의 불가능하다”라고 말했다.

기존까지 시맨틱 레이어는 포인트 솔루션이었다. 개별 BI 툴에서 이런 문제를 완화하는 역할을 했다. 유니버설 시맨틱 데이터 레이어 이면의 개념은 모든 핵심 비즈니스 성과 기준을 목록을 만드는 것이다. 이미 BI 툴에 있는 정의를 수집해 한 곳에서 관리, 수정할 수 있는 단일 추상화 레이어로 모으는 것이기도 하다. 마리아니는 “이를 통해 이런 성과 지표를 한 곳에서 관리할 수 있다. 다양한 방식으로 시각화하거나 재가공하는 것도 가능하다. 한 곳에 데이터를 몰아 넣고 다른 형태로 이용할 수도 있다”라고 말했다.

IT의 데이터 제어권 되찾기
유니버설 시맨틱 데이터 레이어 개념에 CIO가 주목해야 할 이유는 또 있다. 셀프 서비스 BI의 유연성과 속도는 그대로 현업에 제공하면서 데이터 파이프라인의 통제권을 IT의 영역으로 되돌릴 수 있기 때문이다.

마리아니는 “그동안 데이터의 이동과 데이터 파이프라인 관련 작업이 협업 부서로 꾸준히 분산돼 왔다. 그러나 (유니버설 시맨틱 데이터 레이어는) 이를 되찾아와 데이터 관리에 전문성을 가진 팀의 통제 아래 둘 수 있다. 그들은 특정 부서 입장이 아니라 전사적인 시각에서 데이터를 보기 때문에 새 데이터 소스가 등장했을 때 적절한 규모로 데이터를 만들고 빠르게 대응할 수 있다"라고 말했다.

또한, 유니버설 시맨틱 데이터 레이어는 전사적으로 데이터 이동과 데이터 중복을 최소화해 인프라스트럭처를 단순화하고 보안을 강화한다. 마리아니는 “커베로스(Kerberos)나 샌트리(Sentry), 레인저(Ranger) 등을 이용하면 하둡내 데이터 레이크의 보안을 강화할 수 있다. 데이터를 이용하는 애플리케이션이 아니라 데이터 비트 수준으로 보호된다. 데이터를 기업 외부로 보내고 현업 실무자가 자체적으로 다룰 때는 불가능했던 것이다”라고 말했다. ciokr@idg.co.kr 
X