마이크로소프트 애저의 새로운 통합 데이터 플랫폼 ‘원레이크(OneLake)’는 대규모 분석 및 기계 학습을 위한 원스톱 상점을 추구하고 있다.
마이크로소프트 컨퍼런스인 빌드(Build)에서 나오는 소식을 둘러보면, 마이크로소프트가 어떤 가치를 중점을 두고 개발자용 서비스를 만드는지 파악할 수 있다. 실제로 2023년에 열린 빌드(Build) 행사에서 나온 소식 대부분은 인공지능과 머신러닝과 관련돼 있었다. 동시에 데이터 관리는 물론 AI 애플리케이션 전체를 구축할 수 있도록 풀 스택 기술을 강조했다.
주목해야 할 소식은 바로 ‘마이크로소프트 패브릭(Fabric)이 출시된 점이다. 패브릭은 데이터 과학과 데이터 엔지니어링에 필요한 SaaS(Software-as-a-Service) 도구 세트다. 맞춤형 AI 애플리케이션은 머신러닝 모델을 설계하고 훈련하는 데 필요한 데이터를 식별하고 제공하는 작업부터 진행해야 한다. 패브릭은 AI 애플리케이션을 실행하는 것을 넘어 최신 비즈니스를 운영하는 데 필요한 실시간 분석 기능도 제공한다.
마이크로소프트 패브릭 : 원스톱 데이터 상점
마이크로소프트 패브릭은 비즈니스 사용자와 개발자 모두를 공략해 만든 것이다. 패브릭에 있는 기능 대부분은 이미 마이크로소프트 애저(Microsoft Azure)와 파워 플랫폼(Power Platform)에서도 볼 수 있다. 패브릭만의 차이점은 개방형 데이터 형식에 중점을 두고 다양한 데이터 작업을 위한 단일 포털을 제공하는 것이다.
마이크로소프트의 패브릭은 데이터 분석 스택의 핵심 요소를 통합하여 서로 부족한 부분을 채워준다. 그리고 관련 모든 정보가 단일 SaaS(Software-as-a-Service) 대시보드에 표현되도록 만들었다. 가령 파워 플랫폼의 도구와 애저 데이터 플랫폼의 요소가 모두 포함되어 있으며, 소스가 무엇이든 엔터프라이즈 데이터에 대한 신뢰할 수 있는 단일 소스를 제공한다.
마지막 부분을 눈 여겨보자. 다양한 애플리케이션에서 데이터가 생성되고 사용되는 과정에서 저장 방식과 관계없이 해당 데이터에 접근하고 사용할 공통 장소가 필요하다. 패브릭을 사용하면 정형 데이터와 반정형 데이터를 혼합하고 관계형 및 NoSQL 저장소를 사용하여 필요한 인사이트를 얻을 수 있다. 즉 네트워크의 엣지에서 데이터를 가져와 사람들이 필요로 하는 정보를 엔터프라이즈 대시보드에 제공할 수 있는 엔드 투 엔드 엔터프라이즈 데이터 플랫폼이다. 동시에 패브릭은 머신러닝 모델을 위한 학습 데이터를 제공할 수 있다.
사용자는 따라서 다양한 목적에 따라 여러 사용자 경험을 제공하는 단일 데이터 플랫폼을 경험할 수 있다. 분석 과정에 패브릭을 사용하는 경우, 파워 BI의 파워 쿼리(Power Query)를 사용하여 데이터를 탐색할 수 있다. 운영 데이터에서 인사이트를 찾고 있다면 아파치 스파크(Apache Spark) 및 파이썬 노트북(Python Notebook)을 사용할 수 있으며, 머신러닝 개발자는 오픈소스 ML플로우(MLflow) 환경을 사용하여 데이터를 처리할 수 있다.
원레이크, 데이터용 원드라이브(OneDrive)를 꿈꾸다
마이크로소프트 패브릭은 단일 데이터 플랫폼인 원레이크(OneLake)를 기반으로 구축되었다. ‘데이터용 원드라이브’라고 하는 원레이크는 모든 분석 데이터를 위한 조직 규모의 데이터 레이크다. 과거에는 보통 개별 부서에서 자체 데이터 레이크를 관리하고 그로 인해 사일로 현상이 발생하는데, 원레이크는 그런 접근 방식을 지양한다. 다시 말해 모든 데이터가 원레이크로 이동하고 그로 인해 별도의 데이터 웨어하우스와 레이크하우스를 확보할 수 있다. 동시에 중앙에서 관리되는 정책과 보안 도구를 가진 작업 공간에서 데이터가 부적절하게 사용되지 않도록 할 수 있다.
원레이크는 애저의 2세대 데이터 레이크 도구를 기반으로 한다. 테넌트 당 하나의 원레이크만 있으며, 데이터는 여러 컨테이너에 저장된다. 각 원레이크는 자체 액세스 정책을 사용하여 여러 작업 영역으로 세분화하여 각자의 데이터 항목을 관리할 수 있다. 원레이크는 데이터를 탐색하고 사용하는 데 도움이 되는 웹 기반 및 데스크톱 도구를 모두 사용하여 모든 유형의 파일을 호스팅하도록 설계되었다.
데이터는 반드시 애저를 통해서만 가져올 필요는 없다. 커넥터 라이브러리를 통해 패브릭의 데이터 팩토리 도구를 사용하여 여러 원본의 데이터를 관리할 수 있다. 여기서 한 가지 주요 기능은 아파치 파케이 (Apache Parquet) 데이터 형식을 지원한다는 것이다.
대규모 데이터 웨어하우스를 위해 설계된 파케이는 쉽게 압축되고 메모리 효율이 높은 컬럼 중심의 데이터 저장 형식으로, 고성능 컬럼 쿼리를 지원한다. 패브릭 데이터 팩토리 커넥터를 사용하여 대부분의 클라우드 스토리지 서비스에서 파케이 형식으로 데이터를 내보낼 수 있기 때문에, 파케이는 패브릭의 데이터 레이크에서 사용할 데이터 내보내기를 최적화하는 방법을 제공한다.
원레이크의 기본 스토리지 형식은 테이블용 델타(Delta) 형식이다. 델타는 트랜잭션 지원과 확장 가능한 메타데이터를 갖춘 아파치 파케이의 확장 버전이며 다양한 유형의 데이터 소스를 지원할 수 있는 개방형 형식이다. 델타 형식 테이블은 패브릭과 마찬가지로 대규모 데이터 레이크를 위해 설계되었으며 기존 분석 및 머신 러닝과 더 쉽게 통합할 수 있는 다양한 API를 제공한다. 원레이크를 사용하면 데이터를 한 번만 저장하면 되고 원하는 쿼리 도구로 사용할 수 있다.
원레이크와 데이터 레이크하우스
패브릭을 사용할 때는 ‘레이크하우스’ 개념도 잘 알고 있어야 한다. 레이크하우스는 필요한 데이터를 한 곳으로 가져와 조직 전체의 애저 호스팅 데이터 레이크에서 액세스할 수 있다. 레이크하우스는 대량의 데이터를 사용할 수 있는 방법과 함께 데이터를 저장, 관리 및 분석하기 위한 도구가 포함된 단일 뷰를 제공한다.
패브릭의 레이크하우스 구현은 델타 테이블과 함께 작동하도록 설계되었으므로, 레이크하우스의 모든 데이터가 적절한 형식으로 되어 있는지 확인해야 한다. 데이터를 가져온 후에는 노트북을 사용하여 데이터를 탐색하고 코드를 사용하여 조직 내 다른 곳에서 사용할 수 있는 정보를 추출할 수 있다. 또는 다른 애플리케이션에서 레이크하우스 데이터에 액세스하기 위해 SQL 엔드포인트를 사용할 수도 있다. 원레이크는 기존 젠 2 애저 데이터 레이크 스토리지 API(Gen 2 Azure Data Lake Storage API)를 사용하여 애저 데이터브릭스 및 애저 HD인사이트와 같은 도구 작업을 지원한다.
레이크하우스를 만드는 것은 아주 쉽다. 대시보드나 기존 패브릭 작업공간에서 시작할 수 있다. 레이크하우스가 생성되면 데이터 소스에 따라 데이터가 만들어지면 여러 가지 메커니즘을 사용하여 데이터를 로드 할 준비가 된 것이다. 간편한 선택지는 PC에서 직접 데이터를 업로드하는 것이지만, 내장된 복사 도구를 사용하여 데이터를 델타 테이블로 변환하여 바로 사용할 수 있도록 하는 것도 실용적이지 고려해보자. 또한 다른 플랫폼의 커넥터로부터 데이터를 가져오고 적절한 변환 작업을 처리하기 위해 파워 BI의 익숙한 데이터플로우 도구를 사용할 수도 있다. 또는 아파치 스파크 코드를 사용하여 레이크하우스에 데이터를 로드 할 수 있다.
패브릭의 실시간 분석은 반정형 형식의 시간 기반 데이터를 지원한다. 장기 분석과 운영 분석을 위해 별도의 도구를 사용하지 않고도 이제 동일한 데이터를 다른 방식으로 처리할 수 있다. 데이터가 도착하면 운영 분석을 통해 즉각적인 대응이 필요한 문제를 정확히 파악할 수 있다. 저장된 동일한 데이터는 다른 시스템의 데이터와 함께 머신 러닝을 위한 학습 데이터와 보고서 기반 데이터 분석을 위한 소스 데이터의 기초가 된다.
편리한 사용이 가능한 원레이크
원레이크에서 유용한 점은 모든 소스 데이터를 원레이크에 저장할 필요가 없다는 것이다. 바로가기를 사용해 다른 저장소 위치에 연결할 수 있다. 바로 가기는 데이터 레이크의 심볼릭 링크에 해당하는 것으로, 애저에서 데이터를 호스팅하지 않고도 데이터를 사용할 수 있다. 이렇게 하면 데이터 복사와 관련된 위험이 줄일 수 있으며, 패브릭 대시보드 내부에서 현업 시스템에 대한 액세스를 제어할 수 있다.
바로가기가 생성되면, 바로가기는 폴더(구조화된 데이터의 테이블 폴더와 구조화되지 않은 데이터의 파일 폴더)로 표시된다. 바로 가기에 델타 또는 파케이 형식 데이터가 포함된 경우 자동으로 테이블로 사용되며, 패브릭은 연결의 메타데이터를 로드하고 이를 사용하여 결과 테이블을 관리한다.
점점 더 많은 기업이 다양한 데이터에를 한꺼번에 저장할 수 있는 공통 저장소를 찾고 있다. 마이크로소프트는 패브릭으로 이러한 수요에 대응하려는 모양새다. 마이크로소프트는 델타 및 파케이와 같은 개방형 표준을 기반으로 구축함으로써 기업이 기존 데이터 플랫폼 기술을 사용하여 데이터 레이크를 구축하고 관리할 수 있도록 지원하는 방법을 찾았으며 데이터 웨어하우스 분석과 머신 러닝을 모두 지원할 준비가 되어 있다. 현재 패브릭은 프리뷰 단계로 공개됐으며 무료 평가판 형태로 이용 가능하다. 기업 입장에서 평가판을 활용한다면 장기적인 영향을 미치는 결정을 내리기 전에 미리 도움을 받을 수 있을 것이다.
ciokr@idg.co.kr
VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다.
동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다.
무료 VPN, 정말 괜찮을까?
무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다.
보안 우려
대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다.
속도와 대역폭 제한
무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다.
서비스 제한
무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다.
광고 및 추적
일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다.
제한된 기능
무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다.
유료 VPN의 필요성
최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다.
그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다.
보안 강화
해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다.
개인 정보 보호
인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다.
지역 제한 해제
해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다.
빠르고 안전한 유료 VPN, 서프샤크 VPN
뛰어난 보안
서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다.
다양한 서버 위치
서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다.
속도와 대역폭
서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다.
다양한 플랫폼 지원
서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다.
디바이스 무제한 연결
서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.