화학 및 제약 기업 바이엘(Bayer)의 농업 사업부인 크롭사이언스(Crop Science)는 생성형 AI 기능을 탑재한 AWS 기반 데이터 과학 플랫폼을 개발해 ‘새로운’ 농업 솔루션을 구현하려 하고 있다.
최근 바이엘 크롭사이언스는 수천 명의 데이터 과학자와 엔지니어가 전 세계 농부를 위한 농업 솔루션을 개발하는 데 있어 생성형 AI가 핵심 촉매제가 될 것으로 보고 있다.
바이엘 크롭사이언스의 글로벌 데이터 자산 책임자인 윌 맥퀸은 아마존 세이지메이커 스튜디오(SageMaker Studio)를 기반으로 새로운 데이터 과학 플랫폼을 개발하고 있다고 말했다. 그에 따르면 아마존 베드락과 아마존 큐의 생성형 AI 기능을 탑재한 이 플랫폼은 ‘새로운’ 농산물의 개발을 촉진하고 가속화하도록 설계됐다.
바이엘, 아마존, 슬라롬 컨설팅의 엔지니어와 임원 약 10명으로 구성된 팀은 18개월 전에 ‘의사결정 과학 생태계(Decision Science Ecosystem)’의 청사진을 마련한 뒤 1년여 동안 플랫폼을 개발해 왔다. 맥퀸은 바이엘의 데이터 과학자들이 새로운 플랫폼에서 생성형 AI 모델의 개념 증명을 거쳤지만 ‘유효성’에 대한 발견 및 평가 단계에 있기 때문에 실질적인 모델 생산은 2025년에 이뤄질 것이라고 설명했다.
맥퀸이 “현재로서 R&D 파이프라인은 기밀”이라고 말했으나, 바이엘 크롭사이언스는 발전된 생성형 AI를 통해 식량 공급망을 변화시킬 종자를 만들어낼 수 있을 것으로 기대하고 있다. 그가 바이엘의 핵심 사명으로 ‘전 세계에 식량을 공급하는 것’을 언급했기 때문이다.
플랫폼의 경우 약 7년 전 도미노(Domino)라는 라이선스 플랫폼을 기반으로 구축된 기존 데이터 과학 플랫폼이 수명이 다했기 때문에 현대 AI 시대에 맞게 교체해야 한다고 맥퀸은 말했다. 그는 앞으로 몇 달 안에 ‘의사결정 과학 생태계’ 플랫폼의 첫 번째 릴리스가 출시될 계획이라고 밝혔다.
맥퀸에 따르면 대부분의 기업과 마찬가지로 바이엘 크롭사이언스도 초기에는 내부 기술 문서 작성과 같은 기본적인 비즈니스 프로세스를 자동화하기 위해 AWS 기반 생성형 AI 도구를 사용할 계획이다. 현재는 플랫폼을 구축한 핵심 엔지니어들이 생성형 AI 기능을 활용해 프로세스 속도를 높이고 있는데, 맥퀸은 이 기능을 부서 전체에서 사용할 수 있게 되면 더 강력한 실험과 혁신에 박차를 가할 수 있을 것이라고 설명했다.
그는 “생성형 AI 기능을 사용하기 전에는 각 엔지니어가 코드 작성 및 개발 과정에서 직접 문서를 작성해야 했다. 즉시 사용 가능한 AWS의 AI 기능은 수작업을 대체해 엔지니어링 직원이 이전보다 훨씬 더 효율적이고 신속하게 가치를 제공할 수 있게 해준다”라고 말했다.
곧 출시될 데이터 과학 플랫폼은 아마존 베드락과의 연결 및 통합 향상, 자연어를 사용한 코드 작성 기능, 강력한 테스트 및 안전 가드레일 등의 기능을 갖추고 있으며, 바이엘의 엔지니어와 데이터 과학자들이 사용할 예정이다.
또한 크롭사이언스는 데이터 과학 플랫폼을 기반으로 AI 모델의 맞춤형 카탈로그인 모델 레지스트리와 각 단계의 요구 사항에 따라 검색부터 테스트, 배포, 생산까지 추적할 수 있는 모델 수명 주기 기능 등을 개발하고 있다. 맥퀸은 모델 레지스트리를 통해 동료 데이터 과학자가 개발한 코드를 활용할 수 있다고 덧붙였다.
변화의 시작점
맥퀸은 AWS와의 협력을 통해 개발한 기술 플랫폼이 생성형 AI 노력을 새로운 수준으로 끌어올린다고 말했다. 해당 플랫폼이 모델 개발을 촉진할 뿐만 아니라, 데이터 과학자와 엔지니어를 대상으로 프롬프트 엔지니어링 기술과 고급 데이터 기술의 응용에 대한 교육도 제공해 새로운 상업적 제품을 창출할 수 있도록 돕기 때문이다.
최근 개최한 서밋에서 AWS는 생성형 AI 혁신의 한계를 뛰어넘고 있는 기업으로 바이엘 크롭사이언스를 선정했다. 여기에는 과학자와 생물학자가 실험용 단백질을 구축할 수 있도록 지원하는 엑스사이언티아의 첨단 신약 개발 플랫폼, 에볼루션스케일의 ESM3도 함께 선정됐다.
다만 맥퀸은 고도로 숙련된 사람이라 하더라도 생성형 AI 플랫폼 사용과 관련된 변화 관리 수준은 복잡하고 ‘신중한 평가’가 필요하다고 강조했다. 그는 “근본적으로 다른 방식으로 업무를 처리하고 AI를 활용하는 데 익숙해지기까지는 약간의 시간이 필요하다”라고 말했다.
맥퀸에 따르면 문서 요약 및 콘텐츠 제작과 같은 생성형 AI의 기본 기능은 이미 데이터 과학 플랫폼의 품질을 향상시키고 가용성을 확보하는 시간을 단축시키고 있다. 하지만 시간이 지남에 따라 바이엘의 혁신가와 농업 과학자들은 플랫폼의 고유 도구와 기능을 통합해 전례 없는 방식으로 혁신하는 데 더 능숙해질 전망이다. 맥퀸은 “그렇게 된다면 직원들이 훨씬 더 빠르게 생성형 AI 플랫폼에 온보딩할 수 있으며, 모델을 구축하는 기능에 대한 이해도도 높아질 것이다. 부가적인 효과다”라고 말했다.
하지만 현재 가장 진보된 과학 도구를 실험하는 데 따르는 위험도 있으며, 철저한 감독과 강력한 품질 관리 절차가 필요하다. 이를 위해 팀은 고유 데이터가 외부로 유출되거나 유망하지만 검증되지 않은 솔루션이 바이엘의 전 세계 농업 인구에 배포되는 것을 방지하는 안전 장치를 구축했다.
열린 접근 방식
바이엘 크롭사이언스는 멀티 클라우드 환경을 운영하고 있지만, 보다 유연하고 개방적인 플랫폼을 위해 AWS와 긴밀히 협력하고 있다. 바이엘의 데이터 과학자 및 엔지니어는 베드락 기반 플랫폼을 통해 허깅페이스와 같은 다양한 오픈소스 대규모 언어 모델(LLM)에 액세스할 수 있다.
또한 아마존의 AI 플랫폼을 사용하면 바이엘과 같은 고객이 원하는 데이터 플랫폼을 사용할 수 있는데, 이는 생성형 AI 모델을 개발하는 데 있어 매우 중요한 요소다. 크롭사이언스의 경우 데이터 웨어하우스로는 구글 빅쿼리(BigQuery)를 사용하고 있다.
맥퀸은 “AWS에서 초기에 확인한 사실은 유연한 기술 역량을 갖췄다는 점이었다. 이를 통해 여러 벤더의 모델을 연결할 수 있는 보다 세분화된 아키텍처를 개발할 수 있다”라고 설명했다. 예를 들어 베드락의 생성형 AI 모델 카탈로그에는 메타의 라마 2.1과 미스트랄의 라지2와 같은 파트너의 오픈소스 및 폐쇄형 모델이 포함돼 있다.
IDC의 전 세계 인프라 연구 부문 클라우드 및 엣지 서비스 연구 부사장인 데이브 맥카시는 생성형 AI에 대한 클라우드 서비스 업체의 태도가 각기 다르다고 언급했다. 그는 “클라우드 벤더는 고객이 다양한 모델을 활용하도록 지원하기 위해 각기 다른 접근 방식을 취하고 있다. 구글은 내부적으로 개발한 제미나이 모델 제품군의 가치에 초점을 맞추는 반면, AWS는 서드파티 모델 제공 업체와 파트너 주도 접근 방식을 취하고 있다. 장기적으로 어떤 접근 방식이 최선인지는 아직 명확하지 않다”라고 말했다.
한편 기업이 생성형 AI 모델을 더욱 발전시키는 방향으로 나아가면서 벤더 파트너십, 조달, 비용, 개발, 성과 측정, 보안 측면에서 CIO가 관리해야 할 사항도 늘어날 전망이다.
프로세스 보호
아직 초기 단계이지만 바이엘 크롭사이언스는 맥퀸이 ‘파괴적’이라고 표현하기까지 한 여러 가지 새로운 사용 사례를 적극적으로 개발하고 있다. 베드락과 병행해 데이터 과학 플랫폼을 발전시키고 있으며, 아마존의 AI 플랫폼 업데이트에 대응하는 추가 기능 출시도 계획 중이다.
고급 사용 사례에 눈을 돌리면서 맥퀸과 IT 팀은 과학자 및 엔지니어의 책임 있는 개발을 안내하는 방법론을 도입하고, 자동화된 필터링 및 모니터링 도구와 기타 보호 장치를 통합해 고유 데이터를 보호하고 있다.
맥퀸은 “개발 중인 새로운 기능이 시장에 출시되거나 워크플로우 프로세스에 직접 포함될 가능성이 있는 경우, 직원들은 해당 기능이 출시되기 전에 신중하게 벤치마킹하고 테스트해야 한다”라고 말했다. 그에 따르면 이는 프로토타입이 데이터 과학 플랫폼에 내장된 엄격한 품질 관리 테스트 없이 식품 공급에 들어가는 것을 막기 위한 노력이다.
맥퀸은 “바이엘은 사람 전문가와 함께 모델을 테스트해 본격 생산 이전에 검증을 수행할 수 있다. 새로운 기능을 외부에서 도입해 농부에게 잘못된 조언을 제공하고 피해를 입히는 일이 없도록 해야 한다”라고 덧붙였다. ciokr@idg.co.kr