Offcanvas

AI / 로봇|자동화 / 머신러닝|딥러닝

사전 훈련 없이도 작업 척척··· 딥마인드, 로봇 위한 ‘액션’ 모델 RT-2 공개

2023.08.01 이지현  |  CIO KR
딥마인드가 로봇 운영을 위한 새로운 시각 언어(Vision Language Action, VLA) 모델인 ‘로봇 트랜스포머 2(Robotics Transformer 2, 이하 RT-2)’를 28일 공개했다. 
 
ⓒ Deepmind

딥마인드에 따르면 RT-2는 웹과 로봇 데이터 모두에서 학습하고 해당 지식을 로봇 제어를 위한 일반화된 명령어로 변환하는 새로운 비전 언어 액션(VLA) 모델이다.

기존의 AI 모델이 텍스트 중심의 데이터를 학습한 것에 비해 RT-2는 텍스트와 이미지 데이터 모두를 활용한다. 따라서 일반 문장을 이해하는 능력과 이미지를 해석하는 능력도 뛰어나다는 것이 딥마인드의 설명이다. 

여기에 RT 기술 자체는 2022년에 이미 출시된 바 있는데 이번에 나온 2세대 기술은 1세대 기술과 달리 적은 데이터를 가지고도 로봇이 특정 업무를 수행하도록 돕는다. 이때 기존 웹에 있는 데이터도 활용하면서 특별한 훈련 없이 로봇이 지시한 명령을 수행할 수 있다고 한다. 연구팀은 “RT-1에서 RT-2로 전환한 후 새로운 작업 수행 효율성이 32%에서 62%로 향상되었다”라고 설명했다. 

공식 블로그에 나온 예시에 따르면, 과거 로봇에게 쓰레기를 버리도록 훈련시키려면 로봇이 무엇이 쓰레기를 식별하고 주워서 버리도록 명시적으로 훈련시켜야 했다. 하지만 RT-2를 이용하면 웹 데이터를 기반으로 로봇이 쓰레기가 무엇인지 이해할 수 있으며, 구체적인 훈련 없이도 추론 과정을 거쳐 처음 보는 물체 중에 쓰레기를 구별하고 직접 버리는 행동까지 수행할 수 있다. 
 
딥마인드는 공식 블로그를 통해 “RT-2는 비전 언어 모델(Vision Language Models, VLM)이 강력한 비전 언어 액션(Vision Language Action, VLA) 모델로 변환될 수 있음을 보여주며, VLM 사전 학습과 로봇 데이터를 결합하여 로봇을 더 쉽게 제어할 수 있을 것”이라고 기대했다. 
jihyun_lee@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.