2020.03.19

캐글, 데이터 과학자들에게 코비드-19 조치 요청

Serdar Yegulalp | InfoWorld
캐글이 AI 연구원들에게 코비드-19에 관한 질문에 머신러닝 툴과 기술을 적용하는 과제를 제시했다. 

데이터 과학자를 위한 온라인 커뮤니티이자 데이터 과학 경쟁을 위한 플랫폼인 캐글은 ‘코비드-19 오픈 리서치 데이터세트 챌린지(COVID-19 Open Research Dataset Challenge, CORD-19)’라는 새롭고 시기적절한 과제를 발표했으며 우승자에게 상금도 지급할 것으로 알려졌다. 
 
ⓒGetty Images Bank

CORD-19는 AI∙머신러닝 연구원에게 바이러스와 전염병에 관한 수만 개의 기사로 구성된 데이터세트를 분석하는 텍스트 및 데이터 마이닝 툴을 개발하도록 요구한다. 목표는 질병에 관한 10가지 과제 또는 질문에 대한 답변을 제공하는 것이다.

CORD-19 챌린지의 각 과제에 대한 상금은 1,000달러며 현금으로 받거나 자선 기부금으로 전환해 구호 활동을 돕는 데 쓸 수도 있다.

코비드-19에 관한 연구가 부족한 상황은 아니다. 도전 과제 소개에 따르면 캐글의 데이터세트에는 ‘코비드-19, SARS-CoV-2, 코로나바이러스 관련 1만 3,000개 이상의 텍스트가 포함된 2만 9,000개가 넘는 학술 논문’이 이미 들어가 있다. 그러나 꼭 필요한 정보를 이 많은 학술 자료에서 일일이 찾아볼 시간이 거의 없기 때문에 캐글은 자연어처리와 같은 머신러닝 기술을 사용하여 관련 데이터를 보다 신속하게 제공하고자 한다.

CORD-19 과제는 코비드-19에 대한 일반적인 질문을 중심으로 진행된다. 각 고급 과제(예 : 코비드-19 위험 요인에 대해 무엇을 알고 있나?)에는 여러 하위 과제(예 : 어떤 집단이 더 취약한가? 흡연 또는 기존 폐 질환이 어떤 역할을 하는가?)가 포함된다.

다른 코비드-19 관련 데이터세트도 캐글에서 사용할 수 있다. 여기에는 바이러스의 완전한 RNA 시퀀싱에볼라, SARS와 같은 이전의 전염병 발생에 대한 세부 정보가 포함된다.

이전 캐글의 의학 관련 문제는 자궁경부암을 선별하는 더 좋은 방법을 고안하는 것과 같이 더 시급하고 시간이 덜 걸리는 프로젝트를 특징으로 했다. 코비드-19 발생에는 즉각적인 답변이 필요하므로 캐글 커뮤니티는 실시간으로 첫 주요 테스트를 하고 있다. ciokr@idg.co.kr
 



2020.03.19

캐글, 데이터 과학자들에게 코비드-19 조치 요청

Serdar Yegulalp | InfoWorld
캐글이 AI 연구원들에게 코비드-19에 관한 질문에 머신러닝 툴과 기술을 적용하는 과제를 제시했다. 

데이터 과학자를 위한 온라인 커뮤니티이자 데이터 과학 경쟁을 위한 플랫폼인 캐글은 ‘코비드-19 오픈 리서치 데이터세트 챌린지(COVID-19 Open Research Dataset Challenge, CORD-19)’라는 새롭고 시기적절한 과제를 발표했으며 우승자에게 상금도 지급할 것으로 알려졌다. 
 
ⓒGetty Images Bank

CORD-19는 AI∙머신러닝 연구원에게 바이러스와 전염병에 관한 수만 개의 기사로 구성된 데이터세트를 분석하는 텍스트 및 데이터 마이닝 툴을 개발하도록 요구한다. 목표는 질병에 관한 10가지 과제 또는 질문에 대한 답변을 제공하는 것이다.

CORD-19 챌린지의 각 과제에 대한 상금은 1,000달러며 현금으로 받거나 자선 기부금으로 전환해 구호 활동을 돕는 데 쓸 수도 있다.

코비드-19에 관한 연구가 부족한 상황은 아니다. 도전 과제 소개에 따르면 캐글의 데이터세트에는 ‘코비드-19, SARS-CoV-2, 코로나바이러스 관련 1만 3,000개 이상의 텍스트가 포함된 2만 9,000개가 넘는 학술 논문’이 이미 들어가 있다. 그러나 꼭 필요한 정보를 이 많은 학술 자료에서 일일이 찾아볼 시간이 거의 없기 때문에 캐글은 자연어처리와 같은 머신러닝 기술을 사용하여 관련 데이터를 보다 신속하게 제공하고자 한다.

CORD-19 과제는 코비드-19에 대한 일반적인 질문을 중심으로 진행된다. 각 고급 과제(예 : 코비드-19 위험 요인에 대해 무엇을 알고 있나?)에는 여러 하위 과제(예 : 어떤 집단이 더 취약한가? 흡연 또는 기존 폐 질환이 어떤 역할을 하는가?)가 포함된다.

다른 코비드-19 관련 데이터세트도 캐글에서 사용할 수 있다. 여기에는 바이러스의 완전한 RNA 시퀀싱에볼라, SARS와 같은 이전의 전염병 발생에 대한 세부 정보가 포함된다.

이전 캐글의 의학 관련 문제는 자궁경부암을 선별하는 더 좋은 방법을 고안하는 것과 같이 더 시급하고 시간이 덜 걸리는 프로젝트를 특징으로 했다. 코비드-19 발생에는 즉각적인 답변이 필요하므로 캐글 커뮤니티는 실시간으로 첫 주요 테스트를 하고 있다. ciokr@idg.co.kr
 

X