Offcanvas

AI / 개발자 / 머신러닝|딥러닝 / 보안

스택 오버플로우 복붙보다 나쁘다? ‘AI 생성 코드’를 믿을 수 없는 이유

2022.03.23 Andrada Fiscutean  |  CSO
깃허브 코파일럿, 탭나인 등의 AI 기반 도구는 개발자가 코드를 더 빠르게 작성하도록 돕는 자동완성 제안을 지원한다. 하지만 이렇게 생성된 코드가 안전하다고 어떻게 믿을 수 있을까? 

2021년 6월, 깃허브가 코드 자동완성 도구 ‘코파일럿’을 출시했을 때 많은 개발자는 이 도구가 ‘내 마음을 읽고 코드를 더 빨리 쓸 수 있도록 도와준다’라며 놀라움을 감추지 못했다. 코파일럿은 누군가가 쓴 변수 이름과 주석을 기반으로 다음에 무엇이 올지 제안한다. 이는 코드 줄 또는 개발자가 작성 방법을 모를 수도 있는 전체 함수를 제공한다. 
 
ⓒGetty Images

하지만 개발자가 확인하지 않고 이러한 제안을 사용하면 보안 취약점이 발생할 수 있다. 美 뉴욕대학교의 탠던 공대 연구진에 따르면 코파일럿을 테스트한 결과 이 도구가 생성한 코드의 40%에서 취약점이 발견됐다. 연구진은 알려진 취약점을 자동으로 찾아내는 깃허브의 코드QL(CodeQL)을 사용하여 (코파일럿이 생성한) 코드를 확인했고, ‘2021년 CWE 가장 위험한 소프트웨어 취약점 25개(2021 Top 25 Most Dangerous Software Weakness)’ 목록에 포함된 SQL 주입 취약점 또는 결함을 발견했다. 또 베리로그(Verilog) 등의 도메인 특정 언어의 경우 구문적으로 정확하고 의미 있는 코드를 생성하는 데 어려움을 겪었다고 언급했다. 

이러한 문제의 대부분은 코파일럿이 구축된 방식에서 비롯된다. 첫째, 이 모델은 깃허브에 게시된 코드를 학습했는데, 이러한 코드의 상당 부분은 검증되지 않았다. 둘째, 오픈소스 리포지토리에는 충분한 경계를 구축하지 않고 입력 및 동작을 검사하는 많은 반복 코드 패턴이 포함될 수 있다. 코파일럿은 패턴이 빈번할수록 더 널리 사용되고, 따라서 안전하다는 가정하에 이러한 패턴을 제안한다. 셋째, 생성된 코드는 컴파일되지 않고, 잠재적인 보안 문제가 없는지 확인되지도 않는다.

아울러 연구진은 누군가의 리포지토리에 실수로 남겨진 일부 기밀 데이터가 잠재적으로 다른 사람에게 자동 제안되는 코드에 나타날 수 있기 때문에 윤리적 함의나 지적재산권 문제가 있을 수 있다고 덧붙였다.

코드 자동완성 도구가 인기를 끌면서 이러한 문제는 개발자와 기업 모두에 영향을 미치기 시작했다. 이러한 도구를 안전하게 사용하고, 더 안전한 코드를 제공하는 새 도구를 구축할 방법을 찾는 것은 프로그래밍에 혁명을 일으킬 수 있다. 한편 개발자와 보안 전문가들은 이러한 모델을 올바른 데이터 세트로 교육하는 것부터 코드를 작성하고 보안 검사를 시행하는 베스트 프랙티스를 따르는 것까지 업계에서 주의를 기울여야 한다고 권고했다. 

AI 기반 자동완성 도구가 코드를 생성하는 방법
깃허브 코파일럿은 오픈AI(OpenAI)에서 개발한 코덱스(Codex)라는 모델을 기반으로 구축됐다. 코덱스는 GPT-3의 다음 세대로, 인간과 유사한 텍스트 또는 코드 조각을 예측하는 대규모 신경망을 사용한다. 논문 공동 저자이자 탠던 공대 연구 조교수인 해먼드 피어스는 “깃허브 코파일럿과 오픈AI 코덱스는 차이가 있다. 두 모델을 광범위하게 사용해보니 거기에 확실히 몇 가지 추가 기능이 있다는 사실을 발견했다”라고 밝혔다(깃허브는 이 추가 기능이 무엇인지 공개하지 않았다. 또한 깃허브에서는 <CSO 온라인>이 AI 생성 코드의 보안에 관해 이야기해달라고 한 요청을 거절했다).

뉴욕대 연구진에 의하면 이 두 모델이 제공하는 일부 제안은 이미 작성된 코드(깃허브에 작업물을 올린 임의의 개발자가 작성한 것)에서 따온 것이다. 하지만 모델은 종종 전에 볼 수 없었던 코드를 내놓기도 한다. 

코파일럿(Copilot), 탭나인(Tabnine), 디빌드(Debuild), 알파코드(AlphaCode) 등의 AI 기반 코드 자동완성 도구의 큰 문제는 컨텍스트가 부족하다는 점이며, 이는 보안 측면에서 문제가 될 수 있다고 뉴욕대 사이버보안 센터(NYU Cybersecurity Center)의 멤버이자 탠던 공대의 컴퓨터 공학과 조교수 브렌단-가빗은 언급했다. 그는 “이러한 모델은 이것이 변수이고 이것이 정수라는 것을 아는 컨텍스트에서 코드를 이해하지 못한다. 이를 다른 텍스트 뒤에 이어지는 것으로 이해한다. 무엇이 좋은 코드인지에 관한 개념이 없다”라고 지적했다.

프로그래밍 모델 훈련
범용 모델인 코파일럿은 모든 프로그래밍 언어를 사용할 수 있지만 파이썬, 자바스크립트, 타입스크립트, 루비 및 고랭을 사용하면 더 정확하다. 많은 코드가 이러한 언어로 깃허브에 작성돼 있기 때문이다. AI를 학습시키기 위한 데이터가 많을수록 예측이 원활하기 마련이다.

탭나인의 생태계 및 비즈니스 개발 부문 부사장 브랜든 정은 “깃허브에는 방대한 양의 코드가 있다. 모델에 넣을 수 있는 데이터가 많다는 이야기다. 이론상으로는 충분히 큰 모델을 가지고 충분한 [컴퓨팅 성능]을 투입하면 하나의 모델로 모든 모델을 관장할 수 있다”라고 말했다.

문제는 ‘양’이 아니라 ‘질’이다. 비트 센티널(Bit Sentinel)의 레드팀 기술 책임자 루시안 나이추는 “통계적인 관점에서 봤을 때 인기 있는 리포지토리에 좋은 코드 예시보다 나쁜 코드 예시가 더 많다”라고 전했다. 

아울러 베스트 프랙티스는 시간에 따라 변하기 때문에 좋은 코드도 나쁜 결과를 초래할 수 있다. 뉴욕대 연구진에 따르면 코파일럿은 몇 년 전에는 괜찮았지만 지금은 안전하지 않은 것으로 간주되는 코드를 생성하기도 한다. 이를테면 개발자가 MD5 해시 알고리즘을 사용하도록 권장한다. 피어스는 “[개발자가] 이 코드를 작성했을 당시에는 괜찮은 코드였지만 지금은 세상이 바뀌었다. 그 결과, 이는 베스트 프랙티스 관점에서 더 이상 안전하지 않다”라고 덧붙였다. 

이러한 잘못된 제안은 AI 기반 코드 자동완성 도구가 (현재의 베스트 프랙티스를 따르고 보안 결함을 감사받은 코드가 아니라) 임의의 코드로 훈련됐을 때 발생하며, 기업들은 이를 인지해야 한다고 정은 권고했다. 

한편 탭나인의 접근 방식은 코파일럿의 접근 방식과는 조금 다르다. 여러 프로그래밍 언어에서 작동하는 대규모 범용 모델을 구축하는 대신, 팀의 요구사항을 충족하도록 맞춤화한 소형 모델을 만든다. (비유하자면) 스위스 군용 나이프가 아니라 드라이버만 필요한 고객에게 맞춤형 필립스 헤드 스크류드라이버를 제공하는 것이다. 정에 따르면 이는 깃허브의 훈련 세트보다 작지만 더 맞춤화돼 있고 더 최신 상태이기 때문에 더 잘 쓰일 수 있다. 

소형 모델의 또 다른 장점은 어디서나 작동할 수 있고, 대형 모델에 비해 적은 컴퓨팅 성능을 요구한다는 것이다. 클라우드에 코드를 업로드할 필요 없이 개발자의 노트북에서 실행할 수 있다. 정은 탭나인이 분기별로 범용 모델을 그리고 필요에 따라 개별 모델을 자주 업데이트한다고 전했다. 훈련이 필요한 건 모델만이 아니다. 인간-AI 조합이 좋은 코드를 작성하려면 개인의 지식 접근도 촉진돼야 한다.

AI가 생성한 코드 사용 방법을 교육하기 
젊은 개발자는 특히 특정 분야의 경험이 부족할 때 AI의 제안을 받아들일 가능성이 크다. 목표는 단순히 일을 빨리 끝내도록 돕는 게 아니라 배울 수 있도록 돕는 것이어야 한다. 정은 이를 위한 가장 좋은 방법은 큰 조각보다는 작은 코드 덩어리를 제공하는 것이라고 말했다. 그는 “개발자가 작업을 처리하는 시간에서 큰 조각 하나가 차지하는 비중은 굉장히 크다. 업계로서는 사람들이 코드를 배우지 않기 때문에 문제가 된다. 사람들은 코드가 어떻게 작동하는지 이해하지 못한다”라고 지적했다.

큰 조각은 매력적으로 보이지만 주변 설명이나 컨텍스트가 부족하기 때문에 장기적으로는 부정적인 영향을 끼칠 수 있다. 정은 스택 오버플로우(Stack Overflow)에서 코드를 복사하는 것보다 더 나쁠 수 있다고 주장했다. 그는 “스택 오버플로우에는 주석이 있다. 읽어보는 게 좋지만 못 읽을 수도 있다. 하지만 적어도 사람들이 무엇인가를 왜 구축하려고 했는지, 어떻게 구현되었는지를 배울 기회는 있다”라고 설명했다.

탭나인은 몇 년 전에 큰 코드 조각을 테스트했지만 결국 하지 않기로 결정했다. 그 대신 AI가 잘 작성할 수 있고, 개발자가 잘 이해할 수 있는 작은 덩어리만 제공하기 때문에 궁극적으로 베스트 프랙티스를 따르고 안전할 가능성이 큰 코드로 이어질 수 있다. 

또한 이 회사는 (이를 통해) 선배와 후배 간의 지식 이전을 촉진하여 개발자를 교육할 수 있다고 밝혔다. 선임 개발자가 코드를 작성할 때마다 해당 팀의 개인 맞춤화된 모델이 진화한다. 즉, 선임 개발자의 코드 작성 방법을 학습하여 후배 개발자에게 도움이 될 만한 권장사항을 제시하는 것이다. 정은 “솔직히 누군가 옆에 앉아서 도와주는 것만큼 좋지는 않다. 하지만 코드 보안, 코드 품질 측면에서 크게 향상됐고, 코드베이스에서 훨씬 빠른 속도로 개발할 수 있다”라고 전했다. 
 
AI가 생성한 코드의 보안 검사 
AI 기반 코드 자동완성 도구는 지난 몇 년 동안 개선돼 왔지만 여전히 부족한 한 가지 문제가 있다. 트렌드 마이크로(Trend Micro)의 사이버 보안 부문 부사장 그렉 영은 “코파일럿, 탭나인 등의 도구는 검사 및 생성하는 코드의 보안 상태를 확인하지 않는다”라고 지적했다. 

코드를 확인하는 작업은 개발자의 몫이다. 나이추는 “모든 기능과 그 용도에 관해 철저한 보안 분석을 실시하지 않는 한, 제공된 코드는 완전하게 안전하다고 간주되서는 안 된다”라며, “개발자는 이러한 생성된 코드를 프로덕션 환경에서 사용하기 전에 자동 및 수동 보안 코드 검사를 수행하고, 특정 언어 문서에 정의된 도메인 베스트 프랙티스를 따라야 한다”라고 권고했다. 그는 다음의 표준과 문서를 추천했다.

• OWASP 코드 리뷰 가이드(OWASP Code Review Guide)
• 싱크의 보안 코드 리뷰(Synk's Secure code review)
• CWE 문서(CWE documentation)


코드에 잠재적인 보안 문제가 없는지 확인하는 자동 도구도 있다. 그중 하나가 뉴욕대 연구진이 코파일럿 테스트 시 사용한 ‘코드QL’이며, 이는 광범위한 보안 취약점을 찾아 버그를 식별할 수 있다. 

탭나인과 코파일럿은 개발자에게 이러한 도구를 사용하여 작업을 검토하라고 권고하면서도 (동시에 업계에서도 이를 원하는 목소리가 크지만) 정작 자체적인 보안 검사를 지원하진 않는다. 영은 “코파일럿에 보안을 향상시키기 위한 AI가 있다면 정말 좋을 것이다. 물론 향후에는 지원되리라 예상된다”라고 말했다. 

‘AI 기반 코드 생성기’는 버그를 걸러내고, 안전한 코드를 제안하도록 진화하고 있지만 아직 갈 길이 멀다. 현재로서는, 개발자와 코드 메인테이너가 제안되는 코드의 보안을 책임지고 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.