[쿠키과학] “영상보며 학습하는 로봇”…KAIST, VOTP 세계 최초 개발

좋은 사례·나쁜 사례 영상으로 인간 의도 학습
자율주행차·수술 로봇·휴머노이드까지 폭넓게 활용
비디오 AI+최적 전송 기법, 행동 선호도 자동 추론

승인 2026-06-10 14:44:50

관심 있는 쿠키뉴스 기사를 Google 검색에서 더 쉽게 만나보세요.

KAIST가 단 몇 개의 영상만으로 로봇이 사람의 판단 기준을 학습하는 기술을 개발하며 피지컬 인공지능(AI) 상용화의 핵심 난제를 풀었다.

이 많은 인간 평가 데이터를 모으지 않아도 AI가 사람의 의도를 이해하도록 학습해 로봇과 자율주행차, 수술 로봇 개발에 필요한 시간과 비용을 크게 줄일 수 있다.

KAIST 전기및전자공학부 유창동 교수팀은 소수의 선호 영상만으로 인간의 판단 기준을 학습하는 원천기술인 ‘VOTP(Video-based Optimal Transport Preference)’를 세계 최초로 개발했다.

피지컬 AI는 글을 쓰거나 그림을 만드는 생성형 AI를 넘어 실제 기계를 움직이는 기술이다.

공장에서 위험한 작업을 대신하는 로봇, 복잡한 도로를 주행하는 자율주행차, 정교한 수술을 수행하는 의료 로봇 등이 대표적이다.

하지만 기계가 현실에서 안전하게 움직이려면 사람처럼 상황을 판단해야 한다.

예를 들어 수술 로봇이 봉합할 때 어느 정도 힘을 써야 하는지, 자율주행차가 복잡한 교차로에서 언제 멈추고 언제 지나가야 하는지 스스로 선택해야 한다.
이를 위해 AI에는 어떤 행동이 좋은 행동인지를 알려주는 기준표인 ‘보상함수(Reward Function)’가 필요하다.

기존에는 이 기준을 만들기 위해 사람이 로봇의 행동을 수천~수만 번 직접 보고 평가해야 했다.

이 과정은 막대한 비용과 시간을 요구해 피지컬 AI 상용화를 가로막는 대표적인 장애물로 꼽혔다.

연구팀은 사람이 새로운 일을 배울 때 몇 번의 시범만 보고도 핵심을 익히는 방식에 주목했다.

좋은 사례와 나쁜 사례를 영상으로 보여주면 AI도 그 차이를 스스로 파악할 수 있다는 점을 연구에 적용했다.

VOTP는 사람에게서 10개 안팎의 좋은 시범 영상과 나쁜 시범 영상을 받으면 첨단 비디오 AI가 움직임의 미세한 차이를 분석한다.

이후 ‘최적 전송(Optimal Transport)’이라는 수학 기법을 활용해 영상들 사이의 관계를 계산하고, 수만 개의 다른 영상에 대해서도 어떤 행동이 더 바람직한지 자동으로 추론한다.

연구팀은 다양한 환경과 작업에서 실험을 진행해 이런 학습 방식이 실제 효과를 내고 새로운 상황에서도 안정적으로 작동한다는 점을 확인했다.

이번 연구는 기존에 대형 언어모델(LLM)을 활용해 평가 과정을 자동화하려던 방식의 한계도 극복했다.

말이나 글로는 로봇의 미세한 움직임을 정확히 설명하기 어렵고 모델을 반복 호출하는 비용도 컸다.

반면 영상은 사람의 직관적인 판단을 그대로 전달할 수 있어 훨씬 효율적으로 학습할 수 있다.

응용 범위도 로봇 팔 제어와 휴머노이드 로봇, 자율주행차, 스마트팩토리, 드론, 수술 로봇은 물론 사람 대신 컴퓨터 화면을 보며 작업하는 AI 에이전트에도 적용할 수 있다.

전문가가 현장 영상 몇 개만 선별해 보여주면 AI가 수많은 사례를 스스로 분석해 최적의 행동을 익히기 때문에 산업 현장에 새로운 로봇을 도입하는 과정도 빨라질 전망이다.

유 교수는 “피지컬 AI의 핵심은 기계가 인간의 의도를 이해하고 올바른 행동을 선택하는 것"이라며 “브이오티피는 소수의 영상만으로 인간의 판단 기준을 학습해 로봇이 사람처럼 판단하는 시대를 앞당길 핵심 기술이 될 것”이라고 말했다.

한편, 이번 연구는 KAIST 전기및전자공학부 루 민 퉁 박사과정이 제1저자로 참여했고, 연구결과는 국제학회 ‘국제기계학습학회(ICML) 2026’에 채택돼 전체 제출 논문 2만 3918편 가운데 상위 0.7%인 168편만 선정하는 구두 발표(Oral) 논문으로 뽑혔다.
(논문명: Video-Based Optimal Transport for Feedback-Efficient Offline Preference-Based Reinforcement Learning)