[쿠키과학] ‘휴머노이드 눈 밝힌다’… KAIST, AI 시각정보 고해상도 복원

압축된 시각 정보 원본 수준 복원
추가 학습 없이 다양한 환경 즉시 적용
GPU 메모리 효율 최대 16배 향상
휴머노이드·자율주행·온디바이스 AI 활용 기대

승인 2026-06-17 18:32:42

관심 있는 쿠키뉴스 기사를 Google 검색에서 더 쉽게 만나보세요.

기존 방식과의 성능 차이를 나타낸 비교 모식도(AI 생성 이미지). KAIST

휴머노이드 로봇과 온디바이스 인공지능(AI)이 적은 메모리만으로도 주변 환경을 더 정밀하게 인식할 수 있는 기술이 나왔다.

KAIST 전기및전자공학부 김창익 교수팀은 미국 MIT, 마이크로소프트와 공동연구로 압축된 시각 정보를 원본에 가깝게 복원하는 AI 기술 ‘업샘플 애니띵(Upsample Anything)’을 개발했다.

이 기술은 AI가 처리 과정에서 줄여놓은 저해상도 시각 정보를 다시 고해상도로 복원, GPU 효율을 최대 16배 높였다.

최근 휴머노이드 로봇과 자율주행차, 월드 모델 기반 AI는 막대한 연산량을 줄이기 위해 입력 영상을 압축해 사용한다.

월드 모델은 현실 세계의 물리적 환경과 변화를 학습하고 예측하는 AI다.

문제는 압축 과정에서 중요한 정보가 사라진다는 것.

사람은 작은 물체나 얇은 구조물도 쉽게 구분하지만, AI는 저해상도 정보만 사용하면 이런 세부 정보를 놓칠 수 있다.

반대로 모든 영상을 고해상도로 처리하면 많은 메모리와 전력이 필요해 스마트폰이나 로봇 같은 소형 기기에서 활용하기 어렵다.

연구팀은 이런 한계를 해결하기 위해 추가 학습 없이 저해상도 특징 정보를 고해상도로 복원하는 기술을 개발했다.

특징 정보는 AI가 이미지 속 사물의 모양과 경계, 색상 등 핵심 요소를 추출한 데이터다.

기존 기술은 새로운 환경에 적용할 때마다 별도 학습 과정을 거쳐야 했지만, 업샘플 애니띵은 입력 이미지 한 장만으로 최적의 복원 방식을 찾아낸다.

연구팀은 원본 이미지를 저해상도로 줄인 뒤 다시 원래 모습에 가깝게 복원하는 과정을 반복해 이미지 경계와 구조를 유지하는 복원 방식을 만들었다.

이후 이 방식을 AI 내부 특징 정보에 적용해 고해상도 정보를 복원했다.
그 결과 224×224 크기 이미지 기준 약 0.4초 만에 원본 수준의 시각 정보를 재구성했다.

또 모든 정보를 고해상도로 저장하지 않고 핵심 정보만 압축해 사용해 메모리 사용량을 크게 줄였다.

Upsample Anything의 전체 개요. 고해상도 이미지가 주어지면, 이를 저해상도 이미지로 다운샘플링한 뒤, 테스트 시점 최적화(TTO)를 통해 최적화하여 원본를 복원한다. 이 과정에서 픽셀별 비등방성 커널 파라미터를 학습한다. 이후 학습된 커널을 저해상도 파운데이션 특징 맵에 적용하여 고해상도 특징 맵을 생성하며, 이를 통해 픽셀 단위의 비등방성 Joint Bilateral Upsampling을 수행한다. KAIST

연구팀은 이 기술이 작은 부품의 위치를 정확히 파악해야 하는 휴머노이드 로봇과 자율주행 시스템, 스마트폰 기반 온디바이스 AI 등에 활용될 것으로 기대했다.

특히 반도체와 디스플레이 생산 공정, 정밀 부품 검사처럼 작은 결함을 찾아내야 하는 제조 현장에서도 활용 가능하다.

기존 AI는 미세한 균열이나 결함을 놓치는 경우가 있었지만, 이 기술은 세밀한 구조를 더 정확하게 인식할 수 있다.

김 교수는 “적은 자원으로도 AI 시각 정밀도를 높일 수 있다는 점이 이번 연구의 핵심"이라며 ”로봇과 온디바이스 AI가 실제 환경을 더 정확하게 이해하는 데 기여할 것"이라고 말했다.

한편, 이번 연구는 서민석 박사과정이 제1저자로 참여했고, 연구결과는 지난 7일 인공지능·컴퓨터비전 분야 최고 권위 학회 ‘CVPR 2026’에서 발표돼 ‘CVPR 컴퓨트 골드 스타‘와 ’트랜스패런시 챔피언‘에 선정됐다.
(논문명: Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling)