
< 전기및전자공학부 김준모 교수, 권민찬 박사과정 >
아무리 많은 데이터를 학습해도, 인공지능(AI)은 왜 사람의 의도를 자주 빗나갈까? 사람의 선호를 이해시키기 위한 비교 학습은 오히려 AI를 혼란스럽게 만드는 경우도 적지 않았다. KAIST 연구진은 AI에게 ‘가정교사’를 붙이는 방식으로, 적은 데이터에서도 사람의 선호를 정확히 배우는 새로운 학습 해법을 제시했다.
우리 대학 전기및전자공학부 김준모 교수 연구팀이 인간의 선호를 효과적으로 반영하면서도 데이터 효율성과 학습 안정성을 크게 향상시킨 강화학습 프레임워크 ‘TVKD(Teacher Value-based Knowledge Distillation)’를 개발했다고 17일 밝혔다.
기존 인공지능 학습 방식은 “A가 B보다 낫다”는 식의 단순 비교(preference comparison) 데이터를 대량으로 수집해 학습하는 구조였다. 이 방식은 많은 데이터가 필요하고, 판단이 애매한 상황에서는 AI가 혼란에 빠지기 쉽다는 한계가 있었다.
연구팀은 이러한 문제를 해결하기 위해, 사람의 선호를 먼저 깊이 이해한 ‘교사(Teacher) 모델’이 그 핵심 정보만을 ‘학생(Student) 모델’에게 전달하는 방식을 제안했다.
이는 복잡한 내용을 정리해 가르치는 가정교사에 비유할 수 있으며, 연구팀은 이를 ‘선호 증류(Preference Distillation)’라고 명명했다.
이번 기술의 가장 큰 특징은 단순히 ‘좋다·나쁘다’를 흉내 내는 것이 아니라, 각 상황이 얼마나 가치 있는지를 수치적으로 판단하는 ‘가치 함수(Value Function)’를 교사 모델이 학습한 뒤 이를 학생 모델에 전달하도록 설계했다는 점이다.
이를 통해 AI는 애매한 상황에서도 단편적인 비교가 아닌, ‘이 선택이 왜 더 나은지’를 종합적으로 판단하며 학습할 수 있다.

< TVKD의 연구 개념도: 인간 선호 데이터셋을 교사 모델에게 가르친 뒤, 학생 모델에게 교사 정보와 데이터셋을 전달하여 학습을 진행한다 >
이번 기술의 핵심은 크게 두 가지다. 첫째, 문맥 전체를 고려한 가치 판단을 학생 모델에 반영함으로써, 단편적인 답변이 아닌 전체 흐름을 이해하는 학습이 가능해졌다. 둘째, 선호 데이터의 신뢰도에 따라 학습 중요도를 조절하는 기법을 도입했다.
명확한 데이터는 학습에 크게 반영하고, 모호하거나 잡음이 섞인 데이터는 영향력을 줄여 현실적인 환경에서도 AI가 안정적으로 학습할 수 있도록 했다.
연구팀이 이 기술을 여러 AI 모델에 적용해 실험한 결과, 기존에 가장 성능이 좋다고 알려진 방법들보다 더 정확하고 안정적인 성능을 보였다. 특히 엠티-벤치(MT-Bench), 알파카-이밸(AlpacaEval) 등 주요 평가 지표에서 기존 최고 기술을 안정적으로 앞서는 성과를 기록했다.
김준모 교수는 “현실에서는 사람의 선호 데이터가 항상 충분하거나 완벽하지 않다”며 “이번 기술은 그런 제약 속에서도 AI가 일관되게 학습할 수 있게 해, 다양한 분야에서 실용성이 매우 높을 것”이라고 말했다.

< MT-Bench 각 과제(task)별 성능 비교 결과. 제안한 TVKD 프레임워크가 기존 방법보다 전반적으로 높은 점수를 기록함을 확인할 수 있다. >

< Shaping term 시각화 결과. teacher 모델이 응답 내에서 중요하게 판단한 상위 토큰(단어로 변환됨)들이 붉은색으로 표시되어, value 기반 정렬 과정에서 어떤 토큰이 더 큰 영향을 미치는지 직관적으로 보여준다. >
우리 대학 전기및전자공학부 권민찬 박사과정이 제1 저자로 참여했으며, 연구 성과는 국제 인공지능 분야 최고 권위 학회인 ‘신경정보처리시스템학회(NeurIPS) 2025’에 채택됐다. 해당 연구는 2025년 12월 3일(미국 태평양시간) 포스터 세션에서 발표됐다.
※ 논문명: Preference Distillation via Value based Reinforcement Learning), DOI: https://doi.org/10.48550/arXiv.2509.16965
한편 이번 연구는 2024년도 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행된 연구 성과물(No.RS-2024-00439020, 지속가능한 실시간 멀티모달 인터렉티브 생성 AI 개발, SW스타랩)을 지원을 받아 수행했다.
로봇이 전선, 의류, 고무줄처럼 형태가 자유롭게 변형되는 물체를 다루는 기술은 제조·서비스 산업 자동화의 핵심 과제로 꼽혀왔다. 그러나 이러한 변형 물체는 모양이 일정하지 않고 움직임을 예측하기 어려워, 로봇이 이를 정확히 인식하고 조작하는 데 큰 어려움이 있었다. KAIST 연구진이 불완전한 시각 정보만으로도 변형 물체의 상태를 정밀하게 파악하고 능숙하게 다룰 수 있는 로봇 기술을 개발했다. 이번 성과는 케이블 및 전선 조립, 부드러운 부품을 다루는 제조업, 의류 정리와 포장 등 다양한 산업 및 서비스 분야의 지능형 자동화에 기여할 것으로 기대된다. 우리대학 전산학부 박대형 교수 연구팀이 탄성 밴드처럼 형태가 연속적으로 변하고, 시각적으로 형태를 구별하기 어려운 물체도 로봇이 능숙하게 다룰 수 있게 하는 인공지능 기술인‘INR-DOM(아이엔알-돔, Implicit Neural-Representation for Deformable Object Manipu
2025-08-21연기가 자욱해 앞이 안보이는 재난 상황에서 별도의 시각이나 촉각 센서의 도움 없이 계단을 오르내리고 나무뿌리와 같은 울퉁불퉁한 환경 등에서 넘어지지 않고 움직이는 사족보행 로봇 기술이 국내 연구진에 의해 개발됐다. 우리 대학 전기및전자공학부 명현 교수 연구팀(미래도시 로봇연구실)이 다양한 비정형 환경에서도 강인한 `블라인드 보행(blind locomotion)'을 가능케 하는 보행 로봇 제어 기술을 개발했다고 29일 밝혔다. 연구팀은 사람이 수면 중 깨어서 깜깜한 상태에서 화장실을 갈 때 시각적인 도움이 거의 없이 보행이 가능한 것처럼, 블라인드 보행이 가능하다고 해서 붙여진 ‘드림워크(DreamWaQ)’기술을 개발하였고 이 기술이 적용된 로봇을 ‘드림워커(DreamWaQer)’라고 명명했다. 즉 이 기술을 탑재하면 다양한 형태의 사족보행 로봇 드림워커를 만들어낼 수 있게 되는 것이다. 기존 보행 로봇 제어기는 기구학 또는 동
2023-03-29우리 대학 기계공학과 황보제민 교수 연구팀이 모래와 같이 변형하는 지형에서도 민첩하고 견고하게 보행할 수 있는 사족 로봇 제어기술을 개발했다고 26일 밝혔다. 황보 교수 연구팀은 모래와 같은 입상 물질로 이루어진 지반에서 로봇 보행체가 받는 힘을 모델링하고, 이를 사족 로봇에 시뮬레이션하는 기술을 개발했다. 또한, 사전 정보 없이도 다양한 지반 종류에 스스로 적응해가며 보행하기에 적합한 인공신경망 구조를 도입해 강화학습에 적용했다. 학습된 신경망 제어기는 해변 모래사장에서의 고속 이동과 에어 매트리스 위에서의 회전을 선보이는 등 변화하는 지형에서의 견고성을 입증해 사족 보행 로봇이 적용될 수 있는 영역을 넓힐 것으로 기대된다. 기계공학과 최수영 박사과정이 제1 저자로 참여한 이번 연구는 국제 학술지 `사이언스 로보틱스(Science Robotics)' 1월 8권 74호에 출판됐다. (논문명 : Learning quadrupedal locomotion on deformabl
2023-01-26우리 대학 전기및전자공학부 장민석 교수 연구팀이 KC ML2(반도체 제조 솔루션 기업 KC에서 설립한 연구조직) 박찬연 박사와 공동연구를 통해 강화학습에 기반한 자유 구조의 메타 표면 구조 설계 방법을 제안했다고 25일 밝혔다. 메타 표면은 빛의 파장보다 훨씬 작은 크기의 구조를 이용해 이전에 없던 빛의 성질을 달성하는 나노광학 소자를 뜻한다. 나노광학 소자는 빛의 특성을 미시 단위에서 제어하여, 자율주행에 쓰이는 라이다(LiDAR) 빔조향 장치, 초고해상도 이미징 기술, 디스플레이에 활용되는 발광소자의 광특성 제어, 홀로그램 생성 등에 활용될 수 있다. 최근 나노광학 소자에 대한 기대 성능이 높아지면서, 이전에 있던 소자구조를 훨씬 뛰어넘는 성능을 달성하기 위해 자유 구조를 가지는 소자의 최적화에 관한 관심이 증가하고 있다. 자유 구조와 같이 넓은 설계공간을 가진 문제에 대해 강화학습을 적용해 해결한 사례는 이번이 최초다. 우리 대학 서동진 연구원 및 ML2 남원태 연구
2022-02-25우리 대학 바이오및뇌공학과 이상완 교수(신경과학-인공지능 융합연구센터 소장)가 뇌 기반 인공지능 연구성과를 인정받아 2021년 IBM 학술상(舊 IBM 교수상) 수상자로 최종 선정됐다. IBM 학술상은 미국 IBM과 전 세계 유수 대학과의 연구 협력 활성화를 위해 제정된 상으로 IBM 연구소장 등 조직 내 핵심 연구자들의 내부 지명을 받아 후보자 군이 선정되고, 이후 연구 제안서의 임팩트, 연구의 창의성 및 연구업적 등을 종합적으로 평가해 최종 수상자가 결정된다. 수상자에게는 연구 범위나 특허 관련 제약 조건이 전혀 없는 연구비 형태의 상금이 지급되며, IBM 연구소와 다양한 형태의 연구 교류를 수행할 수 있게 된다. 국내에서는 과거 서울대 윤성로 교수(2018년), 고려대 이재성 교수(2005년), 서울대 문수묵 교수(2000년) 등이 수상자로 선정된 바 있다. 이상완 교수 연구팀은 2019년에 사이언스 로보틱스(Science Robotics)와 네이처 커뮤니케이션즈(
2021-06-17