전산학부 윤성의 교수, 미국 컴퓨터학회(ACM) 특훈회원 선정
우리 대학 전산학부 윤성의 교수가 세계 최대 컴퓨터 과학 분야 학술 단체인 미국 컴퓨터학회(ACM, Association for Computing Machinery)의 ‘특훈회원(Distinguished Member)’으로 선정됐다.
ACM 특훈회원은 컴퓨터 및 정보기술 분야에서 15년 이상의 경력을 보유하고, 탁월한 연구 업적과 기술적 리더십을 통해 해당 분야 발전에 크게 기여한 연구자에게 주어지는 고위 회원 등급이다.
전 세계 약 11만 명의 ACM 회원 중 상위 10% 이내에 해당하는 인원만이 이 자격을 얻을 수 있으며, 매년 약 50~60명만이 엄선되는 매우 영예로운 자리다.
윤성의 교수는 ‘피지컬 AI(Physical AI)’ 분야의 권위자로, ▲대용량 3D 모델을 초고속으로 처리하는 스케일러블 렌더링(Scalable Rendering) ▲물리 기반 시뮬레이션 및 데이터 생성 ▲AI·컴퓨터 비전 학습 기법 등에서 독창적인 연구 성과를 인정받아 이번 영예를 안았다.
윤 교수가 개발한 기술들은 현재 3D 그래픽스를 넘어 로보틱스, 자율주행, 시뮬레이션 기반 AI 등 미래 산업 전반의 핵심 기반 기술로 폭넓게 활용되고 있다.
윤 교수는 2007년 KAIST 부임 이후, 로봇 경로 계획 및 강화학습, 대규모 검색 기술 등 다양한 융합 연구를 주도해왔다. 이러한 연구 결과는 ACM SIGGRAPH, IEEE CVPR, ICRA 등 세계 최고 수준의 학회에서 꾸준히 발표되었으며, ‘Test-of-Time Award’와 ‘Best Paper Award’ 수상, 다수의 저널 초청 논문 선정 등을 통해 국제적 영향력을 입증해왔다.
윤 교수는 서울대학교에서 전산학 학·석사를 마치고 미국 노스캐롤라이나 대학교 채플힐(UNC–Chapel Hill)에서 박사학위를 받았다. 이후 미국 로렌스 리버모어 국립연구소(LLNL)에서 박사후연구원으로 재직하며 대규모 데이터 처리 기술을 연구한 바 있다.
영상 속 1등이 어디죠? ‘딱 그 순간’을 찾아내는 AI 기술 세계 1위
‘카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇 인가요?’라는 복잡한 질문이 나오면 AI는 많은 경우 영상 속 실제 상황을 보고 판단하는 것이 아니라, 언어 패턴에 의존해 ‘그럴듯한 답’을 추측하는 문제가 있다. 우리 대학 연구진은 이 한계를 해결하기 위해 영상 속 ‘딱 중요한 순간(Trigger moment)’을 AI가 스스로 찾아내도록 하는 기술을 개발했고, 이 기술로 국제 AI 대회에서 우수성을 입증했다.
우리 대학은 전산학부 윤성의 교수 연구팀이 이화여대 노준혁 교수 연구팀과 공동 연구를 통해, 세계적 권위의 컴퓨터 비전 학회 ICCV 2025에서 열린 Perception Test Challenge의 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다.
이번 ICCV 2025에서 열린 인지 테스트 대회(Perception Test Challenge)는 구글 딥마인드(Google DeepMind)가 주관하여 총 상금 50,000 유로(한화 약 8,300만원)가 걸린 대회로, 영상·음성·텍스트 등 다양한 데이터를 종합적으로 이해하는 멀티모달 AI의 인지 및 추론 능력을 평가한다. 특히 언어 중심 편향을 벗어나 실제 영상 근거를 바탕으로 판단하는 능력이 핵심 평가 요소다.
우리 대학 연구팀은 영상 전체를 무작정 분석하는 기존 방식과 달리, AI가 정답을 위해 꼭 필요한 핵심 장면(Trigger moment)을 먼저 찾아내도록 만드는 새로운 기술을 개발했다. 쉽게 말하면, “이 질문에 답하려면 이 장면이 결정적이야!”를 AI가 스스로 찾아내도록 설계한 기술이다.
이 프레임워크를 연구팀은 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 부른다.
연구팀의 시스템은 서로 다른 기능을 수행하는 세 모델이 순차적으로 작동하는 3단계 구조로 구성된다. 먼저 추론 AI(Gemini 2.5 Pro)가 질문에 답하기 위해 어느 순간을 봐야 하는지 사고하고 딱 그 순간(Trigger moment) 후보를 찾는다. 다음으로 객체 위치 찾기 모델(Grounding 모델, Molmo-7B)이 해당 순간 화면 속 사람·차·사물의 정확한 위치(좌표)를 파악한다. 마지막으로 추적 모델(Tracking 모델, SAM2)이 선택된 한 장면을 기준으로 앞뒤 시간대의 객체 움직임을 정밀하게 추적해 오류를 줄인다.
즉, ‘핵심 장면 한 컷을 정확히 찍고, 그 장면을 중심으로 정답 근거를 추적하는 방식’덕분에 영상 초반 오판이나 가려짐 같은 문제도 크게 줄었다.
총 23개 팀이 참여한 영상 근거 기반 질의응답(Grounded VideoQA) 트랙에서 KAIST팀 SGVR Lab(Scalable Graphics, Vision & Robotics Lab)은 ‘고차 추적 정확도(HOTA, Higher Order Tracking Accuracy)’지표에서 0.4968점을 기록하며 2등 미국 콜럼비아대의 0.4304점을 압도적인 점수 차로 상회하며 1위를 차지했다. 이는 전년도 우승 기록 0.2704점보다도 약 두 배에 가까운 성과다.
이 기술은 실생활에서도 넓게 쓰일 수 있다. 자율주행차는 사고 위험이 있는 순간을 정확히 보고, 로봇은 주변 상황을 더 똑똑하게 이해한다. 또 보안·감시 시스템은 중요한 장면을 빠르게 찾아내고, 미디어 분석에서는 사람이나 사물의 행동을 시간 순서대로 정확히 추적할 수 있다.
즉, AI가 “영상 속 실제 근거”를 보고 판단할 수 있도록 만드는 핵심 기술이다. 특히 영상 속 객체가 시간에 따라 어떻게 행동하는지 정확히 짚어내는 능력은 향후 AI의 실제 현장 적용을 크게 확장할 것으로 기대된다.
이번 연구는 ICCV 2025, the 3rd Perception Test Challenge 학회에서 10월 19일자 발표하였다.
이 성과는 과학기술정보통신부 기초연구사업 중견연구와 SW스타랩 사업 ‘오픈 월드 로봇 서비스를 위한 불특정 환경 인지·행동·상호작용 알고리즘 개발’ 및 AGI 사업 ‘체화형 AGI를 위한 현실 세계 구축과 인지 에이전트 기반 이원 역량 접근법’ 과제의 지원을 받아 수행되었다.
휴대폰 사진 단 몇 장으로 구현한 생생한 3D 가상 환경 속으로
기존의 3D 시뮬레이션은 실제 공간을 라이다(LiDAR)나 3D 스캐너로 정밀하게 측정하고, 수천 장의 사진을 카메라 위치 정보와 함께 보정해야 하는 번거로운 과정을 거쳐야 했다. 우리 대학 연구진은 이러한 한계를 극복하고 단 2~3장의 일반 사진만으로도 실험실이나 도심을 고정밀 3D 공간으로 복원해 시뮬레이션 환경을 구축할 수 있는 기술을 선보였다. 이로써 ‘현실을 찍으면 곧바로 가상 환경이 되는’새로운 패러다임을 제시했다.
우리 대학은 전산학부 윤성의 교수 연구팀이 정밀한 카메라 위치 정보 없이도 일반 영상만으로 고품질의 3차원 장면을 복원할 수 있는 새로운 기술 ‘SHARE(Shape-Ray Estimation)’를 개발했다고 6일 밝혔다.
기존의 3D 복원 기술은 소수의 영상으로 3차원 장면을 재현하기 위해 촬영 당시의 정밀한 카메라 위치와 방향 정보가 필수적으로 요구되어, 고가의 특수 장비나 복잡한 보정 과정이 필요하다는 한계가 있었다. 이러한 제약 때문에 실제 환경에서의 적용이 어렵고, 대중적 활용에도 제동이 걸려왔다.
연구팀은 이러한 문제를 해결하기 위해, 단 2~3장의 일반 사진만으로도 3차원 장면과 카메라의 방향을 동시에 추정해 정확한 3D 모델을 구축하는 기술을 개발했다. 별도의 추가 학습이나 정밀한 보정 과정 없이도 실제 환경에서 신속하고 정밀한 복원이 가능해 효율성과 범용성이 매우 높은 기술로 평가받고 있다.
핵심 기술인 SHARE는 영상 속에서 사물의 형태(Shape)와 카메라의 시선 방향(Ray)을 동시에 추정하는 새로운 방식을 도입했다.
기존 방식이 카메라 위치를 미리 알아야 3D 구조를 계산할 수 있었다면, SHARE는 영상 자체에서 공간 정보를 스스로 찾아내어 카메라와 구조를 추론한다. 이를 통해 서로 다른 위치에서 촬영된 다중 영상을 하나의 공통된 공간으로 정렬하고, 형상 왜곡 없이 안정적인 3D 복원을 실현했다.
윤성의 교수는 “SHARE 기술은 3D 복원의 진입 장벽을 획기적으로 낮춘 기술로, 건설·미디어·게임 등 다양한 산업에서 스마트폰 카메라만으로도 고품질 콘텐츠 제작을 가능하게 할 것”이라며 “로봇과 자율주행 분야에서도 저비용 시뮬레이션 환경 구축 등 다양한 응용 가능성이 있다”고 밝혔다.
이번 연구는 나영주 박사과정, 김태연 석사과정 학생이 공동 제1저자로 참여했으며, 연구 결과는 국제 이미지 처리 학회(IEEE International Conference on Image Processing, ICIP 2025)에서 9월 17일 발표되어 ‘최고 학생논문상(Best Student Paper Award)’을 수상했다.
이 상은 올해 채택된 643편의 논문 중 단 한 편에게만 수여되는 영예(수상률 0.16%)로, KAIST 연구진의 우수한 연구역량을 다시 한 번 입증했다.
*논문명 : Pose-free 3D Gaussian Splatting via Shape-Ray Estimation, DOI https://arxiv.org/abs/2505.22978
*수상정보: https://www.linkedin.com/posts/ieeeicip_congratulations-to-the-icip-2025-best-activity-7374146976449335297-6hXz
이번 성과는 과학기술정보통신부 SW스타랩 사업 ‘오픈 월드 로봇 서비스를 위한 불특정 환경 인지·행동·상호작용 알고리즘 개발’ 과제지원으로 수행되었다.
리던던트 로봇 매니퓰레이터를 사용한 최적화 기반의 경로 추종 문제에 대한 학습 기반 초기화 기술 개발
자율 로봇이 일상적인 작업을 수행하기 위해 6차원 카르테시안 경로 추종은 중요한 능력이지만, 리던던트 로봇 매니퓰레이터(Redundant Robot Manipulator)의 사용에는 다양한 제약 조건과 무한한 역기구학 솔루션으로 인해 연속적인 제어는 어렵다.
이에 장기적 의존성을 고려하는 경로 계획 기술이 필요하지만 경로의 길이와 환경의 복잡성이 증가하면 생성 시간이 오래 걸리게 되고, 국소 최적 경로 도출의 가능성이 커지게 된다. 이는 용접, 수술 로봇 등과 같이 정확도와 실시간성을 모두 요구하는 분야에서 리던던트 매니퓰레이터의 사용에 병목이 되고 있기에, 우리 대학 전산학부 윤성의 교수 연구팀은 다양한 문제에 적용성을 높이는 학습 기반과 최적성을 보장하는 최적화 기반 방식의 결합을 통해 각각의 방식이 갖는 이점을 유지하고 단점을 상호 보완하는 구조를 개발했다. 이러한 모델은 리던던트 매니퓰레이션의 경로 추종 문제에 적용되어 추종에 걸리는 시간, 정확도 등 다양한 평가 지표에 성능 향상을 보였다.
연구팀은 고차원의 탐색 공간에서 효율적인 강화 학습을 위해 최적화 기반의 방식으로부터 파생된 국소 최적의 사전 지식 정보를 활용하는 구조를 도입했다. 국소 최적 지식을 모방함으로써 성능 하락 문제를 해결하기 위해 리던던트 매니퓰레이터의 구조적 특성을 고려한 영공간 투영 (Null-space projection) 기법을 제안했다.
연구팀은 제안한 방식으로부터 생성된 초기 궤적과 최적화 기법에 대표적으로 사용되는 초기화 방식들을 다양한 평가 지표를 통해 비교하고, 제약조건 매니폴드 상에서 움직임을 확인하여 초기 궤적의 성능을 검증했다. 또한 본 방식의 사용을 통해 최적화 기법에 향상된 최적성, 효율성, 다양한 문제에 적용성을 보인다.
연구팀은 연구를 통해 리던던트 매니퓰레이터를 활용한 경로 추종 문제에 있어 강화 학습 프레임워크를 제안하고, 충돌 위험을 낮추기 위한 여분 자유도 제어 기법을 제시했으며 학습 기반과 최적화 기반 방식의 결합이 속도와 최적성을 모두 요구하는 문제에 중요한 전략이 될 수 있음을 보여주었다.
이는 협동 로봇, 수술 로봇 등 고자유도의 매니퓰레이터 모션을 요구하는 상황에 적용 가능하고, 이를 통해 다양한 도메인에서 고차원 매니퓰레이터의 사용성을 높여줄 것으로 기대한다.
해당 연구는 지난 2023년 5월 29일 ~ 6월 2일 영국 런던에서 진행된 로보틱스 분야 최대 국제 학회인 IEEE International Conference on Robotics and Automation (ICRA) 2023에서 Outstanding Planning Paper Award를 수상했다.
ICRA 2023 Award는 1,341편의 논문 중 15편에 수여되었으며, Planning 분야에서는 1편이 선정됐다.