-
영상 속 1등이 어디죠? ‘딱 그 순간’을 찾아내는 AI 기술 세계 1위
‘카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇 인가요?’라는 복잡한 질문이 나오면 AI는 많은 경우 영상 속 실제 상황을 보고 판단하는 것이 아니라, 언어 패턴에 의존해 ‘그럴듯한 답’을 추측하는 문제가 있다. 우리 대학 연구진은 이 한계를 해결하기 위해 영상 속 ‘딱 중요한 순간(Trigger moment)’을 AI가 스스로 찾아내도록 하는 기술을 개발했고, 이 기술로 국제 AI 대회에서 우수성을 입증했다.
우리 대학은 전산학부 윤성의 교수 연구팀이 이화여대 노준혁 교수 연구팀과 공동 연구를 통해, 세계적 권위의 컴퓨터 비전 학회 ICCV 2025에서 열린 Perception Test Challenge의 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다.
이번 ICCV 2025에서 열린 인지 테스트 대회(Perception Test Challenge)는 구글 딥마인드(Google DeepMind)가 주관하여 총 상금 50,000 유로(한화 약 8,300만원)가 걸린 대회로, 영상·음성·텍스트 등 다양한 데이터를 종합적으로 이해하는 멀티모달 AI의 인지 및 추론 능력을 평가한다. 특히 언어 중심 편향을 벗어나 실제 영상 근거를 바탕으로 판단하는 능력이 핵심 평가 요소다.
우리 대학 연구팀은 영상 전체를 무작정 분석하는 기존 방식과 달리, AI가 정답을 위해 꼭 필요한 핵심 장면(Trigger moment)을 먼저 찾아내도록 만드는 새로운 기술을 개발했다. 쉽게 말하면, “이 질문에 답하려면 이 장면이 결정적이야!”를 AI가 스스로 찾아내도록 설계한 기술이다.
이 프레임워크를 연구팀은 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 부른다.
연구팀의 시스템은 서로 다른 기능을 수행하는 세 모델이 순차적으로 작동하는 3단계 구조로 구성된다. 먼저 추론 AI(Gemini 2.5 Pro)가 질문에 답하기 위해 어느 순간을 봐야 하는지 사고하고 딱 그 순간(Trigger moment) 후보를 찾는다. 다음으로 객체 위치 찾기 모델(Grounding 모델, Molmo-7B)이 해당 순간 화면 속 사람·차·사물의 정확한 위치(좌표)를 파악한다. 마지막으로 추적 모델(Tracking 모델, SAM2)이 선택된 한 장면을 기준으로 앞뒤 시간대의 객체 움직임을 정밀하게 추적해 오류를 줄인다.
즉, ‘핵심 장면 한 컷을 정확히 찍고, 그 장면을 중심으로 정답 근거를 추적하는 방식’덕분에 영상 초반 오판이나 가려짐 같은 문제도 크게 줄었다.
총 23개 팀이 참여한 영상 근거 기반 질의응답(Grounded VideoQA) 트랙에서 KAIST팀 SGVR Lab(Scalable Graphics, Vision & Robotics Lab)은 ‘고차 추적 정확도(HOTA, Higher Order Tracking Accuracy)’지표에서 0.4968점을 기록하며 2등 미국 콜럼비아대의 0.4304점을 압도적인 점수 차로 상회하며 1위를 차지했다. 이는 전년도 우승 기록 0.2704점보다도 약 두 배에 가까운 성과다.
이 기술은 실생활에서도 넓게 쓰일 수 있다. 자율주행차는 사고 위험이 있는 순간을 정확히 보고, 로봇은 주변 상황을 더 똑똑하게 이해한다. 또 보안·감시 시스템은 중요한 장면을 빠르게 찾아내고, 미디어 분석에서는 사람이나 사물의 행동을 시간 순서대로 정확히 추적할 수 있다.
즉, AI가 “영상 속 실제 근거”를 보고 판단할 수 있도록 만드는 핵심 기술이다. 특히 영상 속 객체가 시간에 따라 어떻게 행동하는지 정확히 짚어내는 능력은 향후 AI의 실제 현장 적용을 크게 확장할 것으로 기대된다.
이번 연구는 ICCV 2025, the 3rd Perception Test Challenge 학회에서 10월 19일자 발표하였다.
이 성과는 과학기술정보통신부 기초연구사업 중견연구와 SW스타랩 사업 ‘오픈 월드 로봇 서비스를 위한 불특정 환경 인지·행동·상호작용 알고리즘 개발’ 및 AGI 사업 ‘체화형 AGI를 위한 현실 세계 구축과 인지 에이전트 기반 이원 역량 접근법’ 과제의 지원을 받아 수행되었다.
2025.11.28
조회수 1058
-
기계공학과 윤국진 교수 연구팀, 세계 최고 권위 컴퓨터비전 국제학술대회 ICCV 2025에 논문 12편 채택
우리 대학 기계공학과 윤국진 교수 연구팀의 논문 12편이 세계 최고 권위 컴퓨터비전 국제 학술 대회 중 하나인 IEEE/CVF International Conference on Computer Vision 2025(ICCV 2025)에 채택되어, 연구팀의 독보적인 연구 역량을 다시 한번 국제적으로 인정받았다.
ICCV는 CVPR, ECCV와 함께 컴퓨터비전 및 인공지능 분야에서 가장 영향력 있는 국제 학술대회 중 하나로, 1987년부터 격년으로 개최되어 왔다. 이번 ICCV 2025에는 총 11,152편의 논문이 제출되었고, 이 중 2,698편이 채택되어 약 24.19%의 낮은 채택률을 기록하였다. 학술대회에 제출할 수 있는 논문 편수에 대한 제한이 있음에도 불구하고 단일 연구실에서 12편의 논문이 동시 채택되는 것은 매우 드문 성과다.
윤국진 교수 연구팀은 학습 기반의 시각 지능 구현을 목표로 연구를 진행하고 있으며, 이번에 발표된 12편의 논문들은 3D 객체 탐지 및 재구성, 동작 예측 및 계획, 악천후나 모션 블러와 같은 극한 환경에서의 영상 인식 및 개선, 테스트 시점 적응 및 멀티태스크 학습, 4D 맵을 활용한 재구성과 같은 컴퓨터비전 분야의 핵심 주제들에 대한 논문들이다.
특히 연구팀은 지난해 CVPR 2024와 ECCV 2024에서도 각각 9편과 12편의 논문을 발표하여 학계의 주목을 받은 바 있는데, 이번 ICCV 2025에서의 성과를 통해 전 세계 컴퓨터 비전 분야의 선두 연구실로서 입지를 더욱 확고히 했다. 연구팀은 앞으로도 도전적인 연구를 이어가며 학문적·기술적 한계를 확장해 나갈 계획이다.
ICCV 2025는 오는 10월 19일부터 23일까지 미국 하와이 호놀룰루에서 개최될 예정이다.
2025.06.30
조회수 4859
-
서민준 교수 연구팀, VALUE Challenge 2021 영상검색 트랙 부문 우승
우리 대학 김재철AI대학원 서민준 교수 연구팀(오한석 석사과정)이 마이크로소프트가 주최한 AI 영상 인식 대회(VALUE Challenge 2021, 이하 밸류 챌린지) 영상 검색 트랙(Video Retrieval Track)에서 텐센트, 카카오, 컬럼비아 대학 등 우수한 팀들을 제치고 우승했다. 이 대회에는 영상 AI 분야 스타트업 트웰브랩스(대표 이재성) 이승준 CTO와 함께 참여했다.
이번 밸류 챌린지는 컴퓨터 비전 분야 권위의 학회인 ICCV(International Conference on Computer Vision)의 행사 중 일환으로 진행된 대회로 영상에 대한 인공지능의 이해능력을 평가하는 세계 최초의 비교·평가 대회로, 올해 6월부터 9월까지 진행되었다. 밸류 챌린지에서는 3개의 트랙으로 나뉘어 진행됐다. 이 중 영상 검색 트랙에서는 7만4천 개의 특정 분야에 치우치지 않은 다양한 동영상에 담긴 시각 및 음성 정보를 분석하여, 주어진 문장에 해당되는 영상 내 구간을 정확하게 빨리 찾는 것이 평가 기준이었다.
서민준 교수 연구팀과 트웰브랩스는 시각 정보에 특화된 기존의 영상검색 기술에서 진일보하여 음성과 시간의 흐름 등의 다양한 정보까지 종합적으로 인식할 수 있도록 AI 모델을 학습하여 인식률을 극대화하였다. 또한 다양한 유형의 콘텐츠를 이해할 수 있는 하나의 AI 모델을 독자적으로 개발하여 기술의 범용성을 입증하였다. 특히 마이크로소프트가 기록한 역대 최고 정확도를 앞질렀을 뿐만 아니라, 세계적인 기술 기업인 텐센트 및 카카오브레인과 미국 컬럼비아 대학 연구팀 등을 제치고 전 세계 1위를 차지했다.
위 상을 수상한 서민준 교수는 “자연어 처리 및 문서검색 분야에서 활용되는 최신 기술을 비디오 검색에 응용하고, 클라우드 컴퓨팅을 통한 대규모 실험으로 정확성과 속도를 극대로 끌어 올릴 수 있었다”며, “미디어의 홍수 속에서 유저가 원하는 비디오를 정확하게 찾아주는 제품을 만드는데 기여하길 바란다”고 밝혔다.
2021.10.20
조회수 11470