
< (왼쪽부터) KAIST 전산학부 안성진 교수, KAIST 전산학부 김영빈 석사과정, 럿거스 대학교 가텀 싱 박사과정, KAIST 전산학부 박준영 석사과정, 딥마인드 책임 연구원 찰라 걸셔(현 EPFL 교수) >
‘노란 포도'나 `보라색 바나나'와 같이 본 적 없는 시각 개념을 이해하고 상상하는 인공지능 능력 구현이 가능해졌다.
우리 대학 전산학부 안성진 교수 연구팀이 구글 딥마인드 및 미국 럿거스 대학교와의 국제 공동 연구를 통해 시각적 지식을 체계적으로 조합해 새로운 개념을 이해하는 인공지능 새로운 모델과 프로그램을 수행하는 벤치마크를 개발했다고 30일 밝혔다.
인간은 `보라색 포도'와 `노란 바나나' 같은 개념을 학습하고, 이를 분리한 뒤 재조합해 `노란 포도'나 `보라색 바나나'와 같이 본 적 없는 개념을 상상하는 능력이 있다. 이런 능력은 체계적 일반화 혹은 조합적 일반화라고 불리며, 범용 인공지능을 구현하는 데 있어 핵심적인 요소로 여겨진다.
체계적 일반화 문제는 1988년 미국의 저명한 인지과학자 제리 포더(Jerry Fodor)와 제논 필리쉰(Zenon Pylyshyn)이 인공신경망이 이 문제를 해결할 수 없다고 주장한 이후, 35년 동안 인공지능 딥러닝 분야에서 큰 도전 과제로 남아 있다. 이 문제는 언어뿐만 아니라 시각 정보에서도 발생하지만, 지금까지는 주로 언어의 체계적 일반화에만 초점이 맞춰져 있었고, 시각 정보에 관한 연구는 상대적으로 부족했다.

< 그림 1. 안성진 교수 연구팀은 장면을 구성하는 물체들을 몇 가지 특성으로 분해한 뒤, 해당 특성을 정해진 규칙 아래에서 재조합하여 새로운 이미지를 생성하는 방식을 이용하였다. >
안성진 교수가 이끄는 국제 공동 연구팀은 이러한 공백을 메우고자 시각 정보에 대한 체계적 일반화를 연구할 수 있는 벤치마크를 개발했다. 시각 정보는 언어와는 달리 명확한 `단어'나 `토큰'의 구조가 없어, 이 구조를 학습하고 체계적 일반화를 달성하는 것이 큰 도전이다.
연구를 주도한 안성진 교수는 “시각 정보의 체계적 일반화가 범용 인공지능을 달성하기 위해 필수적인 능력이며 이 연구를 통해 인공지능의 추론능력과 상상능력 관련 분야의 발전을 가속할 것으로 기대한다”고 말했다.
또한, 딥마인드의 책임 연구원으로 연구에 참여한 연구원이자 현재 스위스 로잔연방공과대학교(EPFL)의 찰라 걸셔(Caglar Gulcehre) 교수는 “체계적 일반화가 가능해지면 현재보다 훨씬 적은 데이터로 더 높은 성능을 낼 수 있게 될 것이다”라고 전했다.
이번 연구는 12월 10일부터 16일까지 미국 뉴올리언스에서 열리는 제37회 신경정보처리학회(NeurIPS)에서 발표될 예정이다.
관련논문: “Imagine the Unseen World: A Benchmark for Systematic Generalization in Visual World Models”, Yeongbin Kim, Gautam Singh, Junyeong Park, Caglar Gulcehre, Sungjin Ahn, NeurIPS 23
우리 대학은 11월 14일, 컴퓨터 과학 분야 세계적 권위의 학술대회인 ‘정보 및 지식관리 학회(The 34th International Conference on Information and Knowledge Management, CIKM 2025)’에서‘인간 중심 AI: 설명가능성과 신뢰성에서 실행 가능한 윤리까지(Human-Centric AI: From Explainability and Trustworthiness to Actionable Ethics)’를 주제로 국제 워크숍(워크샵 조직위원장: KAIST 김재철AI대학원 최재식 교수)을 개최할 예정이다. 이번 행사는 KAIST 김재철AI대학원이 주도하고 서울대, 서강대, 성균관대, 한국전자통신연구원(ETRI), 독일 TU Berlin 등 국내외 유수 기관이 공동으로 참여하는 자리다. AI 기술의 잠재적 위험을 줄이고 책임 있는 활용을 위한 ‘인간 중심 AI&rsquo
2025-11-07이제는 단순히 대화만 하는 음성비서를 넘어, AI가 직접 화면을 보고 판단해 택시를 호출하고 SRT 티켓을 예매하는 시대가 열렸다. 우리 대학은 전산학부 신인식 교수(㈜플루이즈 대표)가 이끄는 AutoPhone 팀(플루이즈·KAIST·고려대·성균관대)이 과학기술정보통신부가 주최한 ‘2025 인공지능 챔피언(AI Champion) 경진대회’에서 초대 AI 챔피언(1위)에 선정됐다고 6일 밝혔다. 이번 대회는 AI 기술의 혁신성, 사회적 파급력, 사업화 가능성을 종합 평가하는 국내 최대 규모의 AI 기술 경진대회로, 전국 630개 팀이 참가한 가운데 AutoPhone 팀이 최고 영예를 차지하며 연구개발비 30억 원을 지원받는다. AutoPhone 팀이 개발한 ‘FluidGPT’는 사용자의 음성 명령을 이해해 스마트폰이 스스로 앱을 실행하고 클릭·입력·결제까지 완료하는 완전
2025-11-06세계 최대 전기·전자 기술 학회인 IEEE(Institute of Electrical and Electronics Engineers)의 캐슬린 크레이머(Kathleen A. Kramer) 회장이 30일 우리 대학을 방문해 ‘인공지능의 미래를 함께 그리다’라는 주제로 특별 강연을 진행했다. 전기및전자공학부(학부장 유승협)의 초청으로 콜로퀴엄 연단에 선 크레이머 회장은 IEEE의 핵심 비전인 ‘인류를 위한 기술 발전(Advancing Technology for Humanity)’을 바탕으로 “인공지능(AI)은 더 이상 먼 미래의 개념이 아니라, 혁신의 중심에서 인류의 삶을 변화시키는 기술이 되었다”라고 강조했다. 이어 “기술은 인간의 가치를 중심으로 발전해야 하며, 윤리와 포용성을 기반으로 한 인공지능이 진정한 혁신을 이끌 수 있다”라고 덧붙이며, 인공지능의 발전 방향과 기술
2025-11-03우리 대학은 도시인공지능연구소(소장 건설및 환경공학과 윤윤진 지정석좌교수)가 미국 MIT 센서블 시티 랩(Senseable City Lab, 소장 Carlo Ratti 교수)과 함께 ‘도시와 인공지능(Urban AI)’분야의 공동연구를 진행하고, 그 성과를 서울 코엑스에서 열린 9월 말 ‘스마트라이프위크 2025(Smart Life Week 2025)’ 전시를 통해 공개했다고 10월 29일 밝혔다. KAIST와 MIT는 도시의 주요 문제를 인공지능으로 해석하는‘Urban AI 공동연구 프로그램’을 추진해 왔으며, 이번 전시에서는 ▲도시 기후 변화 ▲녹지 환경 ▲데이터 포용성 등 세 가지 주제를 중심으로 연구 성과를 시민이 직접 체험할 수 있는 형태로 선보였다. 양 기관은 이번 협력을 통해 AI 기술이 도시의 문제를 계산하는 도구를 넘어, 사회적 이해와 공감을 이끄는 새로운 지능으로 확장될 수 있음을 보여주며 ▲도
2025-10-29보통 그림과 글자가 함께 있을 때 사람의 시선이 그림에 먼저 가는 것처럼, 여러 감각을 동시에 활용하는 ‘멀티모달 인공지능’도 특정 데이터에 더 크게 의존하는 경향이 있다. 우리 대학 연구진은 이러한 상황에서도 그림과 글자를 모두 고르게 인식하여 훨씬 더 정확한 예측을 가능케 하는 멀티모달 인공지능 학습 기술을 개발했다. 우리 대학은 전기및전자공학부 황의종 교수 연구팀이 다양한 데이터 유형을 한 번에 처리해야 하는 멀티모달 인공지능이 모든 데이터를 고르게 활용할 수 있도록 돕는 새로운 학습 데이터 증강 기술을 개발했다고 14일 밝혔다. 멀티모달 인공지능은 텍스트, 영상 등 여러 데이터를 동시에 활용해 판단하고 있다. 하지만 인공지능은 여러 정보를 받아들일 때, 한쪽 데이터에 치우쳐 판단하는 경향을 보여 예측 성능이 떨어지는 문제가 있었다. 연구팀은 이 문제를 해결하기 위해, 일부러 서로 어울리지 않는 데이터를 섞어서 학습에 사용했다. 그러면 인공지능은
2025-10-14