차세대 새로운 패러다임 동영상 인식기술 개발
챗GPT와 같은 거대 언어 모델의 근간이 되는 트랜스포머로 구축된 기존 비디오 모델보다 8배 낮은 연산량과 4배 낮은 메모리 사용량으로도 높은 정확도를 기록했으며, 추론 속도 또한 기존 트랜스포머 기반 모델 대비 4배의 매우 빠른 속도를 달성한 동영상 인식기술이 우리 연구진에 의해 개발됐다.
우리 대학 전기및전자공학부 김창익 교수 연구팀이 초고효율 동영상 인식 모델 ‘비디오맘바(VideoMamba)’를 개발했다고 23일 밝혔다.
비디오맘바는 기존 트랜스포머 기반 모델들이 가지고 있는 높은 계산 복잡성을 해결하기 위해 설계된 새로운 동영상 인식 모델이다. 기존의 트랜스포머 기반 모델들은 셀프-어텐션(self-attention)이라는 메커니즘에 의존해 계산 복잡도가 제곱으로 증가하는 문제를 가지고 있었다.
김창익 교수 연구팀의 비디오맘바는 선택적 상태 공간 모델(Selective State Space Model, Selective SSM)* 메커니즘을 활용해 선형 복잡도**로 효율적인 처리가 가능하다. 이를 통해 비디오맘바는 동영상의 시공간적 정보를 효과적으로 포착해 긴 종속성을 가진 동영상 데이터도 효율적으로 처리할 수 있다.
*선택적 상태 공간 모델(Selective SSM): 입력에 따라 동적으로 매개변수를 조정하여 시퀀스 데이터의 문맥을 더 잘 이해하는 상태 공간 모델
**선형 복잡도:입력 데이터의 크기에 비례하여 계산량이 증가하는 알고리즘 복잡도
김창익 교수 연구팀은 동영상 인식 모델의 효율성을 극대화하기 위해 비디오맘바에 1차원 데이터 처리에 국한된 기존 선택적 상태 공간 메커니즘을 3차원 시공간 데이터 분석이 가능하도록 고도화한 시공간적 전방 및 후방 선택적 상태 공간 모델(spatio-temporal forward and backward SSM)을 도입했다. 이 모델은 순서가 없는 공간 정보와 순차적인 시간 정보를 효과적으로 통합해 인식 성능을 향상한다. 연구팀은 다양한 동영상 인식 벤치마크에서 비디오맘바의 성능을 검증했다.
연구팀이 개발한 비디오맘바는 영상 분석이 필요한 다양한 응용 분야에서 효율적이고 실용적인 솔루션을 제공할 수 있다. 예를 들어, 자율주행에서는 주행 영상을 분석해 도로 상황을 정확하게 파악하고, 보행자와 장애물을 실시간으로 인식해 사고를 예방할 수 있다. 의료 분야에서는 수술 영상을 분석해 환자의 상태를 실시간으로 모니터링하고 긴급 상황 발생 시 신속히 대처할 수 있다. 스포츠 분야에서는 경기 중 선수들의 움직임과 전술을 분석해 전략을 개선하고, 훈련 중 피로도나 부상 가능성을 실시간으로 감지해 예방할 수 있다.
연구를 주도한 김창익 교수는 “비디오맘바의 빠른 처리 속도와 낮은 메모리 사용량, 그리고 뛰어난 성능은 우리 생활에서의 다양한 동영상 활용 분야에 큰 장점을 제공할 것이다”고 연구의 의의를 설명했다.
이번 연구에는 전기및전자공학부 박진영 석박사통합과정, 김희선 박사과정, 고강욱 박사과정이 공동 제1 저자, 김민범 박사과정이 공동 저자, 그리고 전기및전자공학부 김창익 교수가 교신 저자로 참여했다. 연구 결과는 올해 9월 이탈리아 밀라노에서 열리는 컴퓨터 비전 분야 최우수 국제 학회 중 하나인 ‘European Conference on Computer Vision(ECCV) 2024’에서 발표될 예정이다. (논문명: VideoMamba: Spatio-Temporal Selective State Space Model)
한편, 이번 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2020-0-00153, 기계학습 모델 보안 역기능 취약점 자동 탐지 및 방어 기술 개발)
인공지능으로 배터리 원소, 충방전 상태 인식
국제공동연구진이 인공지능 학습을 통해 배터리의 표면 형상만 보고 각 원소의 함량 그리고 충·방전 횟수에 대한 정보를 높은 정확도로 알아내는 영상인식 기술을 개발하여 화제다.
우리 대학 신소재공학과 홍승범 교수가 한국전자통신연구원(ETRI), 미국 드렉셀대학과 공동연구를 통해 다양한 조성과 각기 다른 충·방전 사이클의 NCM 양극재 주사전자현미경 사진을 합성곱 신경망* 기반 인공지능에 학습시켜 주요 원소 함량과 충·방전 상태를 99.6%의 높은 정확도로 맞추는 방법론을 세계 최초로 개발했다고 2일 밝혔다.
*합성곱 신경망(콘볼루션 신경망, Convolutional Neural Network, CNN): 시각적 영상을 분석하는 데 사용되는 다층의 피드-포워드적인 인공신경망의 한 종류이다.
연구팀은 반도체 공정에서는 웨이퍼의 불량 검수를 위해 주사전자현미경(SEM)을 사용하는 반면 배터리 공정에서는 그런 경우가 드물고 연구 현장에서만 입자의 크기 분석을 위해 SEM을 활용하고, 열화된 배터리 소재의 경우 입자가 깨지고 부서지는 형상으로부터 신뢰성을 예측하는 것에 착안했다. 연구팀은 반도체 공정에서와 같이 배터리 공정도 자동화된 SEM으로 양극재 표면을 검수해서 원하는 조성대로 합성이 되었는지 수명은 신뢰성 있게 나올 것인지를 확인해 불량률을 줄일 수 있다면 획기적일 것으로 판단했다.
연구진은 자율주행차에 적용가능한 합성곱 신경망 기반 인공지능에 배터리 소재의 표면 영상을 학습시켜서 양극재의 주 원소 함량과 충·방전 사이클 상태를 예측할 수 있게 했다. 이런 방법론이 첨가제가 들어간 양극재에도 적용가능한 지 확인한 결과 함량은 상당히 정확하게 예측하는 반면 충·방전 상태는 정확도가 낮다는 단점을 알게 됐다. 이에 연구팀은 향후 다양한 공정을 통해서 만든 배터리 소재의 형상을 학습시켜 차세대 배터리의 조성 균일성 검수 및 수명 예측에 활용할 계획이다.
연구를 이끈 홍승범 교수는 “이번 연구는 세계 최초로 마이크론 스케일의 주사전자현미경 사진의 소재 구조 데이터를 통해 주 원소 함량과 충·방전 상태를 빠르고 정확하게 예측할 수 있는 인공지능 기반 방법론을 개발한 데 의의가 있고 이번 연구에서 개발된 현미경 영상 기반 배터리 소재의 함량 및 상태 감별 방법론은 향후 배터리 소재의 성능과 품질을 향상하는 데 중요한 역할을 하게 될 것으로 기대된다”고 전망했다.
한편, 이번 연구는 공동 제1 저자인 신소재공학과 졸업생 오지민 박사와 염지원 박사와 공동저자인 ETRI 김광만 박사와 미국 드렉셀 대학교 아가르(Agar) 교수가 참여하였고, 한국연구재단(2020M3H4A3081880, RS-2023-00247245), KAIST 글로벌특이점 사업의 지원 및 미국 연구진과의 국제공동연구를 통해 수행됐으며, 국제 학술지 ‘엔피제이 컴퓨테이셔날 머티리얼즈(npj computational materials)’에 지난 5월 4일 자 출판됐다. (논문 제목: Composition and state prediction of lithium-ion cathode via convolutional neural network trained on scanning electron microscopy images)
서민준 교수 연구팀, VALUE Challenge 2021 영상검색 트랙 부문 우승
우리 대학 김재철AI대학원 서민준 교수 연구팀(오한석 석사과정)이 마이크로소프트가 주최한 AI 영상 인식 대회(VALUE Challenge 2021, 이하 밸류 챌린지) 영상 검색 트랙(Video Retrieval Track)에서 텐센트, 카카오, 컬럼비아 대학 등 우수한 팀들을 제치고 우승했다. 이 대회에는 영상 AI 분야 스타트업 트웰브랩스(대표 이재성) 이승준 CTO와 함께 참여했다.
이번 밸류 챌린지는 컴퓨터 비전 분야 권위의 학회인 ICCV(International Conference on Computer Vision)의 행사 중 일환으로 진행된 대회로 영상에 대한 인공지능의 이해능력을 평가하는 세계 최초의 비교·평가 대회로, 올해 6월부터 9월까지 진행되었다. 밸류 챌린지에서는 3개의 트랙으로 나뉘어 진행됐다. 이 중 영상 검색 트랙에서는 7만4천 개의 특정 분야에 치우치지 않은 다양한 동영상에 담긴 시각 및 음성 정보를 분석하여, 주어진 문장에 해당되는 영상 내 구간을 정확하게 빨리 찾는 것이 평가 기준이었다.
서민준 교수 연구팀과 트웰브랩스는 시각 정보에 특화된 기존의 영상검색 기술에서 진일보하여 음성과 시간의 흐름 등의 다양한 정보까지 종합적으로 인식할 수 있도록 AI 모델을 학습하여 인식률을 극대화하였다. 또한 다양한 유형의 콘텐츠를 이해할 수 있는 하나의 AI 모델을 독자적으로 개발하여 기술의 범용성을 입증하였다. 특히 마이크로소프트가 기록한 역대 최고 정확도를 앞질렀을 뿐만 아니라, 세계적인 기술 기업인 텐센트 및 카카오브레인과 미국 컬럼비아 대학 연구팀 등을 제치고 전 세계 1위를 차지했다.
위 상을 수상한 서민준 교수는 “자연어 처리 및 문서검색 분야에서 활용되는 최신 기술을 비디오 검색에 응용하고, 클라우드 컴퓨팅을 통한 대규모 실험으로 정확성과 속도를 극대로 끌어 올릴 수 있었다”며, “미디어의 홍수 속에서 유저가 원하는 비디오를 정확하게 찾아주는 제품을 만드는데 기여하길 바란다”고 밝혔다.
지능형 로봇들의 전투가 시작된다!
올해로 9회를 맞이하는 세계 유일의 ‘지능형 SoC 로봇워 2010’ 대회의 참가접수가 시작됐다. 접수기간은 4월 1일부터 5월 31일까지며 본선대회는 오는 10월에 열릴 예정이다.
이 대회는 대학(원)생을 포함한 2인 이상 6인 이하로 구성된 팀이면 누구나 참가가 가능하다. 대회 종목은 ‘SoC 태권로봇’과 ‘HURO-Competition’ 두 부문으로 나눠 진행되며 로봇의 두뇌에 해당하는 지능로봇 플랫폼의 구현능력에 따라 승패가 결정된다.
SoC 태권로봇은 머리에 장착된 카메라를 이용, 영상인식을 통해 상대로봇의 위치, 거리, 행동 등을 스스로 찾아내며 치러지는 2족 로봇간의 태권도 경기다.
HURO(Humanoid Robot)-Competition은 2010년 새롭게 진행될 경기로, 미션수행과 로봇간의 격투를 통해 순위를 결정한다. 장애물이 설치된 트랙을 빠른 시간 내에 통과하는 경기로 장애물의 색깔, 모양 등을 인식하여 피하거나, 무너뜨리는 미션을 수행하며 추가 점수를 획득하게 된다. 격투는 태권도 경기로 진행된다.
미래 성장 동력 사업으로 지정되어 세계 로봇 3대 강국에 진입하기 위해 육성하고 있는 지능형 로봇은 기계 및 소재, 관련부품, 임베디드 소프트웨어 등 다양한 공학기술이 집약된 분야다. 또한 로봇의 뇌이자 핵심 부품인 SoC는 우리나라가 IT 강국으로 나아가기 위해 없어서는 안 될 반도체 기술이다.
지능형 SoC로봇은 외부의 지속적 명령 없이 하나의 목적이 주어지면 스스로 판단하여 수행하는 로봇을 말한다. 이를 구현하기 위해서는 SoC기술이 필요하다. SoC(System on Chip)란 하나의 칩에 다양한 기능들을 탑재하여 여러 기능을 수행할 수 있는 반도체 기술이다. KAIST는 SoC 기술을 로봇과 접목하여, 국내 SoC 및 지능형 로봇 분야의 기술개발 및 인력양성을 목적으로 이 대회를 개최하고 있다.
이 대회의 기술적 지원을 위해 학생자문단도 운영하고 있다. 대회에 관한 보다 자세한 내용은 홈페이지(www.socrobotwar.org)를 통해 확인 가능하다.