본문 바로가기
대메뉴 바로가기
KAIST
뉴스
유틸열기
홈페이지 통합검색
-
검색
ENGLISH
메뉴 열기
%EC%8A%A4%ED%94%BC%EC%B9%98
최신순
조회순
24시간 말하는 AI비서 가능성 여는 '스피치SSM' 개발
최근 음성 언어 모델(Spoken Language Model, SLM)은 텍스트 없이 인간의 음성을 학습해 음성의 언어적, 비언어적 정보를 이해 및 생성하는 기술로 텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 각광받고 있다. 하지만 기존 모델은 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서 한계가 두드러졌는데, 우리 연구진이 이런 한계를 뛰어넘어, 시간 제약 없이 일관되고 자연스러운 음성 생성을 실현한 ‘스피치SSM’을 개발하는데 성공했다. 우리 대학 전기및전자공학부 노용만 교수 연구팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다고 3일 밝혔다. 이번 연구는 국제 최고 권위 머신러닝 학회인 ICML(International Conference on Machine Learning) 2025에 전체 제출된 논문 중 약 1%만이 선정되는 구두 논문 발표에 확정돼 뛰어난 연구 역량을 입증할 뿐만 아니라 우리 대학의 인공지능 연구 능력이 세계 최고 수준임을 다시 한번 보여주는 계기가 될 전망이다. 음성 언어 모델(SLM)은 중간에 텍스트로 변환하지 않고 음성을 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질의 음성을 빠르게 생성할 수 있다는 점이 큰 강점이다. 그러나 기존 모델은 음성을 아주 세밀하게 잘게 쪼개서 아주 자세한 정보까지 담는 경우, ‘음성 토큰 해상도’가 높아지고 사용하는 메모리 소비도 증가하는 문제로 인해 장시간 음성의 의미적, 화자적 일관성을 유지하기 어려웠다. 연구팀은 이러한 문제를 해결하기 위해 하이브리드 상태공간 모델(Hybrid State-Space Model)을 사용한 음성 언어 모델인‘스피치SSM’를 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 설계했다. 이 모델은 최근 정보에 집중하는 ‘어텐션 레이어(attention layer)’와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 ‘순환 레이어(recurrent layer)’를 교차 배치한 ‘하이브리드 구조’를 통해 긴 시간 동안 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다. 또한, 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간의 음성을 안정적이고 효율적으로 학습하고 생성할 수 있다. 스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스(unbounded speech sequence)를 효과적으로 처리할 수 있게 했다. 또한 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 ‘비자기회귀(Non-Autoregressive)’방식의 오디오 합성 모델(SoundStorm)을 사용해, 고품질의 음성을 빠르게 생성할 수 있게 했다. 기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 ‘LibriSpeech-Long'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다. 기존 음성 모델 평가 지표인 말이 문법적으로 맞는지 정도만 알려주는 PPL(Perplexity)에 비해, 연구팀은 시간이 지나면서도 내용이 잘 이어지는지 보는 'SC-L(semantic coherence over time)', 자연스럽게 들리는 정도를 시간 따라 보는 'N-MOS-T(naturalness mean opinion score over time)' 등 새로운 평가 지표들을 제안해 보다 효과적이고 정밀하게 평가했다. 새로운 평가를 통해 스피치SSM 음성 언어 모델로 생성된 음성은 긴 시간 생성에도 불구하고 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 모습을 확인했다. 이는 기존 모델들이 장시간 생성 시 쉽게 주제를 잃고 반복되는 현상을 보였던 것과 크게 대조적이다. 박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며 “이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”라고 밝혔다. 이 연구는 제1 저자인 우리 대학 박세진 박사과정 학생이 구글 딥마인드(Google DeepMind)와 협력해, ICML(국제 머신러닝 학회) 2025에서 7월 16일 구두 발표로 소개될 예정이다. ※ 논문제목: Long-Form Speech Generation with Spoken Language Models ※ DOI: 10.48550/arXiv.2412.18603 한편, 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR(컴퓨터 비전 분야 최고 학회) 2024 하이라이트 논문 발표, 2024년 ACL(자연어 처리 분야 최고 학회)에서 우수논문상(Outstanding Paper Award) 수상 등을 통해 우수한 연구 역량을 입증한 바 있다. [데모 페이지 링크] https://google.github.io/tacotron/publications/speechssm/
2025.07.03
조회수 1118
괴짜 아이디어를 현실로‧‧‧아이디어 경연대회 개최
- 23일 대학생 아이디어 스피치 경연대회 ‘GoGeeks 2013’ 개최 전국의 대학생들이 제안한 참신하고도 기발한 아이디어에 총상금 1000만원을 투자해 현실로 만들어 주는 프로젝트가 KAIST 학생들이 중심이 된‘고긱스 크리에이션 그룹(GoGeeks Creation Group)’에 의해 진행된다. 고긱스 크리에이션 그룹(대표 이범규 ‧ 산업 및 시스템공학과 08학번)이 오는 23일 한국마이크로소프트 광화문 신사옥에서 대학생 ‘아이디어 스피치 경연대회(One day Idea Hackathon, GoGeeks 2013)’를 개최한다. ‘고긱스(GoGeeks)’경연대회는 미국 듀크 대학의 비즈니스 아이디어 스피치 경연대회인‘Elevator Pitch Competition’을 벤치마킹한 대회로 KAIST 재학생들에 의해 지난해 처음 열렸다. 고긱스 크리에이션 그룹은 오는 20일까지 대회 공식 홈페이지(www.gogeeks.co.kr)를 통해 참가팀 접수를 받고 30여개 팀을 선착순으로 선발한 후, 행사 당일 아이디어 스피치 경연대회를 개최한다. 선발된 30개 팀은 당일 6시간 동안‘당신의 사회에 색깔을 입혀주세요(Color Your Society)’를 주제로 새로운 아이디어를 기획하고 1분씩 발표를 진행한다. 1단계에서 선발된 10개 팀은 다시 5분씩 발표를 진행하고 그 중 5개 팀을 선발해 각각 200만원의 상금이 주어진다.최종 선발팀은 KAIST 기업가정신연구센터와 한국마이크로소프트 소속 멘토들의 도움을 받아 겨울방학 동안 제안한 프로젝트를 수행한다. 이번 행사를 주관한 이범규 고긱스 크리에이션 그룹 대표는 “틀에 박힌 대학 생활 속에서 긍정적 일탈을 꿈꾸는 사람들이 바로 긱스(Geeks)”라며 “이번 대회는 대학생들이 생각만 하고 미처 실현해 보지 못한 ‘나만의 이야기’를 현실로 만들어 보는 소중한 기회가 될 것”이라고 말했다. 이번 프로젝트는 한국마이크로소프트와 KAIST 기업가정신연구센터가 후원했으며 후원금 모금은 온라인 소셜 펀딩 사이트인 텀블벅(http://tumblbug.com/gogeeks2013)을 통해 진행된다. 한편, 지난대회 우승팀에는 ▲ 현수막에 예술을 담은 현수막 갤러리(곽도연 팀 ․ KAIST) ▲헬륨 풍선을 이용해 초 고도에서 로켓 발사(최석민 팀 ․ KAIST) ▲ 뮤지컬‘트로이’의 음원 제작 및 공연(김시영 ‧ 이웅기 ‧ 최원영 팀 ․ KAIST) ▲평범한 대학생의 평범한 토크 콘서트(홍태지 팀 ․ 연세대학교)가 선정됐다. [보충취재 문의 김소연 학생 010-2442-7494] 고긱스 공식 홈페이지: http://gogeeks.co.kr/ 고긱스 후원 사이트: http://tumblbug.com/gogeeks2013 페이스북 페이지: http://www.facebook.com/gogeekskorea/
2013.11.14
조회수 18473
괴짜 아이디어를 현실로
- KAIST 학생들, 아이디어 스피치 경연대회‘GOGEEKS 2012’개최 - -괴짜 아이디어에 총상금 500만원 투자 - “가난한 예술가들의 작품을 버스에 꾸며 실고 다니며 이동 전시회를 열겠습니다.” 전국 각 대학생들이 짜낸 각종 참신하고도 기발한 아이디어에 총상금 500만원을 투자해서 현실로 만들어 주는 프로젝트가 우리대학 학생들에 의해 진행된다. KAIST 학부 재학생 경영전략 동아리 MSK는 학생들이 제안한 깜짝 아이디어나 괴짜 아이디어를 청중투자단 평가를 거쳐 현실로 만들어 주는 프로젝트인 ‘GOGEEKS 2012(아이디어 스피치 경연대회)’를 개최한다. 고긱스(GOGEEKS)는 기업으로부터 후원받은 500만원을 학생들의 기발한 아이디어에 투자해 현실로 만들어 주는 프로젝트인데, 미국 듀크 대학의 혁신적 비즈니스 아이디어 경연대회인 ‘Elevator Pitch Competition’을 벤치마킹해서 올해 처음으로 시행된다. 학생들은 기발한 아이디어를 가지고 있지만 경제적인 문제와 시간이 없다는 이유로 이를 실현하지 못하는 사례를 보고 대학생활에서 ‘자기만의 스토리’를 실현 할 수 있도록 돕기 위해 이 프로젝트를 마련했는데 1단계 서류심사와 2단계 온라인 투표를 거쳐 상위 6개 팀을 선발한 후 결선에서 아이디어 발표를 통해 투자금을 모집하는 순으로 진행된다. 이 프로젝트를 주관, 진행하는 학생동아리 MSK는 앞서 2일까지 홈페이지(http://gogeeks.co.kr)를 통해 접수한 결과 전국에서 총 30팀이 지원했는데 1단계 서류심사에서 프로젝트의 실행가능성과 참신성을 기준으로 예선에 올라갈 15팀을 선발할 예정이다. 서류심사를 통과한 15팀은 아이디어를 소개 할 동영상을 홈페이지에 올려야 하며, 오는 9일부터 16일까지 페이스북에서 선호도(LIKE)를 받는데 최종 결선에는 상위 6개 팀만이 진출한다. 결선에 오른 6개 팀은 21일 KAIST 터만홀에서 청중투자단 100명을 대상으로 아이디어 설명회와 함께 5명의 전문가들로부터 아이디어에 대한 질의 응답시간을 갖는다. 최종 발표가 끝나면 청중투자단은 입장할 때 지급받은 5만원과 개인투자금금을 합해 참신한 아이디어를 가진 지원자에게 투자하게 된다. 목표금액을 달성한 지원자는 MSK동아리와 티켓몬스터 임원진 등 각계 전문가들의 도움을 받아 겨울방학 동안 제안한 프로젝트를 수행한다. 이번 프로젝트 기획자인 KAIST 이범규 학생(산업및시스템 공학과 08학번)은 “문득 떠오른 기발한 아이디어가 하나하나 실현된다면 대학생활이 더 행복해 질것“이라며 ”이번 프로젝트가 대학생활에서 나만의 이야기를 만들 수 있는 기회를 주고 사회적으로 참신한 아이디어를 발굴해 내는 기회의 장이 됐으면 한다“라고 말했다. [보충 취재문의] 이범규 학생 010-7127-4503 한편 결선 당일 청중투자단 참가를 원하는 학생은 이메일로 (Gogeeks.Info@gmail.com)로 신청하면 되고 선착순으로 100명을 모집한다. 이번 프로젝트는 (주)휴맥스와 의류회사인 K2가 후원했으며 티켓몬스터 김동현 이사, 성광제 KAIST 기술경영전문대학원 교수가 입상자들의 멘토로 참여한다. 행사 홈페이지 : http://gogeeks.co.kr 행사 페이스북 : http://Facebook.com/gogeekskaist
2012.11.05
조회수 11320
<<
첫번째페이지
<
이전 페이지
1
>
다음 페이지
>>
마지막 페이지 1