개인정보 공유 없이 병원·은행에서도 통하는 연합학습 AI 개발
환자 진료기록이나 금융 데이터처럼 개인정보를 한곳에 모으기 어려운 문제를 해결하기 위해 ‘연합학습(Federated Learning)’이 고안됐다. 하지만 공동으로 학습한 AI를 각 기관이 자신의 환경에 맞게 최적화하는 과정에서, AI가 특정 기관 데이터에만 과도하게 적응해 새로운 데이터에는 취약해지는 한계가 있었다. 우리 대학 연구진은 이를 해결할 방법을 제시했으며, 병원·은행 같은 보안 분야는 물론, 소셜미디어·온라인 쇼핑처럼 변화가 잦은 환경에서도 안정적인 성능을 확인했다.
우리 대학은 산업및시스템공학과 박찬영 교수 연구팀이 연합학습의 고질적인 성능 저하 문제를 해결하고, AI 모델의 일반화(Generalization) 성능을 크게 향상시키는 새로운 학습 방법을 개발했다고 15일 밝혔다.
연합학습은 여러 기관이 데이터를 직접 주고받지 않고도 공동으로 AI를 학습할 수 있는 방식이다. 그러나 이렇게 완성된 공동 AI 모델을 각 기관이 현장에 맞춰 최적화(파인 튜닝)하는 과정에서 문제가 발생한다. 기존의 폭넓은 지식이 희석되며, AI가 특정 기관의 데이터 특성에만 과도하게 적응하는‘지역 과적합(Local Overfitting)’문제가 생기기 때문이다.
예를 들어 여러 은행이 함께 ‘공동 대출 심사 AI’를 구축한 뒤, 특정 은행이 대기업 고객 데이터를 중심으로 파인튜닝을 진행하면 해당 은행의 AI는 대기업 심사에는 강점을 보이지만 개인이나 스타트업 고객 심사에서는 성능이 떨어지는 지역 과적합 문제가 생긴다.
박 교수 연구팀은 이를 해결하기 위해 ‘합성 데이터(Synthetic Data)’ 방식을 도입했다. 각 기관의 데이터에서 핵심적이고 대표적인 특징만을 추출해 개인정보를 포함하지 않는 가상 데이터를 생성하고, 이를 파인튜닝 과정에 적용한 것이다. 이로써 각 기관의 AI는 개인정보 공유없이 자신의 데이터에 맞춰 전문성을 강화하면서도, 공동학습으로 얻은 폭넓은 시야(일반화 성능)를 잃기 않게 되었다.
연구 결과, 해당 방법은 의료·금융 등 데이터 보안이 중요한 분야에서 특히 효과적일 뿐 아니라, 소셜미디어나 전자상거래처럼 새로운 사용자와 상품이 지속적으로 추가되는 환경에서도 안정적인 성능을 발휘했다. 새로운 기관이 협력에 참여하거나 데이터 특성이 급격히 변하더라도 AI가 혼란스러워하지 않고 안정적으로 성능을 유지할 수 있음을 보여줬다.
박찬영 산업및시스템공학과 교수는 “이번 연구는 데이터 프라이버시를 지키면서도, 각 기관의 AI가 전문성과 범용성을 동시에 보장하는 새로운 길을 열었다”라며, “의료 AI, 금융 사기 탐지 AI처럼 데이터 협업이 필수적이지만 보안이 중요한 분야에서 큰 도움이 될 것”이라고 말했다.
이번 연구는 데이터사이언스대학원 김성원 학생이 제1 저자, 박찬영 교수가 교신저자로 참여했으며, 지난 4월 싱가포르에서 열린 인공지능 분야 최고 권위 학술대회인 ‘국제표현학습학회(International Conference on Learning Representations, ICLR) 2025’에서 상위 1.8%의 우수 논문에만 선정되는 구두 발표(Oral Presentation) 대상으로 채택되어 그 우수성을 입증받았다.
※ 논문명: Subgraph Federated Learning for Local Generalization, https://doi.org/10.48550/arXiv.2503.03995
한편, 이번 연구는 정보통신기획평가원의 지원을 받은 ‘강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습’과제와 한국연구재단의 지원을 받은 ‘그래프 파운데이션 모델: 다양한 모달리티 및 도메인에 적용 가능한 그래프 기반 기계 학습’과제와 ‘데이터사이언스융합인재양성 사업’의 성과다.
‘당신 우울한가요?’ 스마트폰으로 진단하다
요즘 현대인들에게 많이 찾아오는 우울증을 진단하기 위한 스마트폰으로 진단하는 연구가 개발되어 화제다.
우리 대학 전기및전자공학부 이성주 교수 연구팀이 사용자의 언어 사용 패턴을 개인정보 유출 없이 스마트폰에서 자동으로 분석해 사용자의 정신건강 상태를 모니터링하는 인공지능 기술을 개발했다고 21일 밝혔다. 사용자가 스마트폰을 소지하고 일상적으로 사용하기만 해도 스마트폰이 사용자의 정신건강 상태를 분석 및 진단할 수 있는 것이다.
연구팀은 임상적으로 이뤄지는 정신질환 진단이 환자와의 상담을 통한 언어 사용 분석에서 이루어진다는 점에 착안해 연구를 진행했다. 이번 기술에서는 (1) 사용자가 직접 작성한 문자 메시지 등의 키보드 입력 내용과, (2) 스마트폰 위 마이크에서 실시간으로 수집되는 사용자의 음성 데이터를 기반으로 정신건강 진단을 수행한다.
이러한 언어 데이터는 사용자의 민감한 정보를 담고 있을 수 있어 기존에는 활용이 어려웠다. 이러한 문제의 해결을 위해 이번 기술에는 연합학습 인공지능 기술이 적용됐는데, 이는 사용자 기기 외부로의 데이터 유출 없이 인공지능 모델을 학습해 사생활 침해의 우려가 없다는 것이 특징이다.
인공지능 모델은 일상 대화 내용과 화자의 정신건강을 바탕으로 한 데이터셋을 기반으로 학습되었다. 모델은 스마트폰에서 입력으로 주어지는 대화를 실시간으로 분석하여 학습된 내용을 바탕으로 사용자의 정신건강 척도를 예측한다.
더 나아가, 연구팀은 스마트폰 위 대량으로 주어지는 사용자 언어 데이터로부터 효과적인 정신건강 진단을 수행하는 방법론을 개발했다. 연구팀은 사용자들이 언어를 사용하는 패턴이 실생활 속 다양한 상황에 따라 다르다는 것에 착안해, 스마트폰 위에서 주어지는 현재 상황에 대한 단서를 기반으로, 인공지능 모델이 상대적으로 중요한 언어 데이터에 집중하도록 설계했다. 예를 들어, 업무 시간보다는 저녁 시간에 가족 또는 친구들과 나누는 대화에 정신건강을 모니터링 할 수 있는 단서가 많다고 인공지능 모델이 판단해 중점을 두고 분석하는 식이다.
이번 논문은 전산학부 신재민 박사과정, 전기및전자공학부 윤형준 박사과정, 이승주 석사과정, 이성주 교수와 박성준 SoftlyAI 대표(KAIST 졸업생), 중국 칭화대학교 윤신 리우(Yunxin Liu) 교수, 그리고 미국 에모리(Emory) 대학교 최진호 교수의 공동연구로 이뤄졌다.
이번 논문은 올해 12월 6일부터 10일까지 싱가폴에서 열린 자연어 처리 분야 최고 권위 학회인 EMNLP(Conference on Empirical Methods in Natural Language Processing)에서 발표됐다.
※ 논문명(FedTherapist: Mental Health Monitoring with User-Generated Linguistic Expressions on Smartphones via Federated Learning)
이성주 교수는 "이번 연구는 모바일 센싱, 자연어 처리, 인공지능, 심리학 전문가들의 협력으로 이루어져서 의미가 깊으며, 정신질환으로 어려워하는 사람들이 많은데, 개인정보 유출이나 사생활 침범의 걱정 없이 스마트폰 사용만으로 정신건강 상태를 조기진단 할 수 있게 되었다ˮ라며, "이번 연구가 서비스화되어 사회에 도움이 되면 좋겠다ˮ라고 소감을 밝혔다.
이 연구는 정부(과학기술정보통신부)의 재원으로 정보통신기획평가원의 지원을 받아 수행됐다. (No. 2022-0-00495, 휴대폰 단말에서의 보이스피싱 탐지 예방 기술 개발, No. 2022-0-00064, 감정노동자의 정신건강 위험 예측 및 관리를 위한 휴먼 디지털 트윈 기술 개발)
스마트폰 위 인공지능(AI) 연합학습 속도 4.5배 획기적 향상기법 개발
우리 대학 전기및전자공학부 이성주 교수 연구팀이 국제공동연구를 통해 다수의 모바일 기기 위에서 인공지능(AI) 모델을 학습할 수 있는 연합학습 기술의 학습 속도를 4.5배 가속할 수 있는 방법론을 개발했다고 2일 밝혔다.
이성주 교수 연구팀은 지난 6/27~7/1에 열린 세계컴퓨터연합회(ACM) 주최로 진행된 제20회 모바일 시스템, 어플리케이션, 및 서비스 국제학술대회(MobiSys, International Conference on Mobile Systems, Applications, and Services)에서 연합학습(Federated Learning)의 학습 속도 향상(4.5배 가속)을 위한 데이터 샘플 최적 선택 및 데드라인 조절 방법론을 발표했다. 이 학회는 2003년에 시작됐으며 모바일 시스템, 소프트웨어, 어플리케이션, 서비스를 위한 최신 연구를 소개하는 데 초점을 맞추고 있으며, 모바일 컴퓨팅 및 시스템 분야의 최우수 학회 중 하나로 오랫동안 주목받고 있다.
이번 논문(FedBalancer: Data and Pace Control for Efficient Federated Learning on Heterogeneous Clients)은 KAIST 전산학부 신재민 박사과정이 제1 저자로 참여했으며, 중국 칭화대학과의 국제협력으로 이루어진 성과다 (칭화대학교 위안춘 리(Yuanchun Li) 교수, 윤신 리우(Yunxin Liu) 교수 참여).
최근 구글에 의해 제안된 연합학습은 새로운 기계학습 기술로, 개인정보의 유출 없이 방대한 사용자 기기 위 데이터를 활용할 수 있게 하여 의료 인공지능 기술 등 새로운 인공지능 서비스를 개발할 수 있게 해 각광받고 있다. 연합학습은 구글을 비롯해 애플, 타오바오 등 세계적 빅테크 기업들이 널리 도입하고 있으나, 실제로는 인공지능 모델 학습이 사용자의 스마트폰 위에서 이뤄져, 기기에 과부하를 일으켜 배터리 소모, 성능 저하 등이 발생할 수 있는 우려를 안고 있다.
이성주 교수 연구팀은 연합학습에 참여하는 사용자 기기 위 데이터 샘플 각각의 학습 기여도 측정을 기반으로 최적의 샘플을 선택함으로써 연합학습 속도 향상을 달성했다. 또한, 샘플 선택으로 줄어든 학습 시간에 대응해, 연합학습 라운드의 데드라인 또한 최적으로 조절하는 기법을 제안해 모델 정확도의 저하 없이 학습 속도를 무려 4.5배 높였다. 이러한 방법론의 적용을 통해 연합학습으로 인한 사용자 스마트폰 과부하 문제를 최소화할 수 있을 것으로 기대된다.
이성주 교수는 "연합학습은 많은 세계적 기업들이 사용하는 중요한 기술이다ˮ며 "이번 연구 결과는 연합학습의 학습 속도를 향상하고 활용도를 높여 의미가 있으며, 컴퓨터 비전, 자연어 처리, 모바일 센서 데이터 등 다양한 응용에서 모두 좋은 성능을 보여, 빠른 파급효과를 기대한다ˮ라고 소감을 밝혔다.
한편 이 연구는 과학기술정보통신부의 재원으로 한국연구재단과 정보통신기술진흥센터의 지원을 받아 수행됐다.