개인정보 공유 없이 병원·은행에서도 통하는 연합학습 AI 개발
환자 진료기록이나 금융 데이터처럼 개인정보를 한곳에 모으기 어려운 문제를 해결하기 위해 ‘연합학습(Federated Learning)’이 고안됐다. 하지만 공동으로 학습한 AI를 각 기관이 자신의 환경에 맞게 최적화하는 과정에서, AI가 특정 기관 데이터에만 과도하게 적응해 새로운 데이터에는 취약해지는 한계가 있었다. 우리 대학 연구진은 이를 해결할 방법을 제시했으며, 병원·은행 같은 보안 분야는 물론, 소셜미디어·온라인 쇼핑처럼 변화가 잦은 환경에서도 안정적인 성능을 확인했다.
우리 대학은 산업및시스템공학과 박찬영 교수 연구팀이 연합학습의 고질적인 성능 저하 문제를 해결하고, AI 모델의 일반화(Generalization) 성능을 크게 향상시키는 새로운 학습 방법을 개발했다고 15일 밝혔다.
연합학습은 여러 기관이 데이터를 직접 주고받지 않고도 공동으로 AI를 학습할 수 있는 방식이다. 그러나 이렇게 완성된 공동 AI 모델을 각 기관이 현장에 맞춰 최적화(파인 튜닝)하는 과정에서 문제가 발생한다. 기존의 폭넓은 지식이 희석되며, AI가 특정 기관의 데이터 특성에만 과도하게 적응하는‘지역 과적합(Local Overfitting)’문제가 생기기 때문이다.
예를 들어 여러 은행이 함께 ‘공동 대출 심사 AI’를 구축한 뒤, 특정 은행이 대기업 고객 데이터를 중심으로 파인튜닝을 진행하면 해당 은행의 AI는 대기업 심사에는 강점을 보이지만 개인이나 스타트업 고객 심사에서는 성능이 떨어지는 지역 과적합 문제가 생긴다.
박 교수 연구팀은 이를 해결하기 위해 ‘합성 데이터(Synthetic Data)’ 방식을 도입했다. 각 기관의 데이터에서 핵심적이고 대표적인 특징만을 추출해 개인정보를 포함하지 않는 가상 데이터를 생성하고, 이를 파인튜닝 과정에 적용한 것이다. 이로써 각 기관의 AI는 개인정보 공유없이 자신의 데이터에 맞춰 전문성을 강화하면서도, 공동학습으로 얻은 폭넓은 시야(일반화 성능)를 잃기 않게 되었다.
연구 결과, 해당 방법은 의료·금융 등 데이터 보안이 중요한 분야에서 특히 효과적일 뿐 아니라, 소셜미디어나 전자상거래처럼 새로운 사용자와 상품이 지속적으로 추가되는 환경에서도 안정적인 성능을 발휘했다. 새로운 기관이 협력에 참여하거나 데이터 특성이 급격히 변하더라도 AI가 혼란스러워하지 않고 안정적으로 성능을 유지할 수 있음을 보여줬다.
박찬영 산업및시스템공학과 교수는 “이번 연구는 데이터 프라이버시를 지키면서도, 각 기관의 AI가 전문성과 범용성을 동시에 보장하는 새로운 길을 열었다”라며, “의료 AI, 금융 사기 탐지 AI처럼 데이터 협업이 필수적이지만 보안이 중요한 분야에서 큰 도움이 될 것”이라고 말했다.
이번 연구는 데이터사이언스대학원 김성원 학생이 제1 저자, 박찬영 교수가 교신저자로 참여했으며, 지난 4월 싱가포르에서 열린 인공지능 분야 최고 권위 학술대회인 ‘국제표현학습학회(International Conference on Learning Representations, ICLR) 2025’에서 상위 1.8%의 우수 논문에만 선정되는 구두 발표(Oral Presentation) 대상으로 채택되어 그 우수성을 입증받았다.
※ 논문명: Subgraph Federated Learning for Local Generalization, https://doi.org/10.48550/arXiv.2503.03995
한편, 이번 연구는 정보통신기획평가원의 지원을 받은 ‘강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습’과제와 한국연구재단의 지원을 받은 ‘그래프 파운데이션 모델: 다양한 모달리티 및 도메인에 적용 가능한 그래프 기반 기계 학습’과제와 ‘데이터사이언스융합인재양성 사업’의 성과다.
대형언어모델로 42% 향상된 추천 기술 연구 개발
최근 소셜 미디어, 전자 상거래 플랫폼 등에서 소비자의 만족도를 높이는 다양한 추천서비스를 제공하고 있다. 그 중에서도 상품의 제목 및 설명과 같은 텍스트를 주입하여 상품 추천을 제공하는 대형언어모델(Large Language Model, LLM) 기반 기술이 각광을 받고 있다. 한국 연구진이 이런 대형언어모델 기반 추천 기술의 기존 한계를 극복하고 빠르고 최상의 추천을 해주는 시스템을 개발하여 화제다.
우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 네이버와 공동연구를 통해 협업 필터링(Collaborative filtering) 기반 추천 모델이 학습한 사용자의 선호에 대한 정보를 추출하고 이를 상품의 텍스트와 함께 대형언어모델에 주입해 상품 추천의 높은 정확도를 달성할 수 있는 새로운 대형언어모델 기반 추천시스템 기술을 개발했다고 17일 밝혔다.
이번 연구는 기존 연구에 비해 학습 속도에서 253% 향상, 추론 속도에서 171% 향상, 상품 추천에서 평균 12%의 성능 향상을 이뤄냈다. 특히, 사용자의 소비 이력이 제한된 퓨샷(Few-shot) 상품* 추천에서 평균 20%의 성능 향상, 다중-도메인(Cross-domain) 상품 추천**에서 42%의 성능 향상을 이뤄냈다.
*퓨샷 상품: 사용자의 소비 이력이 풍부하지 않은 상품.
**다중-도메인 상품 추천: 타 도메인에서 학습된 모델을 활용하여 추가학습없이 현재 도메인에서 추천을 수행. 예를 들어, 의류 도메인에 추천 모델을 학습한 뒤, 도서 도메인에서 추천을 수행하는 상황을 일컫는다.
기존 대형언어모델을 활용한 추천 기술들은 사용자가 소비한 상품 이름들을 단순히 텍스트 형태로 나열해 대형언어모델에 주입하는 방식으로 추천을 진행했다. 예를 들어 ‘사용자가 영화 극한직업, 범죄도시1, 범죄도시2를 보았을 때 다음으로 시청할 영화는 무엇인가?’라고 대형언어모델에 질문하는 방식이었다.
이에 반해, 연구팀이 착안한 점은 상품 제목 및 설명과 같은 텍스트뿐 아니라 협업 필터링 지식, 즉, 사용자와 비슷한 상품을 소비한 다른 사용자들에 대한 정보가 정확한 상품 추천에 중요한 역할을 한다는 점이었다. 하지만, 이러한 정보를 단순히 텍스트화하기에는 한계가 존재한다. 이에 따라, 연구팀은 미리 학습된 협업 필터링 기반 추천 모델로부터 사용자의 선호에 대한 정보를 추출하고 이를 대형언어모델이 이해할 수 있도록 변환하는 경량화된 신경망을 도입했다.
연구팀이 개발한 기술의 특징으로는 대형언어모델의 추가적인 학습이 필요하지 않다는 점이다. 기존 연구들은 상품 추천을 목적으로 학습되지 않은 대형언어모델이 상품 추천이 가능하게 하도록 대형언어모델을 파인튜닝(Fine-tuning)* 하는 방법을 사용했다. 하지만, 이는 학습과 추론에 드는 시간을 급격히 증가시키므로 실제 서비스에서 대형언어모델을 추천에 활용하는 것에 큰 걸림돌이 된다. 이에 반해, 연구팀은 대형언어모델의 직접적인 학습 대신 경량화된 신경망의 학습을 통해 대형언어모델이 사용자의 선호를 이해할 수 있도록 했고, 이에 따라 기존 연구보다 빠른 학습 및 추론 속도를 달성했다.
*파인튜닝: 사전 학습된 대규모 언어모델을 특정 작업이나 데이터셋에 맞게 최적화하는 과정.
연구팀을 지도한 박찬영 교수는 “제안한 기술은 대형언어모델을 추천 문제에 해결하려는 기존 연구들이 간과한 사용자-상품 상호작용 정보를 전통적인 협업 필터링 모델에서 추출해 대형언어모델에 전달하는 새로운 방법으로 이는 대화형 추천 시스템이나 개인화 상품 정보 생성 등 다양한 고도화된 추천 서비스를 등장시킬 수 있을 것이며, 추천 도메인에 국한되지 않고 이미지, 텍스트, 사용자-상품 상호작용 정보를 모두 사용하는 진정한 멀티모달 추천 방법론으로 나아갈 수 있을 것”이라고 말했다.
우리 대학 산업및시스템공학과 김세인 박사과정 학생과 전산학부 강홍석 학사과정(졸) 학생이 공동 제1 저자, 네이버의 김동현 박사, 양민철 박사가 공동 저자, KAIST 산업및시스템공학과의 박찬영 교수가 교신저자로 참여한 이번 연구는 데이터마이닝 최고권위 국제학술대회인 ‘국제 데이터 마이닝 학회 ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2024)’에서 올 8월 발표할 예정이다. (논문명: Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System).
한편 이번 연구는 네이버 및 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행됐다. (NRF-2022M3J6A1063021, RS-2024-00335098)
약물 부작용 및 용해도 예측 그래프 신경망 기술 개발
최근 화학, 생명과학 등 다양한 기초과학 분야의 문제를 해결하기 위해 그래프 신경망 (Graph Neural Network) 기술이 널리 활용되고 있다. 그 중에서도 특히 두 물질의 상호작용에 의해 발생하는 물리적 성질을 예측하는 것은 다양한 화학, 소재 및 의학 분야에서 각광을 받고 있다. 예를 들어, 어떠한 약물 (Drug)이 용매 (Solvent)에 얼마나 잘 용해되는지 정확히 예측하고, 동시에 여러 가지 약물을 투여하는 다중약물요법 (Polypharmacy)의 부작용을 예측하는 것이 신약 개발 등에 매우 중요하다.
우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 한국화학연구원(원장 이영국)과 공동연구를 통해 물질 내의 중요한 하부 구조(Substructure)를 탐지하여 두 물질의 상호작용에 의해 발생하는 물리적 성질 예측의 높은 정확도를 달성할 수 있는 새로운 그래프 신경망 기법을 개발했다고 18일 밝혔다.
기존 연구에서는 두 분자 쌍이 있을 때, 각 분자내에 존재하는 원자들 사이의 상호 작용만을 고려해 그래프 신경망 모델을 학습하였다. 예를 들어 특정 발색체의 물(H2O)에 대한 용해도를 예측하고자 할 때, 발색체 내의 각 원자들에 대해 물 분자의 원자들 (즉, H, O)이 갖는 영향력을 고려하는 것이다. 연구팀이 이에 반해, 연구팀이 착안한 점은 분자 구조의 화학적 특성을 결정하는 데 있어서 원자뿐만 아니라 작용기(Functional group)와 같은 분자내 하부 구조들이 중요한 역할을 한다는 점이었다. 예를 들어, 알코올이나 예를 들어, 알코올이나 포도당과 같이 하이드록실기 (Hydroxyl group)를 포함하는 분자들은 일반적으로 물에 대한 용해도가 높은 것으로 알려져 있다. 즉, 하이드록실기라는 작용기가 물에 대한 용해도를 결정하는데 중요한 역할을 한다는 것이다.
연구팀은 분자의 특성을 결정하는데 큰 영향을 끼치는 하부 구조를 추론하는 기술을 분자내의 중요한 정보를 최대한 압축하여 보존하는 ‘정보 병목 이론’과, 분자 내의 어떤 하부 구조가 분자의 고유한 특성을 결정 짓는데 큰 역할을 했는지 대한 인과 관계를 추론하는 ‘인과 추론 모형’을 활용하여 개발했다. 이를 통해 분자의 고유한 특성에 가장 큰 영향을 미치는 하부 구조를 찾아내었다. 또한 분자 간 관계를 추론하는 문제에서는 상대방 분자에 따라 대상 분자의 중요한 하부 구조가 달라질 수 있다는 점을 착안하여 물질 간 관계를 예측하는 모델을 제안했다.
이번 새로운 그래프 신경망 기법을 의학에 적용하여 정보 병목 현상을 기반으로 한 연구는 기존 연구에 비해 약물 용해도 예측에서 11%의 성능 향상, 다중약물요법 부작용 예측에서 4%의 정확도 향상을 이뤄냈다. 또한, 인과 추론 모형을 기반으로 한 연구는 약물 용해도 예측에서 17%의 성능 향상, 약물 부작용 예측에서 2%의 정확도 향상을 이뤄냈다.
박찬영 교수팀은 정보 병목 이론을 기반으로 중요한 하부 구조를 탐지해 분자 구조 관계의 높은 예측 정확도를 달성할 수 있는 그래프 신경망 모델을 개발해 기계학습 분야 최고권위 국제학술대회 ‘국제 기계 학습 학회 International Conference on Machine Learning (ICML 2023)’에서 올 7월 발표할 예정이다. (논문명: Conditional Graph Information Bottleneck for Molecular Relational Learning). 또한 인과 추론 모형을 기반으로 중요한 하부 구조를 탐지해 분포 변화에도 모델의 성능이 강건하게 유지되는 그래프 신경망 모델을 개발해 데이터마이닝 최고권위 국제학술 대회 ‘국제 데이터 마이닝 학회 ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2023)’에서 올 8월에 발표할 예정이다. (논문명: Shift-Robust Molecular Relational Learning with Causal Substructure). 두 연구 모두 KAIST 산업및시스템공학과 대학원에 재학 중인 이남경 박사과정 학생이 제1 저자, 화학연구원의 나경석 연구원이 공동 저자, 우리 대학 산업및시스템공학과의 박찬영 교수가 교신저자로 참여했다.
두 연구의 제1 저자인 이남경 박사과정은 “제안한 기술은 분자의 성질을 결정하는 데 있어 큰 영향을 미치는 하부 구조가 존재한다는 화학적 지식에 기반해 그래프 신경망을 학습할 수 있는 새로운 방법”이라면서 “상대편 분자를 고려해 대상 분자의 중요한 구조를 찾는 방법론은 이미지-텍스트 멀티 모달 학습 방법에서도 적용될 수 있어, 심층 학습 전반적인 성능 개선에 기여할 수 있다”고 밝혔다.
연구팀을 지도한 박찬영 교수도 “제안한 기술은 화학과 생명과학을 포함한 다양한 분야에서 새로운 물질을 발견하는데 널리 사용될 것으로 기대하며, 특히 환경 친화적인 소재 개발, 질병 치료를 위한 신약 발굴 등에 있어서 본 기술의 가치가 더욱 부각될 것으로 보인다”라고 밝혔다.
한편 이번 연구는 정보통신기획평가원의 지원을 받은 사람중심 인공지능 핵심원천기술개발 사업과 한국화학연구원 기본사업 (KK2351-10)의 지원을 받아 수행됐다.
레이블 없이 훈련 가능한 그래프 신경망 모델 기술 개발
최근 다양한 분야 (소셜 네트워크 분석, 추천시스템 등)에서 그래프 데이터 (그림 1) 의 중요성이 대두되고 있으며, 이에 따라 그래프 신경망(Graph Neural Network) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서는 심층 학습 모델을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 소셜 네트워크의 특정 사용자에 `20대'라는 레이블을 부여하는 행위), 이 과정은 일반적으로 수작업으로 진행되므로 노동력과 시간이 소요된다. 따라서 그래프 신경망 모델 훈련 시 데이터가 충분하지 않은 상황을 효과적으로 타개하는 방법의 필요성이 대두되고 있다.
우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 데이터의 레이블이 없는 상황에서도 높은 예측 정확도를 달성할 수 있는 새로운 그래프 신경망 모델 훈련 기술을 개발했다고 25일 밝혔다.
정점의 레이블이 없는 상황에서 그래프 신경망 모델의 훈련은 데이터 증강을 통해 생성된 정점들의 공통된 특성을 학습하는 과정으로 볼 수 있다. 하지만 이러한 정점의 공통된 특성을 학습하는 과정에서, 기존 훈련 방법은 표상 공간에서 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련을 한다. 하지만 그래프 데이터가 정점들 사이의 관계를 나타내는 데이터 구조라는 점을 고려했을 때, 이런 일차원적인 방법론은 정점 간의 관계를 정확히 반영하지 못하게 된다.
박 교수팀이 개발한 기술은 그래프 신경망 모델에서 정점들 사이의 관계를 보존해 정점의 레이블이 없는 상황에서 모델을 훈련시켜 높은 예측 정확도를 달성할 수 있게 해준다.
KAIST 산업및시스템공학과 이남경 석사과정이 제1 저자, 현동민 박사, 이준석 석사과정 학생이 제2, 제3 저자로 참여한 이번 연구는 최고권위 국제학술대회 `정보지식관리 콘퍼런스(CIKM) 2022'에서 올 10월 발표될 예정이다. (논문명: Relational Self-Supervised Learning on Graphs)
기존 연구에서는 정점의 레이블이 없는 상황에서 정점에 대한 표상을 훈련하기 위해 표상 공간 내에서 자기 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련을 한다. 예를 들어서, 소셜 네트워크에 A, B, C 라는 사용자가 존재할 때, A, B와 C가 표상 공간에서 서로 간의 유사도가 모두 작아지도록 모델을 훈련하는 것이다. 이때 박 교수팀이 착안한 점은 그래프 데이터가 정점 간의 관계를 나타내는 데이터이므로 정점 간의 관계를 포착하도록 정점의 표상을 훈련할 필요가 있다는 점이었다.
즉, A, B와 C 서로 간의 유사도가 모두 작아지게 하는 훈련 메커니즘과는 달리, 실제 그래프상에서는 이들이 연관이 있을 수 있다는 점이다. 따라서 A, B와 C 사이의 관계를 긍정/부정의 이진 분류를 통해 표상 공간에서 유사도가 작아지도록 훈련을 하는 것이 아닌, 이들의 관계를 정의해 그 관계를 보존하도록 학습하는 모델을 연구팀은 개발했다(그림 2). 연구팀은 정점 간의 관계를 기반으로 정점의 표상을 훈련함으로써, 기존 연구가 갖는 엄격한 규제들을 완화해 그래프 데이터를 더 유연하게 모델링했다.
연구팀은 이 학습 방법론을 `관계 보존 학습'이라고 명명했으며, 그래프 데이터 분석의 주요 문제(정점 분류, 간선 예측)에 적용했다(그림 3). 그 결과 최신 연구 방법론과 비교했을 때, 정점 분류 문제에서 최대 3% 예측 정확도를 향상했고, 간선 예측 문제에서 6%의 성능 향상, 다중 연결 네트워크 (Multiplex network)의 정점 분류 문제에서 3%의 성능 향상을 보였다.
제1 저자인 이남경 석사과정은 "이번 기술은 데이터의 레이블이 부재한 상황에서도 그래프 신경망을 학습할 수 있는 새로운 방법ˮ 이라면서 "그래프 기반의 데이터뿐만이 아닌 이미지 텍스트 음성 데이터 등에 폭넓게 적용될 수 있어, 심층 학습 전반적인 성능 개선에 기여할 수 있다ˮ고 밝혔다.
연구팀을 지도한 박찬영 교수도 "이번 기술은 그래프 데이터상에 레이블이 부재한 상황에서 표상 학습 모델을 훈련하는 기존 모델들의 단점들을 `관계 보존`이라는 개념을 통해 보완해 새로운 학습 패러다임을 제시하여 학계에 큰 파급효과를 낼 수 있다ˮ라고 말했다.
한편, 이번 연구는 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 사람중심인공지능핵심원천기술개발 과제로 개발한 연구성과 결과물(No. 2022-0-00157, 강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습)이다.