-
신기정 교수 연구팀, 정보검색 분야 최우수 학술대회 ACM CIKM 2022 튜토리얼 강연
우리 대학 김재철AI대학원 신기정 교수가 이끄는 연구팀이 지난 10월 17일부터 10월 21일까지 미국 애틀랜타에서 진행된 미 컴퓨터협회 정보 및 지식 관리 학술대회(이하 ACM CIKM 2022)에서 튜토리얼 강연을 진행했다고 1일 밝혔다.
올해 31회를 맞은 ACM CIKM은, 정보 검색(Information Retrieval) 분야 세계 최고 권위 학회 중 하나로, 전 세계에서 해당 분야 전문가들이 참석해 최신 연구 성과를 공유한다. ACM CIKM에서는 매년 강연자의 전문성 그리고 강연 주제의 깊이와 다양성 등을 고려해 강연자를 선정해 튜토리얼 강연을 열고 있다.
김재철AI대학원 이건 석박통합과정과 유재민 박사(미국 카네기멜론대학교 박사 후 연구원)로 구성된 신기정 교수 연구팀은 `Mining of Real-world Hypergraphs: Concepts, Patterns, and Generators'라는 제목으로 ACM CIKM 2022 학술대회에서 튜토리얼 강연을 진행했다.
사회, 뇌, 웹 등의 다양한 복잡계는 구성요소끼리 상호작용하는 특징이 있다. 이러한 상호작용 중 다수는 셋 이상의 구성요소가 참여하는 `그룹 상호작용'이나 분석의 용이성을 위해 두 개의 구성요소가 참여하는 `쌍 상호작용'을 가정하는 경우가 많았다. 하지만, 하이퍼그래프를 활용해 그룹 상호작용을 쉽고 효과적으로 모델링하고 분석할 수 있다는 사실이 최근 많은 주목을 받았다. 하이퍼그래프는 정점(Vertex)들과 초간선(Hyperedge)들로 구성되며, 하나의 초간선은 임의의 수의 정점을 포함하는 집합이다. 복잡계의 구성요소들을 표현하기 위해 정점이 사용되며, 그룹 상호작용들을 표현하기 초간선이 사용된다.
튜토리얼 강연에서 신기정 교수는 다양한 복잡계를 구성하는 요소들 사이의 그룹 상호작용으로 인해 발생하는 패턴을 발견하고 이에 대한 설명을 제공하기 위한 하이퍼그래프 기반 최신 인공지능 및 빅데이터 기술들을 소개했다. 강연은 정적인 패턴, 동적인 패턴, 그리고 패턴들에 대한 설명을 제공하기 위한 생성 모형 세 부분으로 나뉘어서 3시간 동안 진행됐다. 스탠퍼드 대학교, 코넬 대학교 등 세계 유수 대학의 연구 논문과 함께, 신기정 교수 연구팀의 연구 논문 7편도 소개됐다.
신기정 교수는 "하이퍼그래프에 대한 이론적인 연구는 많지만, 하이퍼그래프를 활용해 실제 복잡계를 분석하는 실증적인 연구는 걸음마 단계다ˮ라며, "튜토리얼을 통해 더 많은 사람이 이 주제에 관심을 갖기를 기대하며, 다양한 후속 연구를 통해 복잡계에 대한 인류의 이해를 크게 증진시킬 것을 기대한다ˮ라고 설명했다.
신기정 교수 연구팀은 올해 11월 28일부터 진행되는 전기전자공학자협회 데이터 마이닝 학술대회(IEEE ICDM 2022)에서도 튜토리얼 강연자로 선정됐다. 올해 22회를 맞는 IEEE ICDM은, 데이터 마이닝(Data Mining) 분야의 세계 최고 권위 학회 중 하나로, 올해 12월 1일까지 미국 올랜도에서 개최될 예정이다.
한편 이번 튜토리얼은 과학기술정보통신부 재원으로 한국연구재단의 지원을 받은 대용량 하이퍼그래프 마이닝: 패턴, 아웃라이어, 학습, 및 요약 과제와 정보통신기획평가원의 지원을 받은 강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습 과제의 성과이다.
2022.11.01
조회수 4636
-
레이블 없이 훈련 가능한 그래프 신경망 모델 기술 개발
최근 다양한 분야 (소셜 네트워크 분석, 추천시스템 등)에서 그래프 데이터 (그림 1) 의 중요성이 대두되고 있으며, 이에 따라 그래프 신경망(Graph Neural Network) 기술을 활용한 서비스가 급속히 증가하고 있다. 서비스 구축을 위해서는 심층 학습 모델을 훈련해야 하며, 이를 위해서는 충분한 훈련 데이터를 준비해야 한다. 특히 훈련 데이터에 정답지를 만드는 레이블링(labeling) 과정이 필요한데 (예를 들어, 소셜 네트워크의 특정 사용자에 `20대'라는 레이블을 부여하는 행위), 이 과정은 일반적으로 수작업으로 진행되므로 노동력과 시간이 소요된다. 따라서 그래프 신경망 모델 훈련 시 데이터가 충분하지 않은 상황을 효과적으로 타개하는 방법의 필요성이 대두되고 있다.
우리 대학 산업및시스템공학과 박찬영 교수 연구팀이 데이터의 레이블이 없는 상황에서도 높은 예측 정확도를 달성할 수 있는 새로운 그래프 신경망 모델 훈련 기술을 개발했다고 25일 밝혔다.
정점의 레이블이 없는 상황에서 그래프 신경망 모델의 훈련은 데이터 증강을 통해 생성된 정점들의 공통된 특성을 학습하는 과정으로 볼 수 있다. 하지만 이러한 정점의 공통된 특성을 학습하는 과정에서, 기존 훈련 방법은 표상 공간에서 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련을 한다. 하지만 그래프 데이터가 정점들 사이의 관계를 나타내는 데이터 구조라는 점을 고려했을 때, 이런 일차원적인 방법론은 정점 간의 관계를 정확히 반영하지 못하게 된다.
박 교수팀이 개발한 기술은 그래프 신경망 모델에서 정점들 사이의 관계를 보존해 정점의 레이블이 없는 상황에서 모델을 훈련시켜 높은 예측 정확도를 달성할 수 있게 해준다.
KAIST 산업및시스템공학과 이남경 석사과정이 제1 저자, 현동민 박사, 이준석 석사과정 학생이 제2, 제3 저자로 참여한 이번 연구는 최고권위 국제학술대회 `정보지식관리 콘퍼런스(CIKM) 2022'에서 올 10월 발표될 예정이다. (논문명: Relational Self-Supervised Learning on Graphs)
기존 연구에서는 정점의 레이블이 없는 상황에서 정점에 대한 표상을 훈련하기 위해 표상 공간 내에서 자기 자신을 제외한 다른 정점들과의 유사도가 작아지도록 훈련을 한다. 예를 들어서, 소셜 네트워크에 A, B, C 라는 사용자가 존재할 때, A, B와 C가 표상 공간에서 서로 간의 유사도가 모두 작아지도록 모델을 훈련하는 것이다. 이때 박 교수팀이 착안한 점은 그래프 데이터가 정점 간의 관계를 나타내는 데이터이므로 정점 간의 관계를 포착하도록 정점의 표상을 훈련할 필요가 있다는 점이었다.
즉, A, B와 C 서로 간의 유사도가 모두 작아지게 하는 훈련 메커니즘과는 달리, 실제 그래프상에서는 이들이 연관이 있을 수 있다는 점이다. 따라서 A, B와 C 사이의 관계를 긍정/부정의 이진 분류를 통해 표상 공간에서 유사도가 작아지도록 훈련을 하는 것이 아닌, 이들의 관계를 정의해 그 관계를 보존하도록 학습하는 모델을 연구팀은 개발했다(그림 2). 연구팀은 정점 간의 관계를 기반으로 정점의 표상을 훈련함으로써, 기존 연구가 갖는 엄격한 규제들을 완화해 그래프 데이터를 더 유연하게 모델링했다.
연구팀은 이 학습 방법론을 `관계 보존 학습'이라고 명명했으며, 그래프 데이터 분석의 주요 문제(정점 분류, 간선 예측)에 적용했다(그림 3). 그 결과 최신 연구 방법론과 비교했을 때, 정점 분류 문제에서 최대 3% 예측 정확도를 향상했고, 간선 예측 문제에서 6%의 성능 향상, 다중 연결 네트워크 (Multiplex network)의 정점 분류 문제에서 3%의 성능 향상을 보였다.
제1 저자인 이남경 석사과정은 "이번 기술은 데이터의 레이블이 부재한 상황에서도 그래프 신경망을 학습할 수 있는 새로운 방법ˮ 이라면서 "그래프 기반의 데이터뿐만이 아닌 이미지 텍스트 음성 데이터 등에 폭넓게 적용될 수 있어, 심층 학습 전반적인 성능 개선에 기여할 수 있다ˮ고 밝혔다.
연구팀을 지도한 박찬영 교수도 "이번 기술은 그래프 데이터상에 레이블이 부재한 상황에서 표상 학습 모델을 훈련하는 기존 모델들의 단점들을 `관계 보존`이라는 개념을 통해 보완해 새로운 학습 패러다임을 제시하여 학계에 큰 파급효과를 낼 수 있다ˮ라고 말했다.
한편, 이번 연구는 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 사람중심인공지능핵심원천기술개발 과제로 개발한 연구성과 결과물(No. 2022-0-00157, 강건하고 공정하며 확장 가능한 데이터 중심의 연속 학습)이다.
2022.10.25
조회수 5314