
< (왼쪽부터) 한동형 그래파이 CTO, 전산학부 배정민 박사과정, 전산학부 김민수 교수 >
텍스트 기반 대규모 언어 모델(LLM)인 ChatGPT 등과 함께, 산업 현장에서는 금융 거래, 주식, SNS, 환자기록, 등 비정형 데이터를 그래프 형태로 분석하는 GNN(Graph Neural Network) 기반의 그래프 AI 모델이 적극 활용되고 있다. 하지만 전체 그래프를 한 번에 학습(풀 그래프 학습)하는데 막대한 메모리와 GPU 서버가 필요하다는 한계점이 있다. KAIST 연구진이 단 한 대의 GPU 서버만으로도 대규모 GNN 모델을 최고속 학습할 수 있는 세계 최고 성능의 소프트웨어 기술 개발에 성공했다.
우리 대학 전산학부 김민수 교수 연구팀이 여러 대의 GPU 서버를 활용하는 기존 방식과 달리 한 대의 GPU 서버에서 대규모 풀(full) 그래프 AI 모델을 빠르게 학습하고 추론할 수 있는 GNN 시스템 ‘FlexGNN(플렉스지엔엔)’을 개발했다고 13일 밝혔다. FlexGNN은 기존 기술 대비 학습 속도를 최대 95배 향상한다.
최근 기후, 금융, 의료, 제약, 제조, 유통 등 다양한 분야에서는 데이터를 정점과 간선으로 구성된 그래프 형태로 변환해 분석 및 예측하는 사례가 증가하고 있다.
전체 그래프를 모두 학습에 활용하는 풀 그래프 방식이 더욱 우수한 정확도를 보이지만, 학습 과정에서 대규모의 중간 데이터(intermediate data)가 발생해 메모리 부족 현상이 빈번히 발생하고, 여러 서버 간의 데이터 통신으로 인해 학습 시간이 길어지는 한계가 있었다.
연구팀이 개발한 FlexGNN은 이러한 문제를 극복하기 위해 여러 대의 GPU 서버 대신 단일 GPU 서버에서 SSD(솔리드 스테이트 드라이브)와 메인 메모리를 활용한 최적의 AI 모델 학습을 수행한다.
특히 데이터베이스 시스템의 질을 최적화시키는 AI 퀴리 최적화 학습을 통해 GPU-메인 메모리-SSD 계층 간 모델 파라미터, 학습 데이터, 중간 데이터를 최적의 시점과 방식으로 계산을 시키는 새로운 학습 최적화 기술을 개발했다.

< 그림 (a): 기존 전체 그래프 GNN 학습 시스템의 일반적인 실행 흐름을 나타낸다. 학습 중 생성되는 중간 데이터는 모두 GPU 메모리에 유지되며, 데이터 이동이나 메모리 최적화 없이 순차적으로 연산이 수행된다. 이로 인해 GPU 메모리 용량을 초과하는 경우 학습 자체가 불가능하며, GPU 간 데이터 교환도 고정된 방식(X_rigid)만을 사용하여 성능 및 확장성에 한계를 가진다. 그림 (b): FlexGNN이 생성한 최적화된 학습 실행 계획에 따른 실행 흐름의 예시를 나타낸다. 각 중간 데이터에 대해 유지, 오프로딩, 재계산 전략이 선택적으로 적용되며, 자원 제약 및 데이터 크기에 따라 G2G 또는 G2H 중 적절한 GPU 간 교환 방식이 적응형 교환 연산자(X_adapt)로써 선택된다. 또한 오프로딩 및 리로딩 연산은 계산과 최대한 겹치도록 스케줄링되어, 계산-데이터 이동 병렬성이 극대화된다. 그림 내의 적응형 교환 연산자와 다양한 데이터 오프로딩 및 리로딩 연산자(R, O)는 FlexGNN이 학습 실행 계획을 기반으로 중간 데이터 관리 방식과 GPU간 교환 전략을 유연하게 제어할 수 있음을 보여준다. >
이를 통해 FlexGNN은 데이터 크기, 모델 규모, GPU 메모리 등 가용 자원 상황에 따라 유연하게 최적의 학습 실행 계획을 생성해 높은 자원 효율성과 학습 속도를 구현한다.
그 결과, 메인 메모리 용량을 훨씬 초과하는 데이터에 대해서도 GNN 모델을 학습하며, 단일 GPU 서버에서도 최대 95배 빠르게 학습이 가능해졌다. 특히 기후 예측 등에서 슈퍼컴퓨터보다 정밀한 분석이 가능한 풀 그래프 AI 구현이 현실화됐다.
우리 대학 김민수 교수는 “날씨 예측과 신소재 발견 등 복잡한 문제를 해결하는데 풀 그래프 GNN 모델이 활발히 활용되면서 관련 기술의 중요성이 점점 높아지고 있다”며 “FlexGNN이 그동안 어려움으로 남아 있던 그래프 AI 모델의 학습 규모와 속도 문제를 획기적으로 해결한 만큼, 다양한 산업 분야에 널리 활용되기를 기대한다”고 밝혔다.
이번 연구는 전산학부 배정민 박사과정이 제1 저자로, 김민수 교수창업기업인 (주)그래파이의 한동형 CTO가 제2 저자로 참여했으며, 김 교수가 교신저자를 맡았다.
연구 결과는 세계적 권위의 데이터마이닝 학술대회인 ‘ACM KDD’에서 지난 8월 5일에 발표됐다. FlexGNN 기술은 향후 (주)그래파이의 그래프 DB 솔루션인 그래프온(GraphOn)에도 적용될 예정이다.
※ 논문제목: FlexGNN: A High-Performance, Large-Scale Full-Graph GNN System with Best-Effort Training Plan Optimization
※ DOI: https://doi.org/10.1145/3711896.3736964
한편, 이번 연구는 과기정통부 IITP SW스타랩과 IITP-ITRC, 그리고 한국연구재단 중견과제의 지원을 받아 수행됐다.
대규모 언어모델(LLM) 기반 AI 서비스는 지금까지 대부분 고가의 데이터센터 GPU에 의존해 왔다. 이로 인해 서비스 운영 비용이 높고, AI 기술 활용의 진입장벽도 컸다. 우리 대학 연구진이 비싼 데이터센터 GPU를 덜 쓰고, 주변에 있는 저렴한 GPU를 활용해 AI 서비스를 더 싸게 제공할 수 있는 기술을 개발했다. 우리 대학은 전기및전자공학부 한동수 교수 연구팀이 데이터센터 밖에 널리 보급된 저렴한 소비자급 GPU를 활용해 LLM 인프라 비용을 크게 낮출 수 있는 새로운 기술 ‘스펙엣지(SpecEdge)’를 개발했다고 28일 밝혔다. SpecEdge는 데이터센터 GPU와 개인 PC나 소형 서버 등에 탑재된 ‘엣지 GPU’가 역할을 나눠 LLM 추론 인프라를 함께 구성하는 방식이다. 이 기술을 적용한 결과, 기존 데이터센터 GPU만 사용하는 방식에 비해 토큰(AI가 문장을 만들어내는 최소 단위)당 비용을 약 67.6% 절감할 수
2025-12-29인공지능 분야에서 지식 체계나 데이터베이스를 그래프로 저장하고 활용하는 사례가 급증하지만, 일반적으로 복잡도가 높은 그래프 연산은 GPU 메모리의 제한으로 인해 매우 작은 규모의 그래프 등 비교적 단순한 연산만 처리할 수 있다는 한계가 있다. 우리 연구진이 25대의 컴퓨터로 2,000초가 걸리던 연산을 한 대의 GPU 컴퓨터로 처리할 수 있는 세계 최고 성능의 연산 프레임워크를 개발하는데 성공했다. 우리 대학 전산학부 김민수 교수 연구팀이 한정된 크기의 메모리를 지닌 GPU를 이용해 1조 간선 규모의 초대규모 그래프에 대해 다양한 연산을 고속으로 처리할 수 있는 스케줄러 및 메모리 관리 기술들을 갖춘 일반 연산 프레임워크(일명 GFlux, 지플럭스)를 개발했다고 27일 밝혔다. 연구팀이 개발한 지플럭스 프레임워크는 그래프 연산을 GPU에 최적화된 단위 작업인 ‘지테스크(GTask)’로 나누고, 이를 효율적으로 GPU에 배분 및 처리하는 특수한 스케줄링
2025-05-27우리 대학은 ㈜디알젬이 KAIST에 3억원의 발전기금을 기부했다고 8일 밝혔다. ㈜디알젬은 병원에서 진단과 치료에 활용되는 엑스레이 영상 장비 연구·제조·판매 기업으로 2003년 설립됐다. 예종철 김재철 AI대학원 교수는 “본 기부는 ㈜디알젬과 KAIST 김재철 AI 대학원 연구진이 최근 의료 AI 연구 관련 과제를 함께 수행한 것을 계기로 추진되었다”라고 설명했다. 이어 “㈜디알젬이 고성능 GPU(Graphics Processing Unit, 그래픽 처리장치) 서버 부족 문제에 도움을 주고, KAIST의 우수 연구 활동에 더욱 힘을 싣고자 이번 발전기금을 쾌척했다”라고 말했다. 이번 기부금은 김재철 AI 대학원이 H100과 동일한 급의 고성능 GPU 서버를 구매하는 데에 사용된다. H100은 엔비디아(NVIDIA)가 개발한 최신 GPU 시스템이다. 이를 이용하여 ‘인공지능 헬스케어 분야 생성형
2024-11-08최근 대규모 AI 서비스 제공 최전선에 있는 빅테크들은 더 좋은 성능을 사용자들에게 제공하기 위해 경쟁적으로 모델 및 데이터의 크기를 증가시키는 추세이며, 최신 대규모 언어모델은 학습을 위해 수에서 수십 테라바이트(TB, 10^12 바이트)의 메모리를 요구한다. 국내 연구진이 현재 AI 가속기 시장을 독점하고 있는 엔비디아(NVIDIA)에 맞설 수 있는 차세대 인터페이스 기술이 활성화된 고용량·고성능 AI 가속기를 개발했다. 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 차세대 인터페이스 기술인 CXL(Compute Express Link)이 활성화된 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는 기술을 개발했다고 8일 밝혔다. 최신 GPU의 내부 메모리 용량은 수십 기가바이트(GB, 10^9 바이트)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 대규모 AI 모델이 요구하
2024-07-08국내 연구진이 인공지능(AI) 등에 널리 사용되는 그래픽 연산 장치(이하 GPU)에서 메모리 크기의 한계로 인해 초병렬 연산*의 결과로 대규모 출력 데이터가 발생할 때 이를 잘 처리하지 못하던 난제를 해결했다. 이 기술을 통해 향후 가정에서 사용하는 메모리 크기가 작은 GPU로도 생성형 AI 등 고난이도 연산이 대규모 출력을 필요한 경우 이를 빠르게 수행할 수 있다. *초병렬 연산: GPU를 이용하여 수 십 만에서 수 백 만 개의 작은 연산들을 동시에 수행하는 연산을 의미 우리 대학은 전산학부 김민수 교수 연구팀이 한정된 크기의 메모리를 지닌 GPU를 이용해 수십, 수백 만개 이상의 스레드들로 초병렬 연산을 하면서 수 테라바이트의 큰 출력 데이터*를 발생시킬 경우에도 메모리 에러를 발생시키지 않고 해당 출력 데이터를 메인 메모리로 고속으로 전송 및 저장할 수 있는 데이터 처리 기술(일명 INFINEL)을 개발했다고 7일 밝혔다. *출력데이터: 데이터 분석 결과 또는 인공
2024-03-07