
< (왼쪽부터) KAIST 전기및전자공학부 박진우 박사, 조승근 석사과정, 한동수 교수 >
대규모 언어모델(LLM) 기반 AI 서비스는 지금까지 대부분 고가의 데이터센터 GPU에 의존해 왔다. 이로 인해 서비스 운영 비용이 높고, AI 기술 활용의 진입장벽도 컸다. 우리 대학 연구진이 비싼 데이터센터 GPU를 덜 쓰고, 주변에 있는 저렴한 GPU를 활용해 AI 서비스를 더 싸게 제공할 수 있는 기술을 개발했다.
우리 대학은 전기및전자공학부 한동수 교수 연구팀이 데이터센터 밖에 널리 보급된 저렴한 소비자급 GPU를 활용해 LLM 인프라 비용을 크게 낮출 수 있는 새로운 기술 ‘스펙엣지(SpecEdge)’를 개발했다고 28일 밝혔다.
SpecEdge는 데이터센터 GPU와 개인 PC나 소형 서버 등에 탑재된 ‘엣지 GPU’가 역할을 나눠 LLM 추론 인프라를 함께 구성하는 방식이다. 이 기술을 적용한 결과, 기존 데이터센터 GPU만 사용하는 방식에 비해 토큰(AI가 문장을 만들어내는 최소 단위)당 비용을 약 67.6% 절감할 수 있었다.
연구팀은 이를 위해 ‘추측적 디코딩(Speculative Decoding)’이라는 방법을 활용했다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스(단어 또는 단어 일부가 순서대로 이어진 형태)를 빠르게 생성하면, 데이터센터의 대규모 언어모델이 이를 일괄 검증하는 방식이다. 이 과정에서 엣지 GPU는 서버의 응답을 기다리지 않고 계속 단어를 만들어, LLM 추론 속도와 인프라 효율을 동시에 높였다.

< 그림 1. 연구팀이 개발한 스펙엣지의 언어 데이터 흐름도 >

< 그림 2. 연구팀이 개발한 스펙엣지의 연산 시간 단축방법 상세 >

< 그림 3. 스펙엣지 내 서버 GPU에서 여러 엣지 GPU의 검증 요청을 효율적으로 배치하는 그림 >
데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다. 특히 일반적인 인터넷 속도에서도 문제없이 작동해, 별도의 특수한 네트워크 환경 없이도 실제 서비스에 바로 적용할 수 있는 기술임을 확인했다.
또한 서버는 여러 엣지 GPU의 검증 요청을 효율적으로 처리하도록 설계돼, GPU 유휴 시간 없이 더 많은 요청을 동시에 처리할 수 있다. 이를 통해 데이터센터 자원을 보다 효율적으로 활용할 수 있는 LLM 서빙 인프라 구조를 구현했다.
이번 연구는 데이터센터에 집중돼 있던 LLM 연산을 엣지로 분산시켜, AI 서비스의 기반이 되는 인프라 비용은 줄이고 접근성은 높일 수 있는 새로운 가능성을 제시했다. 향후 스마트폰, 개인용 컴퓨터, 신경망 처리장치(NPU) 등 다양한 엣지 기기로 확장될 경우, 고품질 AI 서비스가 보다 많은 사용자에게 제공될 수 있을 것으로 기대된다.

< 그림 4. 연구팀이 개발한 SpecEdge의 기존과 비교 개념도 >
연구를 이끈 한동수 교수는 “데이터센터를 넘어 사용자의 주변에 있는 엣지 자원까지 LLM 인프라로 활용하는 것이 목표”라며 “이를 통해 AI 서비스 제공 비용을 낮추고, 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다”고 말했다.
이번 연구에는 KAIST 박진우 박사와 조승근 석사과정이 참여했으며, 연구 결과는 12월 2일부터 7일까지 미국 샌디에이고에서 열린 인공지능 분야 최고 권위 국제 학회인 신경정보처리시스템 학회(NeurIPS)에서 스포트라이트(Spotlight)로 (상위 3.2% 논문, 채택률 24.52%) 발표됐다.
※논문명: SpecEdge: Scalable Edge-Assisted Serving Framework for Interactive LLMs,
논문링크: https://neurips.cc/virtual/2025/loc/san-diego/poster/119940, https://arxiv.org/pdf/2505.17052
한편, 이 연구는 정보통신기획평가원 (IITP) ‘AI-Native 응용 서비스 지원 6G 시스템 기술개발’ 과제의 지원을 받아 수행됐다.
우리가 쓰는 플라스틱 제품 대부분은 녹인 플라스틱을 틀에 넣어 같은 제품을 대량으로 찍어내는‘사출성형’공정으로 만든다. 하지만 조건이 조금만 달라도 불량이 생겨, 그동안은 숙련자의 감에 의존해 왔다. 이제 우리 대학 연구진이 고숙련자 은퇴와 외국인 인력 증가로 제조 지식이 단절될 수 있다는 우려에 대해 AI로 공정을 스스로 최적화하고 지식을 전수하는 해법을 내놨다. 우리 대학은 기계공학과 유승화 교수 연구팀(기계공학과·이노코어 PRISM-AI 센터)이 사출 공정을 스스로 최적화하는 생성형 AI 기술과, 현장 지식을 누구나 활용할 수 있는 LLM 기반 지식 전이 시스템을 세계 최초로 개발하고, 그 성과를 세계 최고 수준의 국제학술지에 연속 게재했다고 22일 밝혔다. 첫 번째 성과는 환경 변화나 품질 조건에 따라 자동으로 최적 공정 조건을 추론하는 생성형 AI 기반 공정추론 기술이다. 기존에는 온도나 습도, 원하는 품질 수준이 바뀔 때마다 숙련자
2025-12-22텍스트 기반 대규모 언어 모델(LLM)인 ChatGPT 등과 함께, 산업 현장에서는 금융 거래, 주식, SNS, 환자기록, 등 비정형 데이터를 그래프 형태로 분석하는 GNN(Graph Neural Network) 기반의 그래프 AI 모델이 적극 활용되고 있다. 하지만 전체 그래프를 한 번에 학습(풀 그래프 학습)하는데 막대한 메모리와 GPU 서버가 필요하다는 한계점이 있다. KAIST 연구진이 단 한 대의 GPU 서버만으로도 대규모 GNN 모델을 최고속 학습할 수 있는 세계 최고 성능의 소프트웨어 기술 개발에 성공했다. 우리 대학 전산학부 김민수 교수 연구팀이 여러 대의 GPU 서버를 활용하는 기존 방식과 달리 한 대의 GPU 서버에서 대규모 풀(full) 그래프 AI 모델을 빠르게 학습하고 추론할 수 있는 GNN 시스템 ‘FlexGNN(플렉스지엔엔)’을 개발했다고 13일 밝혔다. FlexGNN은 기존 기술 대비 학습 속도를 최대 95배 향상한다. 최
2025-08-13인공지능 분야에서 지식 체계나 데이터베이스를 그래프로 저장하고 활용하는 사례가 급증하지만, 일반적으로 복잡도가 높은 그래프 연산은 GPU 메모리의 제한으로 인해 매우 작은 규모의 그래프 등 비교적 단순한 연산만 처리할 수 있다는 한계가 있다. 우리 연구진이 25대의 컴퓨터로 2,000초가 걸리던 연산을 한 대의 GPU 컴퓨터로 처리할 수 있는 세계 최고 성능의 연산 프레임워크를 개발하는데 성공했다. 우리 대학 전산학부 김민수 교수 연구팀이 한정된 크기의 메모리를 지닌 GPU를 이용해 1조 간선 규모의 초대규모 그래프에 대해 다양한 연산을 고속으로 처리할 수 있는 스케줄러 및 메모리 관리 기술들을 갖춘 일반 연산 프레임워크(일명 GFlux, 지플럭스)를 개발했다고 27일 밝혔다. 연구팀이 개발한 지플럭스 프레임워크는 그래프 연산을 GPU에 최적화된 단위 작업인 ‘지테스크(GTask)’로 나누고, 이를 효율적으로 GPU에 배분 및 처리하는 특수한 스케줄링
2025-05-27우리 대학은 ㈜디알젬이 KAIST에 3억원의 발전기금을 기부했다고 8일 밝혔다. ㈜디알젬은 병원에서 진단과 치료에 활용되는 엑스레이 영상 장비 연구·제조·판매 기업으로 2003년 설립됐다. 예종철 김재철 AI대학원 교수는 “본 기부는 ㈜디알젬과 KAIST 김재철 AI 대학원 연구진이 최근 의료 AI 연구 관련 과제를 함께 수행한 것을 계기로 추진되었다”라고 설명했다. 이어 “㈜디알젬이 고성능 GPU(Graphics Processing Unit, 그래픽 처리장치) 서버 부족 문제에 도움을 주고, KAIST의 우수 연구 활동에 더욱 힘을 싣고자 이번 발전기금을 쾌척했다”라고 말했다. 이번 기부금은 김재철 AI 대학원이 H100과 동일한 급의 고성능 GPU 서버를 구매하는 데에 사용된다. H100은 엔비디아(NVIDIA)가 개발한 최신 GPU 시스템이다. 이를 이용하여 ‘인공지능 헬스케어 분야 생성형
2024-11-08최근 대규모 AI 서비스 제공 최전선에 있는 빅테크들은 더 좋은 성능을 사용자들에게 제공하기 위해 경쟁적으로 모델 및 데이터의 크기를 증가시키는 추세이며, 최신 대규모 언어모델은 학습을 위해 수에서 수십 테라바이트(TB, 10^12 바이트)의 메모리를 요구한다. 국내 연구진이 현재 AI 가속기 시장을 독점하고 있는 엔비디아(NVIDIA)에 맞설 수 있는 차세대 인터페이스 기술이 활성화된 고용량·고성능 AI 가속기를 개발했다. 우리 대학 전기및전자공학부 정명수 교수 연구팀(컴퓨터 아키텍처 및 메모리 시스템 연구실)이 차세대 인터페이스 기술인 CXL(Compute Express Link)이 활성화된 고용량 GPU 장치의 메모리 읽기/쓰기 성능을 최적화하는 기술을 개발했다고 8일 밝혔다. 최신 GPU의 내부 메모리 용량은 수십 기가바이트(GB, 10^9 바이트)에 불과해 단일 GPU만으로는 모델을 추론·학습하는 것이 불가능하다. 대규모 AI 모델이 요구하
2024-07-08