세계 최고 DB 통합기술로 진짜 똑똑한 AI 에이전트 현실로
기업들은 오랫동안 데이터를 관리하는 데 관계형 데이터베이스(DB)를 써왔다. 하지만 거대 AI 모델 활용이 늘면서, 이제는 그래프 DB와의 통합 운영이 요구된다. 그러나 이 과정에서 비용 부담, 데이터 불일치, 복합 질의 처리의 어려움 같은 한계가 드러난다. 우리 연구진은 이 같은 문제를 단번에 해결할 수 있는 차세대 그래프-관계형 DB 시스템 개발에 성공했으며, 곧바로 산업 현장에 적용될 것으로 기대된다. 이 기술이 적용되면 AI는 단순 검색을 넘어 복잡한 연결 관계까지 실시간으로 추론할 수 있어, 한층 똑똑한 AI 서비스 구현이 가능해질 것이다.
우리 대학 전산학부 김민수 교수 연구팀이 관계형 DB와 그래프 DB를 완전 통합하여 그래프-관계형 질의를 한층 효율적으로 실행할 수 있는 새로운 DB 시스템 ‘키마이라(이하 Chimera)’를 개발했다고 8일 밝혔다. Chimera는 국제 성능 표준 벤치마크에서 기존 시스템 대비 최소 4배에서 최대 280배 빠른 질의 처리 성능을 입증하며 세계 최고 수준을 기록했다.
기존 관계형 DB와 달리, 그래프 DB는 데이터를 정점(노드)과 간선(연결선)으로 표현하는 구조를 가지고 있어 사람·사건·장소·시간처럼 복잡하게 얽힌 정보를 분석하고 추론하는 데 강점을 지닌다. 이러한 특징 덕분에 최근에는 AI 에이전트, SNS, 금융, 전자상거래 등 다양한 분야에서 활용이 빠르게 확산되고 있다.
이와 함께 관계형 DB와 그래프 DB 간의 복합 질의 처리 수요가 커지면서, 관계형 질의 언어(SQL)에 그래프 질의 기능을 확장한 신규 표준 언어 ‘SQL/PGQ’도 제안됐다.
SQL/PGQ는 기존 데이터베이스 언어(SQL)에 그래프 탐색 기능을 추가한 새로운 표준 언어로, 표(테이블) 형태의 데이터와 사람·사건·장소 등 연결 관계 정보를 한 번에 질의(검색)할 수 있도록 설계됐다. 이를 활용하면 ‘이 사람의 친구의 친구가 어느 회사에 다니는가’와 같은 복잡한 관계도 기존보다 훨씬 간단하게 검색할 수 있다.
문제는 지금까지의 접근 방식이 그래프 탐색을 억지로 조인 연산으로 흉내 내거나, 메모리에 그래프 뷰(view)를 미리 구성해 처리하는 방법에 의존했다는 점이다. 전자의 경우 탐색 단계가 깊어질수록 성능이 급격히 떨어지고, 후자의 경우 데이터 규모가 조금만 커져도 메모리 부족으로 실행이 실패한다. 또 원본 데이터 변경이 뷰에 즉시 반영되지 않아 데이터 최신성이 떨어지고, 관계형 결과와 그래프 결과를 따로 결합해야 하는 비효율이 뒤따랐다.
우리 대학 연구팀이 개발한 ‘Chimera(키마이라)’는 이러한 한계를 근본적으로 해결했다. 연구팀은 데이터베이스의 저장 계층과 질의 처리 계층을 모두 새롭게 설계했다.
연구팀은 우선 그래프 전용 저장소와 관계형 데이터 저장소를 함께 운영하는 ‘듀얼 스토어 구조’를 도입했다. 여기에 그래프 탐색과 관계형 연산을 동시에 처리하는 ‘탐색-조인 연산자’를 적용해, 복잡한 연산을 단일 체계에서 효율적으로 실행할 수 있도록 했다. 덕분에 Chimera는 데이터 저장부터 질의 처리까지 전 과정을 하나로 통합한 세계 최초의 그래프-관계형 DB 시스템으로 자리매김했다.
그 결과, 국제 성능 표준 벤치마크인 ‘LDBC Social Network Benchmark(SNB)’에서 기존 시스템 대비 최소 4배에서 최대 280배 빠른 성능을 기록하며 세계 최고 수준을 입증했다.
그래프 데이터의 규모가 아무리 커져도 메모리 부족으로 인한 질의 실패가 발생하지 않으며, 뷰를 사용하지 않기 때문에 데이터 최신성 측면에서도 지연 문제가 없다.
김민수 교수는 “데이터 간 연결 관계가 갈수록 복잡해지는 만큼, 그래프와 관계형 DB를 아우르는 통합 기술의 필요성이 커지고 있다”며 “Chimera는 이 문제를 근본적으로 해결한 기술로, 앞으로 AI 에이전트, 금융, 전자상거래 등 다양한 산업에서 널리 쓰일 것으로 기대한다”고 밝혔다.
이번 연구에는 전산학부 이건호 박사과정이 제1저자로, 김민수 교수의 창업기업 ㈜그래파이의 박정호 엔지니어가 제2저자로 참여했으며, 김 교수가 교신저자를 맡았다.
연구 성과는 지난 9월 1일, 세계적 권위의 데이터베이스 분야 국제학술대회 VLDB에서 발표됐다. 특히 새롭게 개발된 Chimera 기술은 ㈜그래파이가 출시 예정인 벡터-그래프-관계형 DB 시스템 ‘AkasicDB’에 적용돼, ‘RAG 기반 고성능 AI 에이전트(검색 능력을 갖춘 똑똑한 AI 비서)’ 구현을 위한 핵심 기술로 즉각적인 산업적 파급력이 기대된다.
※ 논문제목: Chimera: A System Design of Dual Storage and Traversal-Join Unified Query Processing for SQL/PGQ
※ DOI: https://dl.acm.org/doi/10.14778/3705829.3705845
한편, 이번 연구는 과기정통부 IITP SW스타랩과 한국연구재단 중견과제의 지원을 받아 수행됐다.
GPU에서 대규모 출력데이터 난제 해결
국내 연구진이 인공지능(AI) 등에 널리 사용되는 그래픽 연산 장치(이하 GPU)에서 메모리 크기의 한계로 인해 초병렬 연산*의 결과로 대규모 출력 데이터가 발생할 때 이를 잘 처리하지 못하던 난제를 해결했다. 이 기술을 통해 향후 가정에서 사용하는 메모리 크기가 작은 GPU로도 생성형 AI 등 고난이도 연산이 대규모 출력을 필요한 경우 이를 빠르게 수행할 수 있다.
*초병렬 연산: GPU를 이용하여 수 십 만에서 수 백 만 개의 작은 연산들을 동시에 수행하는 연산을 의미
우리 대학은 전산학부 김민수 교수 연구팀이 한정된 크기의 메모리를 지닌 GPU를 이용해 수십, 수백 만개 이상의 스레드들로 초병렬 연산을 하면서 수 테라바이트의 큰 출력 데이터*를 발생시킬 경우에도 메모리 에러를 발생시키지 않고 해당 출력 데이터를 메인 메모리로 고속으로 전송 및 저장할 수 있는 데이터 처리 기술(일명 INFINEL)을 개발했다고 7일 밝혔다.
*출력데이터: 데이터 분석 결과 또는 인공지능에 의한 생성 결과물에 해당하는 데이터
최근 AI의 활용이 급속히 증가하면서 지식 그래프와 같이 정점과 간선으로 이루어진 그래프 구조의 데이터의 구축과 사용도 점점 증가하고 있는데, 그래프 구조의 데이터에 대해 난이도가 높은 초병렬 연산을 수행할 경우 그 출력 결과가 매우 크고, 각 스레드의 출력 크기를 예측하기 어렵다는 문제점이 발생한다.
또한, GPU는 근본적으로 CPU와 달리 메모리 관리 기능이 매우 제한적이기 때문에 예측할 수 없는 대규모의 데이터를 유연하게 관리하기 어렵다는 문제가 있다. 이러한 이유로 지금까지는 GPU를 활용해 ‘삼각형 나열’과 같은 난이도가 높은 그래프 초병렬 연산을 수행할 수 없었다.
김 교수팀은 이를 근본적으로 해결하는 INFINEL 기술을 개발했다. 해당 기술은 GPU 메모리의 일부 공간을 수백 만개 이상의 청크(chunk)라 불리는 매우 작은 크기의 단위들로 나누고 관리하면서, 초병렬 연산 내용이 담긴 GPU 커널(kernel) 프로그램을 실행하면서 각 스레드가 메모리 충돌 없이 빠르게 자신이 필요한 청크 메모리들을 할당받아 자신의 출력 데이터를 저장할 수 있도록 한다.
또한, GPU 메모리가 가득 차도 무중단 방식으로 초병렬 연산과 결과 출력 및 저장을 지속할 수 있도록 한다. 따라서 이 기술을 사용하면 가정에서 사용하는 메모리 크기가 작은 GPU로도 수 테라 바이트 이상의 출력 데이터가 발생하는 고난이도 연산을 빠르게 수행할 수 있다.
김민수 교수 연구팀은 INFINEL 기술의 성능을 다양한 실험 환경과 데이터 셋을 통해 검증했으며, 종래의 최고 성능 동적 메모리 관리자 기술에 비해 약 55배, 커널을 2번 실행하는 2단계 기술에 비해 약 32배 연산 성능을 향상함을 보였다.
교신저자로 참여한 우리 대학 전산학부 김민수 교수는 “생성형 AI나 메타버스 시대에는 GPU 컴퓨팅의 대규모 출력 데이터를 빠르게 처리할 수 있는 기술이 중요해질 것으로 예상되며, INFINEL 기술이 그 일부 역할을 할 수 있을 것”이라고 말했다.
이번 연구에는 김 교수의 제자인 박성우 박사과정이 제1 저자로, 김 교수가 창업한 그래프 딥테크 기업인 (주)그래파이 소속의 오세연 연구원이 제 2 저자로, 김 교수가 교신 저자로 참여하였으며, 국제 학술지 ‘PPoPP’에 3월 4일자 발표됐다. (INFINEL: An efficient GPU-based processing method for unpredictable large output graph queries)
한편, 이번 연구는 과기정통부 IITP SW스타랩 및 ITRC 사업, 한국연구재단 선도연구센터인 암흑데이터 극한 활용 연구센터의 지원을 받아 수행됐다.