논문 경험 없는 학부 1·2학년 4인 팀, ICLR 2025 금융 AI 워크숍에 논문 채택
학부 1, 2학년으로만 구성된 4인 학생 팀의 논문이 인공지능 분야 국제 학술대회인 ‘International Conference on Learning Representations (ICLR) 2025’의 ‘Advances in Financial AI Workshop’에 채택됐다.
이번에 채택된 논문 “Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems”은 김현준, 김세종, 송현서, 서현우 학생(모두 공동 1저자)이 함께 작성했으며, 김현준 학생이 교신저자를 겸했다. 특히 모든 팀원이 논문 작성 경험이 전혀 없는 학부 저학년 학생들로만 구성되어 그 의미가 더욱 크다.
이 연구는 대규모 언어 모델(LLM)이 금융 질의응답 시스템에서 활용될 때 필요한 정보를 더 정확하게 검색하고 활용하는 방법을 개선했다. 연구팀은 기존 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템의 한계를 극복하기 위해 ‘사전 검색(pre-retrieval)’, ‘검색(retrieval)’, ‘사후 검색(post-retrieval)’ 3단계 접근법을 도입했다.
사전 검색 단계에서는 질의어와 문서 데이터를 효과적으로 전처리하는 기술을 개발했고, 검색 단계에서는 금융 도메인에 특화된 임베딩 모델을 미세 조정하여 검색 정확도를 높였다. 특히 의미 기반 검색과 키워드 기반 검색을 결합한 하이브리드 접근법을 통해 검색 성능을 크게 향상시켰다. 사후 검색 단계에서는 검색된 문서의 순위를 재조정하고 최적의 문서만을 선별하는 기술을 적용했다.
이 연구 결과는 7개의 금융 질의응답 데이터셋에서 평가되었으며, 기존 방법 대비 눈에 띄는 성능 향상을 보였다.
연구팀은 교내에서 진행된 “KB증권과 함께하는 제4회 UNIST – KAIST - POSTECH AI & 데이터사이언스 경진대회”에서 금상(상금 200만 원)을 수상한 프로젝트를 더욱 발전시켜 논문으로 완성했다.
김현준 학생은 “2024 가을학기 내내 팀원들과 밤부터 새벽까지 대회 작업을 했고, 수상 후에도 겨울 방학 동안 교양 분관 스터디룸에서 밤을 새가며 논문을 작성했다”라며 “전혀 경험이 없는 상태에서 시작했지만, 팀원들과 함께 끊임없이 토론하고 연구한 결과 국제 학술대회 워크숍에 논문이 채택되는 값진 성과를 얻을 수 있었다”라고 소감을 밝혔다.
이번 연구의 의의는 대규모 언어 모델이 금융 정보를 더 정확하게 처리할 수 있게 함으로써, 복잡한 금융 문서에서 필요한 정보를 빠르고 정확하게 찾아내는 데 기여한다는 점이다.
송현서 학생은 “투자자들이 기업 재무제표나 공시 자료를 분석할 때 더 정확한 정보를 얻을 수 있게 돕고, 금융 기관들의 의사결정 과정에서 중요한 도구로 활용될 수 있다.”라며 연구의 활용성을 강조했다.
김세종 학생은 “우리 연구가 실제 금융 환경에서 투자자들과 애널리스트들이 더 정확한 정보에 기반한 의사결정을 내리는 데 도움이 되길 바란다”라며 “학부생으로서 국제 학술대회에 논문을 발표하게 되어 매우 기쁘고, 앞으로도 계속해서 AI와 금융의 융합 연구에 매진하겠다”라고 말했다.
서현우 학생은 “학교의 지원으로 학회 참가비 및 여행 경비 부담을 덜었다”라며 학회 참가비 및 여행 경비를 지원해준 KAIST에 감사한 마음을 전했다.
관계자는 "학부 저학년 학생들이 국제 학술대회급 연구 성과를 낸 것은 매우 의미 있는 일"이라며 "앞으로도 KAIST는 학생들의 창의적인 연구와 도전을 적극 지원할 것"이라고 밝혔다.
<논문 정보>
- 논문 링크: https://arxiv.org/abs/2503.15191
- 프로젝트 웹사이트: https://github.com/seohyunwoo-0407/GAR
논문 마이닝부터 합성 조건 추천까지, MOF 연구를 혁신하는 대규모 언어 모델
우리 연구진이 챗GPT를 활용해 금속 유기 골격체(Metal-Organic Frameworks, MOFs) 연구 논문에서 실험 데이터를 자동으로 추출하는 데이터 마이닝 툴(이하 L2M3)을 개발했다. L2M3는 MOF의 합성 조건 및 물성 정보를 체계적으로 수집하며, 분류, 정보 식별 및 데이터 추출 작업에서 각각 98.3%, 97.3%, 95.3%의 높은 정확도를 기록했다. 또한, 추출한 데이터를 기반으로 MOF의 합성 조건을 추천하는 시스템을 개발하여 연구자들의 실험 과정 최적화를 지원하고 있어 화제가 되고 있다.
우리 대학 생명화학공학과 김지한 교수 연구팀이 대규모 언어 모델(이하 LLMs) 급격한 발전에 주목하며, 이를 활용을 통해 금속 유기 골격체 문헌에서 MOF의 합성 및 물성 정보를 대량으로 추출하는 데이터 마이닝 툴(L2M3)를 개발했다고 7일 발표했다.
최근 MOF에 대한 연구들이 활발히 진행되어 MOF 실험 데이터가 축적되고 있다. 이에 따라 MOF 연구의 발전을 위해서는 신뢰할 수 있는 실험 데이터 확보가 필수적이며, 특히 논문에 산재한 합성 조건과 물성 정보를 효과적으로 정리하는 것이 큰 과제로 남아 있다. 기존에도 MOF 관련 데이터를 활용하려는 시도가 있었으나, 대부분 일부 특정 특성에 국한되어 있어 있다는 한계점이 존재했다.
김지한 교수 연구팀이 개발한 L2M3는 LLM을 활용하여 쉽고 효율적인 데이터 마이닝 환경을 구축함으로써, 데이터 마이닝에 익숙하지 않은 연구자들도 손쉽게 사용할 수 있는 강력한 도구로의 잠재력을 갖추고 있다.
기존 데이터 마이닝 방식으로는 다양한 특성에 대한 정확한 정보 추출이 어려웠으나, L2M3는 LLM의 자연어 처리 능력을 활용하여 더 정밀한 데이터 추출이 가능하다. 특히, 분류(98.3%)와 정보 식별(97.3%)에서 높은 정확도를 기록했으며, 과정이 복잡하여 정확도 확보가 어려운 데이터 추출 단계에서도 95.3%라는 뛰어난 성능을 보였다.
뿐만 아니라, L2M3는 추출된 합성 조건 데이터를 대규모 언어 모델로 미세 조정해 합성 조건 추천 시스템을 개발하였다. 연구자가 전구체 정보를 입력하면 최적의 합성 조건을 제안하여 실험 과정에서 발생하는 시행착오를 줄이고, MOF 합성을 더욱 효율적으로 수행할 수 있도록 지원한다. 이러한 접근 방식은 MOF 연구뿐만 아니라 다양한 재료 과학 분야에서도 데이터 마이닝과 인공지능을 활용한 연구 패러다임을 새롭게 정의할 수 있는 가능성을 제시하고 있다.
김지한 교수는 “이번 연구는 인공지능을 활용한 재료 과학 연구의 새로운 기준을 제시하는 중요한 진전을 의미한다. L2M3는 방대한 과학 문헌에서 실험 데이터를 체계적으로 수집하고 분석함으로써, 기존 데이터 부족 문제를 해결하고 보다 신뢰성 높은 데이터 기반 연구를 가능하게 한다. 향후 L2M3의 데이터 처리 성능과 합성 조건 추천 모델이 더욱 정교화된다면, MOF뿐만 아니라 다양한 재료 연구에서도 혁신적인 발견을 가속화할 것으로 기대된다.” 라고 말했다.
생명화학공학과 강영훈, 이원석 박사, 배태언 박사과정이 공동 제1 저자로 참여한 이번 연구 결과는 국제 학술지 `미국 화학회지(Journal of the American Chemical Society)'에 지난 1월 21일 게재됐다. (논문명: Harnessing Large Language Models to Collect and Analyze Metal–Organic Framework Property Data Set)
한편 이번 연구는 과학기술정보통신부의 탑-티어 연구기관 간 협력 플랫폼 구축 및 공동연구 지원사업, 한국연구재단(NRF)의 나노 및 소재기술개발사업, 그리고 국가슈퍼컴퓨팅센터의 지원을 받아 수행됐다.