< (왼쪽부터) 전기및전자공학부 한동수 교수, 정영목 박사과정 >
우리 대학 전기및전자공학부 한동수 교수 연구팀이 머신러닝(기계학습)에 기반한 *유전체 정렬 소프트웨어를 개발했다고 12일 밝혔다.
☞ 유전체(genome): 생명체가 가지고 있는 염기서열 정보의 총합이며, 유전자는 생물학적 특징을 발현하는 염기서열들을 지칭한다. 유전체를 한 권의 책이라고 비유하면 유전자는 공백을 제외한 모든 글자라고 비유할 수 있다.
차세대 염기서열 분석은 유전체 정보를 해독하는 방법으로 유전체를 무수히 많은 조각으로 잘라낸 후 각 조각을 참조 유전체(reference genome)에 기반해 조립하는 과정을 거친다. 조립된 유전체 정보는 암을 포함한 여러 질병의 예측과 맞춤형 치료, 백신 개발 등 다양한 분야에서 사용된다.
유전체 정렬 소프트웨어는 차세대 염기서열 분석 방법으로 생성한 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용되는 소프트웨어다. 유전체 정렬 작업에는 많은 연산이 들어가며, 속도를 높이고 비용을 낮추는 방법에 관한 관심이 계속해서 증가하고 있다. 머신러닝(기계학습) 기반의 인덱싱(색인) 기법(Learned-index)을 유전체 정렬 소프트웨어에 적용한 사례는 이번이 최초다.
전기및전자공학부 정영목 박사과정이 제1 저자로 참여한 이번 연구는 국제 학술지 `옥스포드 바이오인포메틱스(Oxford Bioinformatics)' 2022년 3월에 공개됐다. (논문명 : BWA-MEME: BWA-MEM emulated with a machine learning approach)
유전체 정렬 작업은 정렬해야 하는 유전체 조각의 양이 많고 참조 유전체의 길이도 길어 많은 연산량이 요구되는 작업이다. 또한, 유전체 정렬 소프트웨어에서 정렬 결과의 정확도에 따라 추후의 유전체 분석의 정확도가 영향을 받는다. 이러한 특성 때문에 유전체 정렬 소프트웨어는 높은 정확성을 유지하며 빠르게 연산하는 것이 중요하다.
일반적으로 유전체 분석에는 하버드 브로드 연구소(Broad Institute)에서 개발한 유전체 분석 도구 키트(Genome Analysis Tool Kit, 이하 GATK)를 이용한 데이터 처리 방법을 표준으로 사용한다. 이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 소프트웨어이며, 2019년에 하버드 대학과 인텔(Intel)의 공동 연구로 BWA-MEM2가 개발됐다.
연구팀이 개발한 머신러닝 기반의 유전체 정렬 소프트웨어는 연산량을 대폭 줄이면서도 표준 유전체 정렬 소프트웨어 BWA-MEM2과 동일한 결과를 만들어 정확도를 유지했다. 사용한 머신러닝 기반의 인덱싱 기법은 주어진 데이터의 분포를 머신러닝 모델이 학습해, 데이터 분포에 최적화된 인덱싱을 찾는 방법론이다. 데이터에 적합하다고 생각되는 인덱싱 방법을 사람이 정하던 기존의 방법과 대비된다.
BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 연산이 필요하지만, 연구팀이 제안한 알고리즘은 머신러닝 기반의 인덱싱 기법(Learned-index)을 활용해, 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다. 연구팀이 제안한 인덱싱 기법은 기존 인덱싱 기법과 비교해 3.4배 정도 가속화됐고, 이로 인해 유전체 정렬 소프트웨어는 1.4 배 가속화됐다.
< 그림 1. 차세대 염기서열 분석 방법 (NGS)의 전체 과정. NGS 장비를 통해 분석하고자 하는 샘플의 DNA를 잘라서, 수 억개의 DNA 조각들을 생성한다. 생성된 DNA 조각들은 유전체 정렬 소프트웨어를 통해 참조 유전체에 맞춰 정렬이 이뤄진다. 전처리 작업이 완료된 시퀀싱 데이터는 다양한 유전체 분석 작업에 사용 된다. >
연구팀이 이번 연구에서 개발한 유전체 정렬 소프트웨어는 오픈소스 (https://github.com/kaist-ina/BWA-MEME)로 공개돼 많은 분야에 사용될 것으로 기대되며, 유전체 분석에서 사용되는 다양한 소프트웨어를 머신러닝 기술로 가속화하는 연구들의 초석이 될 것으로 기대된다.
한동수 교수는 "이번 연구를 통해 기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것을 보여줬으며, 앞으로 인공지능 기술을 활용해 전장 유전체 빅데이터 분석을 효율화, 고도화할 수 있을 것이라 기대된다ˮ고 말했다.
< 그림 2. 머신러닝 모델을 통해 유전체 조각의 위치를 예측하는 과정 모식도. Learned-index의 머신러닝 모델에 유전체 조각을 입력하면, 유전체 조각의 위치를 머신러닝 모델이 예측한다. 이어서 예측된 위치와 에러 값을 이용하여 이진 탐색 범위를 설정한다. 유전체 조각과 참조 유전체를 비교하며 이진 탐색을 진행하여 유전체 조각의 정확한 위치를 찾고, 찾은 위치들을 기반으로 유전체 정렬을 하게 된다. >
한편 이번 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 데이터 스테이션 구축·운영 사업으로서 수행됐다.
우리 대학이 과학기술정보통신부가 주관하는 '2022년 소프트웨어 중심대학' 2단계 사업에 선정됐다. 지난 2016년 1단계 소프트웨어 중심대학에 선정된 데 이어 연속으로 이뤄낸 성과다. 우리 대학은 소프트웨어 중심대학 2단계 사업 선정을 통해 올해부터 2027년까지 앞으로 6년간 약 110억(2022년 10억 원, 2023년부터 매년 20억 원)의 정부지원금을 받아 인공지능·소프트웨어 전문 인재를 양성한다. 특히, '포용적이고 글로벌한 인공지능‧소프트웨어 인재 양성'이라는 비전 아래 5대 운영 목표 및 6대 추진 전략, 33개 핵심 추진과제를 수립해 교육체계 및 제도를 혁신하고 소프트웨어 전공 교육과 융합교육을 강화할 계획이다. 지난 1단계 사업의 성공으로 소프트웨어 전공 학부생이 큰 폭으로 증가해 대형 강의의 비중이 증가했지만, 코로나19 팬데믹으로 인해 비대면 수업으로 전환되며 전면 원격강의로 운영한 바 있다. 이와 같은 상황에 유연하게 대비하기 위해 실
2022-05-04우리 대학 전기및전자공학부 이준구 교수 연구실 류주영, 이증락, Eyuel Elala 석사과정 학생으로 이뤄진 AI양자컴퓨팅 ITRC 양자소프트웨어 연구팀이 QHack 2022 오픈 해커톤 사이언스 챌린지(Open Hackathon Science Challenge)에서 1등상(First Place)을 수상했다. QHack 2022 Open Hackathon은 미국 Xanadu 사에서 주최하여, 총 100여 개 국가에서 250여 명이 참가한 세계 최대 규모의 양자소프트웨어 해커톤 행사다. IBM Quantum, AWS, CERN QTI, Google Quantum AI 등의 대회 스폰서가 챌린지를 제시하고, 주제에 맞는 프로젝트를 심사하여 우승팀을 선정하였다. 본 프로젝트는 총 13개 챌린지 중에 CERN QTI에서 제시한 사이언스 챌린지에서 1등상(First Place)을 받았다. 학생들은 'Learning Based Error Mitigation for VQE'라는 주제
2022-04-07우리 대학과 서울대학교병원(김연수 원장)은 오늘(2일) 「정밀의료 및 디지털헬스케어 기술 협력을 위한 업무협약」을 체결했다. 이는 우리 대학의 ‘우수 AI 기반 디지털 및 정밀의료 기술’과 서울대학교 병원의 ‘최신 의료 기반 임상 연구 역량’을 접목한 상호 협력체제를 구축하고자 올해 5월부터 추진됐다. 최근 급속한 인공지능(AI) 기술 발전에 따라 이를 의학 연구와 의료 현장에 적용할 필요성이 증가하는 가운데, 꾸준히 축적되는 환자의 의료 데이터를 더 체계적으로 분석하고자 한 뜻을 모았다. 이번 협약을 통해 정밀의료(암·희귀 난치성 질환) 및 AI 기반 디지털 헬스케어 시스템 구축을 위한 기술을 함께 개발하고, 연구역량 강화를 위한 공동 연구 과제를 발굴할 예정이다. 서울대학교병원 임상유전체의학과는 별도 협의체를 구성해 세부 방안을 논의할 계획이다. 양 기관은 AI 기반의 의료 빅데이터 연구를 통해 암·희
2021-12-02우리 대학 전산학부 학생 창업기업 엘리스(대표 김재원)가 모교에 발전기금 3억 원을 약정했다. 약정식은 11일 오후 서울 도곡캠퍼스에서 열렸다. 엘리스 관계자는 "이번 기부는 엘리스의 첫 번째 사회공헌 활동으로 여섯 번째 창립기념일인 11일에 약정식이 함께 열려 더욱 뜻깊은 날을 맞았다ˮ라고 설명했다. 우리 대학은 엘리스의 기부금을 전산학부 건물 증축에 사용해 소프트웨어 엔지니어를 길러낼 수 있는 학생 연구실·코딩 및 프로젝트 실습실·사회환원 교육 프로그램 장소 등을 마련할 예정이다. 엘리스는 김 대표를 주축으로 한 전산학부 연구실 동료들이 2015년 공동으로 창업한 스타트업이다. 2017년 인공지능이 코딩을 가르치는 디지털 교육 실습 플랫폼 서비스를 출시했다. 이후, SK, LG 등 재계 20위권 내 17개 기업을 포함해 대학과 정부 및 공공기관 등 100여 개의 회사가 직원 교육에 엘리스의 플랫폼을 도입했으며, 교육 이수자 20만 명, 평균
2021-11-15우리 대학이 우송대학교(총장 오덕성), 배재대학교(총장 김선재), 충남대학교(총장 이진숙)와 함께 ʻ제 6회 전국 고등학교 동아리 소프트웨어 경진대회ʼ를 6일 개최했다. 전국 고교생들이 소프트웨어를 통한 창의적인 문제해결 능력 및 협업 능력을 겨루는 대회로 우수 소프트웨어 인재를 육성하기 위해 2016년부터 매년 개최하고 있다. 올해 대회는 7월부터 참가 접수를 시작했으며, 일반고·특성화고·자율고·특목고 등 전국 고등학교 소프트웨어 동아리 학생 3~5명으로 구성된 71개 팀이 예선에서 경쟁했다. 각 팀은 ʻ소프트웨어를 통한 일상생활 속의 아이디어 실현ʼ을 주제로 기초 및 응용, 모바일앱, 임베디드 등 소프트웨어 전 분야에 해당하는 프로젝트 계획서를 제출해 평가받았다. 문제정의·아이디어의 창의성·소프트웨어 주요 기능의 명확성·계획의 일관성 등 네 가지 심사 항목에서 높은 점수를 받은 21개 팀이 8월 초
2021-11-08