< (왼쪽부터) 전기및전자공학부 한동수 교수, 정영목 박사과정 >
우리 대학 전기및전자공학부 한동수 교수 연구팀이 머신러닝(기계학습)에 기반한 *유전체 정렬 소프트웨어를 개발했다고 12일 밝혔다.
☞ 유전체(genome): 생명체가 가지고 있는 염기서열 정보의 총합이며, 유전자는 생물학적 특징을 발현하는 염기서열들을 지칭한다. 유전체를 한 권의 책이라고 비유하면 유전자는 공백을 제외한 모든 글자라고 비유할 수 있다.
차세대 염기서열 분석은 유전체 정보를 해독하는 방법으로 유전체를 무수히 많은 조각으로 잘라낸 후 각 조각을 참조 유전체(reference genome)에 기반해 조립하는 과정을 거친다. 조립된 유전체 정보는 암을 포함한 여러 질병의 예측과 맞춤형 치료, 백신 개발 등 다양한 분야에서 사용된다.
유전체 정렬 소프트웨어는 차세대 염기서열 분석 방법으로 생성한 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용되는 소프트웨어다. 유전체 정렬 작업에는 많은 연산이 들어가며, 속도를 높이고 비용을 낮추는 방법에 관한 관심이 계속해서 증가하고 있다. 머신러닝(기계학습) 기반의 인덱싱(색인) 기법(Learned-index)을 유전체 정렬 소프트웨어에 적용한 사례는 이번이 최초다.
전기및전자공학부 정영목 박사과정이 제1 저자로 참여한 이번 연구는 국제 학술지 `옥스포드 바이오인포메틱스(Oxford Bioinformatics)' 2022년 3월에 공개됐다. (논문명 : BWA-MEME: BWA-MEM emulated with a machine learning approach)
유전체 정렬 작업은 정렬해야 하는 유전체 조각의 양이 많고 참조 유전체의 길이도 길어 많은 연산량이 요구되는 작업이다. 또한, 유전체 정렬 소프트웨어에서 정렬 결과의 정확도에 따라 추후의 유전체 분석의 정확도가 영향을 받는다. 이러한 특성 때문에 유전체 정렬 소프트웨어는 높은 정확성을 유지하며 빠르게 연산하는 것이 중요하다.
일반적으로 유전체 분석에는 하버드 브로드 연구소(Broad Institute)에서 개발한 유전체 분석 도구 키트(Genome Analysis Tool Kit, 이하 GATK)를 이용한 데이터 처리 방법을 표준으로 사용한다. 이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 소프트웨어이며, 2019년에 하버드 대학과 인텔(Intel)의 공동 연구로 BWA-MEM2가 개발됐다.
연구팀이 개발한 머신러닝 기반의 유전체 정렬 소프트웨어는 연산량을 대폭 줄이면서도 표준 유전체 정렬 소프트웨어 BWA-MEM2과 동일한 결과를 만들어 정확도를 유지했다. 사용한 머신러닝 기반의 인덱싱 기법은 주어진 데이터의 분포를 머신러닝 모델이 학습해, 데이터 분포에 최적화된 인덱싱을 찾는 방법론이다. 데이터에 적합하다고 생각되는 인덱싱 방법을 사람이 정하던 기존의 방법과 대비된다.
BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 연산이 필요하지만, 연구팀이 제안한 알고리즘은 머신러닝 기반의 인덱싱 기법(Learned-index)을 활용해, 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다. 연구팀이 제안한 인덱싱 기법은 기존 인덱싱 기법과 비교해 3.4배 정도 가속화됐고, 이로 인해 유전체 정렬 소프트웨어는 1.4 배 가속화됐다.
< 그림 1. 차세대 염기서열 분석 방법 (NGS)의 전체 과정. NGS 장비를 통해 분석하고자 하는 샘플의 DNA를 잘라서, 수 억개의 DNA 조각들을 생성한다. 생성된 DNA 조각들은 유전체 정렬 소프트웨어를 통해 참조 유전체에 맞춰 정렬이 이뤄진다. 전처리 작업이 완료된 시퀀싱 데이터는 다양한 유전체 분석 작업에 사용 된다. >
연구팀이 이번 연구에서 개발한 유전체 정렬 소프트웨어는 오픈소스 (https://github.com/kaist-ina/BWA-MEME)로 공개돼 많은 분야에 사용될 것으로 기대되며, 유전체 분석에서 사용되는 다양한 소프트웨어를 머신러닝 기술로 가속화하는 연구들의 초석이 될 것으로 기대된다.
한동수 교수는 "이번 연구를 통해 기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것을 보여줬으며, 앞으로 인공지능 기술을 활용해 전장 유전체 빅데이터 분석을 효율화, 고도화할 수 있을 것이라 기대된다ˮ고 말했다.
< 그림 2. 머신러닝 모델을 통해 유전체 조각의 위치를 예측하는 과정 모식도. Learned-index의 머신러닝 모델에 유전체 조각을 입력하면, 유전체 조각의 위치를 머신러닝 모델이 예측한다. 이어서 예측된 위치와 에러 값을 이용하여 이진 탐색 범위를 설정한다. 유전체 조각과 참조 유전체를 비교하며 이진 탐색을 진행하여 유전체 조각의 정확한 위치를 찾고, 찾은 위치들을 기반으로 유전체 정렬을 하게 된다. >
한편 이번 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 데이터 스테이션 구축·운영 사업으로서 수행됐다.
강유전체는 메모리 소자에서 전하를 잘 저장하기 때문에 "전기를 기억하는 소재"와 같다는 특성으로 차세대 반도체 기술 개발에 있어 핵심 소재로 부각되고 있다. 우리 연구진이 이러한 강유전체 소재를 활용해 현재 메모리 반도체 산업의 양대 산맥인 디램(DRAM)과 낸드 플래시(NAND Flash) 메모리의 한계를 극복한 고성능, 고집적 차세대 메모리 소자를 개발하는데 성공했다. 우리 대학 전상훈 교수 연구팀이 하프니아 강유전체 소재*를 활용한 차세대 메모리 및 스토리지 메모리 기술을 개발했다고 6일 밝혔다. *하프니아 강유전체 소재: 비휘발성 절연막으로, CMOS 공정 호환성, 동작 속도, 내구성 등의 우수한 물리적 특성을 바탕으로 차세대 반도체의 핵심 소재로 활발하게 연구되고 있는 물질 디램 메모리는 우리가 스마트폰, 컴퓨터, USB 등에서 사용하는 데이터를 저장하는 휘발성 메모리다. 휘발성 특성으로 인해, 외부 전력이 끊어지면 저장된 데이터가 손실되지만, 공정 단가가 낮
2025-01-06“우리 대학은 전산학 전문지식이 부족한 개발자의 역량 개발부터 전문 고급 인력양성까지 다양한 교육 기회를 제공하며, 대한민국 AI 인재 100만 명 양성을 위한 원대한 목표 달성을 위해 앞장서 왔습니다. 대통령 표창이라는 쾌거를 이룬 데에 힘써주신 모든 구성원께 감사드립니다.” (이광형 총장) 우리 대학이 2일(월) 서울 양재 엘타워에서 열린 ‘2024년 소프트웨어 산업인의 날’ 기념식에서 소프트웨어 산업발전 유공 단체 부문에 선정되어 대통령 표창을 수상했다고 3일 밝혔다. 과학기술정보통신부가 주최하고 정보통신산업진흥원과 한국소프트웨어산업협회가 주관하는 ‘소프트웨어 산업인의 날’은 우리나라 소프트웨어 산업인의 위상을 고취하고 그 공로를 치하하고자 마련된 행사다. 매년 산업 활성화를 위한 정책 개발, 인력양성, 수출 증대 등에 공헌이 큰 유공자를 선발해 ‘소프트웨어 산업발전 유공 포상&rsquo
2024-12-02우리 대학 문화기술대학원(학과장 이성희)이 레드브릭(대표 양영모)과 손잡고 인공지능 소프트웨어 창작 서비스 개발을 위한 양해각서(MOU)를 체결했다. 이번 협약은 생성형 인공지능 콘텐츠(AIGC) 기술을 기반으로 다양한 협력을 목표로 한다. 양 기관은 이번 협약을 통해 ▲생성형 인공지능 콘텐츠(AIGC) 기술 개발 협력, ▲글로벌 상용화를 위한 기술 협력, ▲산학협력을 통한 인공지능 전문 인재 양성 프로그램 개발 및 운영, ▲양 기관의 상호 발전을 위한 협력을 진행하기로 합의했다. 특히, AIGC 기술의 연구와 개발을 통해 전 세계적으로 상용화할 수 있는 새로운 콘텐츠 창작 기술을 마련하고, 창의적이고 혁신적인 소프트웨어 서비스를 제공하는 것을 목표로 하고 있다. 양 기관은 이미 2024년 문화체육관광부 연구개발사업 프로젝트로 선정된 '공간 인터페이스 기반 가상공간 자동생성 및 지능형 에디터 기술 개발' 과제에서 컨소시엄을 구성하여 협력하고 있다. 이 프로젝트는 가상공간을 자
2024-10-11컴퓨터 시스템을 작동시키기 위해서는 소프트웨어를 작성해야 하는데 그때 필요한 언어가 바로 프로그래밍 언어이다. 실행속도도 빠르고 유지보수도 쉬운 언어가 C언어인데 메모리 할당 및 관리 등에 치명적인 문제점을 가지고 있다. 이런 문제를 해결하기 위해 개발된 프로그래밍 언어는 러스트이다. 미국 백악관이나 국방성에서 메모리 문제를 막기 위해 러스트같이 안전한 언어 사용을 촉구하고 있는데 우리 대학 연구진이 C-러스트 코드 번역 기술을 이미 선제적으로 개발하고 선도하고 있어 화제다. 우리 대학 전산학부 류석영 교수 연구팀(프로그래밍 언어 연구실)이 C언어의 유니언(union)*을 러스트의 태그드 유니언(tagged union)으로 변환하는 기술을 세계 최초로 개발했다고 13일 밝혔다. *유니언: 여러 종류의 데이터를 같은 공간에 보관해 메모리 효율을 높이는 C언어의 핵심 기능이다. 그러나 보관된 데이터가 어떤 종류인지 구분하지 않아 메모리 문제를 일으킬 수 있다. **태그드
2024-08-13우리 몸의 세포는 평생 동안 DNA 돌연변이를 지속적으로 축적하며, 이는 세포 간의 유전적 다양성(모자이시즘) 및 세포 노화를 초래한다. 한국 연구진이 세포소기관 미토콘드리아 DNA의 인체 내 모자이시즘 현상을 최초로 규명했다. 우리 대학 의과학대학원 주영석 교수 연구팀 안지송 박사과정이 미토콘드리아 DNA 돌연변이 연구를 주도해 국제 과학학술지 ‘네이처 지네틱스(Nature Genetics)’ 7월 22일 字 온라인판에 게재했다고 24일 밝혔다. (논문명: Mitochondrial DNA mosaicism in normal human somatic cells). 이번 연구에는 서울대학교 의과대학, 연세대학교 의과대학, 고려대학교 의과대학, 국립암센터, 그리고 KAIST 교원창업기업 이노크라스의 연구자들도 참여했다. 미토콘드리아는 세포 에너지 대사 및 사멸에 관여하는 세포소기관으로, 세포핵과 독립적으로 자체 DNA를 가지고 있으며 돌연변이도
2024-07-24