< (왼쪽부터) 전기및전자공학부 한동수 교수, 정영목 박사과정 >
우리 대학 전기및전자공학부 한동수 교수 연구팀이 머신러닝(기계학습)에 기반한 *유전체 정렬 소프트웨어를 개발했다고 12일 밝혔다.
☞ 유전체(genome): 생명체가 가지고 있는 염기서열 정보의 총합이며, 유전자는 생물학적 특징을 발현하는 염기서열들을 지칭한다. 유전체를 한 권의 책이라고 비유하면 유전자는 공백을 제외한 모든 글자라고 비유할 수 있다.
차세대 염기서열 분석은 유전체 정보를 해독하는 방법으로 유전체를 무수히 많은 조각으로 잘라낸 후 각 조각을 참조 유전체(reference genome)에 기반해 조립하는 과정을 거친다. 조립된 유전체 정보는 암을 포함한 여러 질병의 예측과 맞춤형 치료, 백신 개발 등 다양한 분야에서 사용된다.
유전체 정렬 소프트웨어는 차세대 염기서열 분석 방법으로 생성한 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용되는 소프트웨어다. 유전체 정렬 작업에는 많은 연산이 들어가며, 속도를 높이고 비용을 낮추는 방법에 관한 관심이 계속해서 증가하고 있다. 머신러닝(기계학습) 기반의 인덱싱(색인) 기법(Learned-index)을 유전체 정렬 소프트웨어에 적용한 사례는 이번이 최초다.
전기및전자공학부 정영목 박사과정이 제1 저자로 참여한 이번 연구는 국제 학술지 `옥스포드 바이오인포메틱스(Oxford Bioinformatics)' 2022년 3월에 공개됐다. (논문명 : BWA-MEME: BWA-MEM emulated with a machine learning approach)
유전체 정렬 작업은 정렬해야 하는 유전체 조각의 양이 많고 참조 유전체의 길이도 길어 많은 연산량이 요구되는 작업이다. 또한, 유전체 정렬 소프트웨어에서 정렬 결과의 정확도에 따라 추후의 유전체 분석의 정확도가 영향을 받는다. 이러한 특성 때문에 유전체 정렬 소프트웨어는 높은 정확성을 유지하며 빠르게 연산하는 것이 중요하다.
일반적으로 유전체 분석에는 하버드 브로드 연구소(Broad Institute)에서 개발한 유전체 분석 도구 키트(Genome Analysis Tool Kit, 이하 GATK)를 이용한 데이터 처리 방법을 표준으로 사용한다. 이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 소프트웨어이며, 2019년에 하버드 대학과 인텔(Intel)의 공동 연구로 BWA-MEM2가 개발됐다.
연구팀이 개발한 머신러닝 기반의 유전체 정렬 소프트웨어는 연산량을 대폭 줄이면서도 표준 유전체 정렬 소프트웨어 BWA-MEM2과 동일한 결과를 만들어 정확도를 유지했다. 사용한 머신러닝 기반의 인덱싱 기법은 주어진 데이터의 분포를 머신러닝 모델이 학습해, 데이터 분포에 최적화된 인덱싱을 찾는 방법론이다. 데이터에 적합하다고 생각되는 인덱싱 방법을 사람이 정하던 기존의 방법과 대비된다.
BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 연산이 필요하지만, 연구팀이 제안한 알고리즘은 머신러닝 기반의 인덱싱 기법(Learned-index)을 활용해, 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다. 연구팀이 제안한 인덱싱 기법은 기존 인덱싱 기법과 비교해 3.4배 정도 가속화됐고, 이로 인해 유전체 정렬 소프트웨어는 1.4 배 가속화됐다.
< 그림 1. 차세대 염기서열 분석 방법 (NGS)의 전체 과정. NGS 장비를 통해 분석하고자 하는 샘플의 DNA를 잘라서, 수 억개의 DNA 조각들을 생성한다. 생성된 DNA 조각들은 유전체 정렬 소프트웨어를 통해 참조 유전체에 맞춰 정렬이 이뤄진다. 전처리 작업이 완료된 시퀀싱 데이터는 다양한 유전체 분석 작업에 사용 된다. >
연구팀이 이번 연구에서 개발한 유전체 정렬 소프트웨어는 오픈소스 (https://github.com/kaist-ina/BWA-MEME)로 공개돼 많은 분야에 사용될 것으로 기대되며, 유전체 분석에서 사용되는 다양한 소프트웨어를 머신러닝 기술로 가속화하는 연구들의 초석이 될 것으로 기대된다.
한동수 교수는 "이번 연구를 통해 기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것을 보여줬으며, 앞으로 인공지능 기술을 활용해 전장 유전체 빅데이터 분석을 효율화, 고도화할 수 있을 것이라 기대된다ˮ고 말했다.
< 그림 2. 머신러닝 모델을 통해 유전체 조각의 위치를 예측하는 과정 모식도. Learned-index의 머신러닝 모델에 유전체 조각을 입력하면, 유전체 조각의 위치를 머신러닝 모델이 예측한다. 이어서 예측된 위치와 에러 값을 이용하여 이진 탐색 범위를 설정한다. 유전체 조각과 참조 유전체를 비교하며 이진 탐색을 진행하여 유전체 조각의 정확한 위치를 찾고, 찾은 위치들을 기반으로 유전체 정렬을 하게 된다. >
한편 이번 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 데이터 스테이션 구축·운영 사업으로서 수행됐다.
인간 유전체 중 일반적인 단백질 생성 유전자는 전체 염기서열의 1% 정도에 불과하며 나머지 99%의 유전체 영역은 그 기능이 뚜렷하게 알려지지 않아 ‘쓸모없는 DNA’라는 뜻으로 ‘정크 DNA’라고 불리고 있다. 정크 DNA 가운데 약 1/6을 차지하는 L1 점핑 유전자는 활성화될 경우 세포의 유전정보를 파괴하거나 교란하는 역할을 할 수 있어 사람의 진화 과정에서 불활성화(화석화) 됐다고 알려져 있었다. 하지만 이번 연구에서 L1 점핑 유전자가 활성화되며, 노화와 발암 과정에 연관이 있음을 처음 확인하였다. 우리 대학 의과학대학원 주영석 교수 연구팀이 서울대학교병원 외과 김민정 교수, 고려대학교 의과대학 권현우 교수팀과의 공동연구로 ‘L1 점핑 유전자’의 활성화에 의한 사람 대장 상피 세포의 유전체 파괴 현상을 규명했다고 15일 밝혔다. 의과학대학원 남창현 박사과정과 육정환 박사(現 서울대병원 내과 임상조교수)
2023-05-15파킨슨병은 60세 이상 인구의 1.2% 이상 발병하는 흔한 퇴행성 뇌 질환으로 급격한 인구 고령화에 따라 전 세계적으로 발병률이 증가하고 있어, 2040년 약 1,420만 명의 환자가 발병할 것으로 예측되고 있다. 현재 파킨슨병의 다양한 발병 원인이 명확하게 규명되지 않은 상황에서, 비정상적으로 발생하는 후성 유전학적 특징들이 파킨슨병 발병에 관여하는 것을 최초로 확인되어 화제다. 우리 대학 생명과학과 정인경 교수 연구팀이 미국 국립보건원(National Institute of Health, NIH) 산하 국립노화연구소(National Institute on Aging, NIA) 엘리에자 매슬리아(Eliezer Masliah) 교수와의 공동연구를 통해 전 세계 최초로 파킨슨병 발병 뇌 조직의 단일세포 3차원 후성유전체 지도를 작성하고, 이를 토대로 656개의 파킨슨병 연관 신규 유전자들을 제시했다고 8일 밝혔다. 이번 연구에서 연구팀은 최신 개발된 단일세포 유전체 기술과
2023-05-08우리 대학 전기및전자공학부 전상훈 교수 연구팀이 `음의 정전용량 효과(Negative Capacitance Effect, 이하 NC 효과)*'를 활용해 기존 플래시 메모리의 물리적 성능 한계를 뛰어넘는 음의 정전용량 플래시 메모리 (NC-Flash Memory)를 세계 최초로 개발했다고 18일 밝혔다. *음의 정전용량 효과: 음의 정전용량 현상은 인가되는 전압이 증가하면 전하량이 감소함을 의미한다. 음의 정전용량 특성을 가지는 유전체 사용시, 트랜지스터에 인가되는 전압을 내부적으로 증폭하여 상대적으로 낮은 동작전압을 사용할 수 있어, 파워소모를 줄일 수 있다. 전기및전자공학부 김태호 박사과정과 김기욱 박사과정이 공동 제1 저자로 수행한 이번 연구는 저명 국제 학술지 `어드밴스드 펑셔널 머터리얼즈(Advanced Functional Materials)' 2022년 12월호에 출판됐다. (논문명 : The Opportunity of Negative Capacitance Beha
2023-01-18우리 대학 전기및전자공학부 전상훈 교수 연구팀이 하프니아 강유전체 소재의 물성적 이해를 바탕으로 반도체 3D 집적 공정에서도 열적으로 안정한 *강유전체 소재를 세계 최초로 개발했다고 12일 밝혔다. 현재 반도체 제조 업계에서 고집적, 고효율의 3D 메모리 소자에 대한 필요성이 꾸준하게 대두되고 있다는 점을 고려할 때, 이번 연구는 강유전체 기반의 3D 메모리 집적 공정에서 핵심 기술로 평가받을 것이라 예상된다. *강유전체: 외부의 전기장 없이도 스스로 분극을 가지는 재료로서 외부 전기장에 의해 분극의 방향이 바뀔 수 있는 소재를 말한다. 비휘발성 특성이 있어, 기능성 소재로서 메모리 소자에 활용이 가능하지만, 고온에서 열적으로 안정성을 확보해야하는 도전 목표가 남아 있으며, 일반 유전체를 일컫는 상유전체는 외부의 전기장이 없으면 분극 특성을 유지하지 못한다는 점에서 다르다. 하프니아 강유전체 소재는 비휘발성 절연막으로, CMOS 공정 호환성, 동작 속도, 내구성 등의
2022-12-12우리 대학 전기및전자공학부 원유집 교수가 지난 11월 4일에 종료된 한국정보과학회 차기회장 선거에서 2023년도 차기회장에 당선됐다. 원유집 교수는 2024년 1년동안 제 39대 정보과학회 회장으로 임무를 수행하게 된다. 원유집 교수는 운영체제, 특히 스토리지 시스템 분야에서 세계적인 권위자다. 한국정보과학회는 컴퓨터/소프트웨어 분야 명실상부한 국내 최고 권위의 학술단체다. 1973년에 창립됐으며 웹 회원을 포함 4만2천여 회원과 437개 특별/단체회원, 연 72회의 정기간행물 및 50여 회의 학술행사를 주관, 주최하고 있다.
2022-11-15