< (왼쪽부터) 전기및전자공학부 한동수 교수, 정영목 박사과정 >
우리 대학 전기및전자공학부 한동수 교수 연구팀이 머신러닝(기계학습)에 기반한 *유전체 정렬 소프트웨어를 개발했다고 12일 밝혔다.
☞ 유전체(genome): 생명체가 가지고 있는 염기서열 정보의 총합이며, 유전자는 생물학적 특징을 발현하는 염기서열들을 지칭한다. 유전체를 한 권의 책이라고 비유하면 유전자는 공백을 제외한 모든 글자라고 비유할 수 있다.
차세대 염기서열 분석은 유전체 정보를 해독하는 방법으로 유전체를 무수히 많은 조각으로 잘라낸 후 각 조각을 참조 유전체(reference genome)에 기반해 조립하는 과정을 거친다. 조립된 유전체 정보는 암을 포함한 여러 질병의 예측과 맞춤형 치료, 백신 개발 등 다양한 분야에서 사용된다.
유전체 정렬 소프트웨어는 차세대 염기서열 분석 방법으로 생성한 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용되는 소프트웨어다. 유전체 정렬 작업에는 많은 연산이 들어가며, 속도를 높이고 비용을 낮추는 방법에 관한 관심이 계속해서 증가하고 있다. 머신러닝(기계학습) 기반의 인덱싱(색인) 기법(Learned-index)을 유전체 정렬 소프트웨어에 적용한 사례는 이번이 최초다.
전기및전자공학부 정영목 박사과정이 제1 저자로 참여한 이번 연구는 국제 학술지 `옥스포드 바이오인포메틱스(Oxford Bioinformatics)' 2022년 3월에 공개됐다. (논문명 : BWA-MEME: BWA-MEM emulated with a machine learning approach)
유전체 정렬 작업은 정렬해야 하는 유전체 조각의 양이 많고 참조 유전체의 길이도 길어 많은 연산량이 요구되는 작업이다. 또한, 유전체 정렬 소프트웨어에서 정렬 결과의 정확도에 따라 추후의 유전체 분석의 정확도가 영향을 받는다. 이러한 특성 때문에 유전체 정렬 소프트웨어는 높은 정확성을 유지하며 빠르게 연산하는 것이 중요하다.
일반적으로 유전체 분석에는 하버드 브로드 연구소(Broad Institute)에서 개발한 유전체 분석 도구 키트(Genome Analysis Tool Kit, 이하 GATK)를 이용한 데이터 처리 방법을 표준으로 사용한다. 이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 소프트웨어이며, 2019년에 하버드 대학과 인텔(Intel)의 공동 연구로 BWA-MEM2가 개발됐다.
연구팀이 개발한 머신러닝 기반의 유전체 정렬 소프트웨어는 연산량을 대폭 줄이면서도 표준 유전체 정렬 소프트웨어 BWA-MEM2과 동일한 결과를 만들어 정확도를 유지했다. 사용한 머신러닝 기반의 인덱싱 기법은 주어진 데이터의 분포를 머신러닝 모델이 학습해, 데이터 분포에 최적화된 인덱싱을 찾는 방법론이다. 데이터에 적합하다고 생각되는 인덱싱 방법을 사람이 정하던 기존의 방법과 대비된다.
BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 연산이 필요하지만, 연구팀이 제안한 알고리즘은 머신러닝 기반의 인덱싱 기법(Learned-index)을 활용해, 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다. 연구팀이 제안한 인덱싱 기법은 기존 인덱싱 기법과 비교해 3.4배 정도 가속화됐고, 이로 인해 유전체 정렬 소프트웨어는 1.4 배 가속화됐다.
< 그림 1. 차세대 염기서열 분석 방법 (NGS)의 전체 과정. NGS 장비를 통해 분석하고자 하는 샘플의 DNA를 잘라서, 수 억개의 DNA 조각들을 생성한다. 생성된 DNA 조각들은 유전체 정렬 소프트웨어를 통해 참조 유전체에 맞춰 정렬이 이뤄진다. 전처리 작업이 완료된 시퀀싱 데이터는 다양한 유전체 분석 작업에 사용 된다. >
연구팀이 이번 연구에서 개발한 유전체 정렬 소프트웨어는 오픈소스 (https://github.com/kaist-ina/BWA-MEME)로 공개돼 많은 분야에 사용될 것으로 기대되며, 유전체 분석에서 사용되는 다양한 소프트웨어를 머신러닝 기술로 가속화하는 연구들의 초석이 될 것으로 기대된다.
한동수 교수는 "이번 연구를 통해 기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것을 보여줬으며, 앞으로 인공지능 기술을 활용해 전장 유전체 빅데이터 분석을 효율화, 고도화할 수 있을 것이라 기대된다ˮ고 말했다.
< 그림 2. 머신러닝 모델을 통해 유전체 조각의 위치를 예측하는 과정 모식도. Learned-index의 머신러닝 모델에 유전체 조각을 입력하면, 유전체 조각의 위치를 머신러닝 모델이 예측한다. 이어서 예측된 위치와 에러 값을 이용하여 이진 탐색 범위를 설정한다. 유전체 조각과 참조 유전체를 비교하며 이진 탐색을 진행하여 유전체 조각의 정확한 위치를 찾고, 찾은 위치들을 기반으로 유전체 정렬을 하게 된다. >
한편 이번 연구는 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 데이터 스테이션 구축·운영 사업으로서 수행됐다.
컴퓨터 시스템을 작동시키기 위해서는 소프트웨어를 작성해야 하는데 그때 필요한 언어가 바로 프로그래밍 언어이다. 실행속도도 빠르고 유지보수도 쉬운 언어가 C언어인데 메모리 할당 및 관리 등에 치명적인 문제점을 가지고 있다. 이런 문제를 해결하기 위해 개발된 프로그래밍 언어는 러스트이다. 미국 백악관이나 국방성에서 메모리 문제를 막기 위해 러스트같이 안전한 언어 사용을 촉구하고 있는데 우리 대학 연구진이 C-러스트 코드 번역 기술을 이미 선제적으로 개발하고 선도하고 있어 화제다. 우리 대학 전산학부 류석영 교수 연구팀(프로그래밍 언어 연구실)이 C언어의 유니언(union)*을 러스트의 태그드 유니언(tagged union)으로 변환하는 기술을 세계 최초로 개발했다고 13일 밝혔다. *유니언: 여러 종류의 데이터를 같은 공간에 보관해 메모리 효율을 높이는 C언어의 핵심 기능이다. 그러나 보관된 데이터가 어떤 종류인지 구분하지 않아 메모리 문제를 일으킬 수 있다. **태그드
2024-08-13우리 몸의 세포는 평생 동안 DNA 돌연변이를 지속적으로 축적하며, 이는 세포 간의 유전적 다양성(모자이시즘) 및 세포 노화를 초래한다. 한국 연구진이 세포소기관 미토콘드리아 DNA의 인체 내 모자이시즘 현상을 최초로 규명했다. 우리 대학 의과학대학원 주영석 교수 연구팀 안지송 박사과정이 미토콘드리아 DNA 돌연변이 연구를 주도해 국제 과학학술지 ‘네이처 지네틱스(Nature Genetics)’ 7월 22일 字 온라인판에 게재했다고 24일 밝혔다. (논문명: Mitochondrial DNA mosaicism in normal human somatic cells). 이번 연구에는 서울대학교 의과대학, 연세대학교 의과대학, 고려대학교 의과대학, 국립암센터, 그리고 KAIST 교원창업기업 이노크라스의 연구자들도 참여했다. 미토콘드리아는 세포 에너지 대사 및 사멸에 관여하는 세포소기관으로, 세포핵과 독립적으로 자체 DNA를 가지고 있으며 돌연변이도
2024-07-24약 20년 전 아주 작은 나노 크기 0차원 강유전체 내부에 특이한 형태의 분극 분포가 발생할 수 있음이 로랑 벨라이쉬(Laurent Bellaiche) 교수(現 미국 아칸소대 물리학과 교수) 연구진에 의해 이론적으로 예측됐다. 해당 소용돌이 분포를 적절히 제어하면 기존에 비해 10,000배 이상 높은 용량의 초고밀도 메모리 소자로 응용이 가능할 것이라는 가능성이 제시돼 학계의 이목을 끌었으나, 3차원 분극 분포 측정의 어려움으로 인해 실험적인 규명이 되지 못하고 있었다. 우리 대학 물리학과 양용수 교수 연구팀이 포항공과대학교, 서울대학교, 한국기초과학지원연구원과의 공동연구 및 미국 로런스 버클리 국립연구소, 아칸소대학교 연구진과의 국제협력 연구를 통해 나노강유전체 내부의 3차원 소용돌이 형태 분극 분포를 최초로 실험적으로 규명하였다고 30일 밝혔다. 영구자석과 같이 외부의 자기장이 없어도 자화 상태를 스스로 유지할 수 있는 물질들을 강자성체(ferromagnet)라 하고,
2024-05-30제30회 삼성휴먼테크논문대상에서 우리 대학 물리학과 정채화 학생(지도교수 : 물리학과 양용수 교수)이 기초과학분야 은상을 수상했다. 삼성휴먼테크논문대상은 과학기술 분야의 주역이 될 젊고 우수한 과학자를 발굴하기 위해 1994년부터 시행 중이며 과학기술정보통신부와 중앙일보가 공동 후원하고 있다. 이번 제30회 대회에는 총 1189편의 논문이 접수되었으며, 797명에 달하는 전문가들이 심사를 진행하였다. 정채화 학생은 2000년대 초반 이론적으로만 예측되었으나 20년 이상 풀리지 않았던 난제인 0차원 강유전체에서의 위상학적 분극 정렬을 세계 최초로 실험적으로 규명하였다. 영구자석과 같이 외부의 자기장이 없어도 자화 상태를 스스로 유지할 수 있는 물질들을 강자성체(ferromagnet)라 하고, 강유전체(ferroelectric)는 외부의 전기장 없어도 분극상태를 유지할 수 있는 물질로서 강자성체의 전기(electric) 버전이라고 생각하면 된다. 강자성체(자석)의 경우 나노크
2024-04-04차세대 반도체 메모리의 소재로 주목을 받고 있는 강유전체는 차세대 메모리 소자 혹은 작은 물리적 변화를 감지하는 센서로 활용되는 등 그 중요성이 커지고 있다. 이에 반도체의 핵심 소자가 되는 강유전체를 화학물질없이 식각할 수 있는 연구를 성공해 화제다. 우리 대학 신소재공학과 홍승범 교수가 제네바 대학교와 국제공동연구를 통해 강유전체 표면의 비대칭 마멸* 현상을 세계 최초로 관찰 및 규명했고, 이를 활용해 혁신적인 나노 패터닝 기술**을 개발했다고 26일 밝혔다. *마멸: 물체 표면의 재료가 점진적으로 손실 또는 제거되는 현상 **나노 패터닝 기술: 나노스케일로 소재의 표면에 정밀한 패턴을 생성하여 다양한 첨단 기술 분야에서 제품 성능을 향상시키는데 사용되는 기술 연구팀은 강유전체 소재의 표면 특성에 관한 연구에 집중했다. 이들은 원자간력 현미경(Atomic Force Microscopy)을 활용해 다양한 강유전체의 트라이볼로지(Tribology, 마찰 및 마모) 현상
2024-03-26