본문 바로가기 대메뉴 바로가기

연구

세계 최초 개인정보 보호 기술이 적용된 인공지능(AI) 반도체 개발​
조회수 : 1830 등록일 : 2022-08-19 작성자 : 홍보실

(왼쪽부터) 전기및전자공학부 유민수 교수, 박범식 석사과정, 황랑기 박사과정, 윤동호 박사과정, 최윤혁 석사과정

< (왼쪽부터) 전기및전자공학부 유민수 교수, 박범식 석사과정, 황랑기 박사과정, 윤동호 박사과정, 최윤혁 석사과정 >

우리 대학 전기및전자공학부 유민수 교수 연구팀이 세계 최초로 `차등 프라이버시 기술이 적용된 인공지능(AI) 어플리케이션(Differentially private machine learning)'의 성능을 비약적으로 높이는 인공지능 반도체를 개발했다고 19일 밝혔다. 

빅데이터 및 인공지능 기술의 발전과 함께 구글, 애플, 마이크로소프트 등 클라우드 서비스를 제공하는 기업들은 전 세계 수십억 명의 사용자들에게 인공지능 기술을 기반으로 여러 가지 서비스(머신러닝 애즈 어 서비스, ML-as-a-Service, MLaaS)를 제공하고 있다. 이러한 서비스 중에는, 대표적으로 유튜브나 페이스북 등에서 시청자의 개별 취향에 맞춰 동영상 콘텐츠나 상품 등을 추천하는 `개인화 추천 시스템 기술(- 딥러닝 추천 모델, Deep Learning Recommendation Model)' 이나, 구글 포토(Photo) 와 애플 아이클라우드(iCloud) 등에서 사진을 인물 별로 분류해주는 `안면 인식 기술 (- 합성곱 신경망 네트워크 안면 인식, Convolutional Neural Network based Face Recognition)' 등이 있다. 

이와 같은 서비스는 사용자의 정보를 대량으로 수집해, 이를 기반으로 인공지능 알고리즘의 정확도와 성능을 개선한다. 이 과정에서 필연적으로 많은 양의 사용자 정보가 서비스 제공 기업의 데이터 센터로 전송되고, 민감한 개인정보나 파일들이 저장되고 사용되는 과정에서 정보가 유출되는 문제가 발생하기도 한다. 

또한 이러한 문제는 최근 주목받는 대형 인공지능 모델의 경우에 더 쉽게 발생하는 경향이 있으며, 실제 구글에서 사용하는 대화형 인공지능 모델인 GPT-2의 경우, 특정 단어들을 이야기했을 때 사용자의 개인정보 등을 유출하는 문제를 보였다. [참고1] 유사사례로서 국내에서 2020년 화제가 되었던 스캐터랩의 인공지능 챗봇 이루다의 경우에도 비슷한 문제가 불거진 적이 있다. [참고2]

[참고1] https://ai.googleblog.com/2020/12/privacy-considerations-in-large.html

[참고2] https://n.news.naver.com/mnews/article/092/0002243051?sid=105

그림 1. 구글의 GPT-2 모델 특정 입력에 대해 사용자 개인정보를 유출하는 사례. 모델에 특정 주소 (East Stroudsburg Stroudsburg) 로 시작하는 문장을 만들어 달라고 요청하자, 해당 주소와 관련된 실제 서비스 사용자의 개인정보(이메일, 주소, 회사, 전화번호 등)를 반환하는 모습이다 (검게 칠해진 부분은 실제 개인정보이기 때문에 해당 기사에서는 가려져 있음).

< 그림 1. 구글의 GPT-2 모델이 특정 입력에 대해 사용자 개인정보를 유출하는 사례. 모델에 특정 주소 (East Stroudsburg Stroudsburg) 로 시작하는 문장을 만들어 달라고 요청하자, 해당 주소와 관련된 실제 서비스 사용자의 개인정보(이메일, 주소, 회사, 전화번호 등)를 반환하는 모습이다 (검게 칠해진 부분은 실제 개인정보이기 때문에 해당 기사에서는 가려져 있음) >

이에 애플, 구글, 마이크로소프트 등 빅 테크 기업에서는 `차등 프라이버시 (differential privacy)' 기술을 크게 주목하고 있다. 차등 프라이버시 기술은 학습에 사용되는 그라디언트(gradient, 학습 방향 기울기)에 잡음(노이즈)를 섞음으로써 인공지능 모델로부터 사용자의 개인정보를 유출하는 모든 종류의 공격을 방어할 수 있다. 

하지만 이러한 장점에도 불구하고, 차등 프라이버시 기술 적용 시, 기존 대비 어플리케이션의 속도와 성능이 크게 하락하는 문제 때문에 아직까지 범용적으로 널리 적용되지는 못했다. 이는 차등 프라이버시 머신러닝 학습 과정이 일반적인 머신러닝 학습과 다른 특성을 보이고, 이로 인해 기존의 하드웨어에서 효과적으로 실행되지 않아 메모리 사용량, 학습 속도 및 하드웨어 활용도 (hardware utilization) 측면에서 비효율적이기 때문이다.

그림 2. 유민수 교수팀이 개발한 ‘개인정보 보호 인공지능 AI 반도체 가속기’의 구조 모식도

< 그림 2. 유민수 교수팀이 개발한 개인정보 보호 인공지능 AI 반도체 가속기의 구조 모식도 >

그림 3. 인공지능(AI) 반도체 가속기의 구조

< 그림 3. 인공지능(AI) 반도체 가속기의 구조 >

이에 유민수 교수 연구팀은 차등 프라이버시 기술의 성능 병목 구간을 분석해 해당 기술이 적용된 어플리케이션의 성능을 크게 시킬 수 있는 `차등 프라이버시 머신러닝을 위한 인공지능(AI) 반도체 칩'을 개발했다. 유민수 교수팀이 개발한 인공지능 반도체는 외적 기반 연산기와 덧셈기 트리 기반의 후처리 연산기 등으로 구성돼 있으며, 현재 가장 널리 사용되는 인공지능 프로세서인 구글 TPUv3 대비 차등 프라이버시 인공지능 학습 과정을 3.6 배 빠르게 실행시킬 수 있고, 엔비디아의 최신 GPU A100 대비 10배 적은 자원으로 대등한 성능을 보인다고 연구팀 관계자는 설명했다. 또한 이번 개발을 통해서 기존 하드웨어의 한계로 널리 쓰이지 못했던 차등 정보보호 기술의 대중화에 도움을 줄 수 있을 것으로 기대된다고 전했다. 

우리 대학 전기및전자공학부 박범식, 황랑기 연구원이 공동 제1 저자로, 윤동호, 최윤혁 연구원이 공동 저자로 참여한 이번 연구는 미국 시카고에서 열리는 컴퓨터 구조 분야 최우수 국제 학술대회인 `55th IEEE/ACM International Symposium on Microarchitecture(MICRO 2022)'에서 오늘 10월 발표될 예정이다. (논문명 : DiVa: An Accelerator for Differentially Private Machine Learning) 

또한 이번 연구는 지금까지는 없던 차등 프라이버시가 적용된 인공지능 반도체를 세계 최초로 개발했다는 점에서 의의가 있으며, 차등 프라이버시 인공지능 기술을 대중화해 인공지능 기반 서비스 사용자들의 개인정보를 보호하는 데에 큰 도움을 줄 수 있을 것으로 보인다. 또한, 가속기의 성능 향상은 인공지능 연구 효율을 높여 차등 프라이버시 인공지능 모델의 정확도 개선에도 기여할 것으로 보인다. 

한편 이번 연구는 한국연구재단, 삼성전자, 그리고 반도체설계교육센터 (IDEC, IC Design Education Center)의 지원을 받아 수행됐다.

관련뉴스