인공지능과 생명공학의 결합 - ingongjineung-gwa saengmyeong-gonghag-ui gyeolhab

인공지능과 생명공학의 결합 - ingongjineung-gwa saengmyeong-gonghag-ui gyeolhab

(AI타임스=윤광제 기자) 금융 분석가들은 인공지능 (AI)과 생명공학의 엄청난 잠재력을 인정하고 있으나 금융 분석가들이 평가하는 잠재력은 무한한 가능성을 가진 ‘AI 기술과와 생명공학 기술’이 합쳐졌을 때가 아닌 개별적으로 놓고 봤을 때의 잠재력을 논한 것이기에 다소 과소 평가된 감이 있다.

인공지능과 생명공학은 우리의 삶을 개선할 수도 있고, 심지어 생명 자체를 연장할 수 있을 정도로 기하급수적인 성장궤도에 올라있다. 그러나 ‘인공지능+생명공학’이 두 개척지 기술이 어떻게 공생적으로 결합돼 세계 보건과 환경 문제를 해결할 수 있는지 생각해 본 사람은 거의 없다.

두 분야의 최근 발전 속도를 고려해보자.
비용-편익 (Cost-Benefit) 측면에서 생명공학은 매년 10배씩 향상되고 있다. 인간의 게놈 (Genome)을 해독하는 데 드는 비용이 2001년 30억 달러에서 오늘날 약 1,000 달러로 떨어졌다. 또한 10년 전에 몇 달이 걸렸던 프로세스는 이제 한 시간도 안 돼 완성될 수 있다. PwC (PricewaterhouseCoopers)에서는 현재 개발되고 있는 개발 상황을 토대로 2030년까지 AI의 세계 생산 기여도가 15.7조 달러에 이를 것으로 추산하고 있는데 이는 현재 중국과 인도의 생산량을 합친 것보다 많은 수치이다.

하지만 AI 애플리케이션은 우리의 모든 일상에 너무 광범위하고 너무 많이 내장돼 오늘날 세계 경제의 약 50조 달러를 차지하는 인터넷보다 3~4배 더 많은 세계 생산에 기여할 것으로 예상되기에 PwC의 예측은 경제적 영향을 과소평가한 것 같다. 게다가 이러한 예상 수치는 ‘인공지능과 생명공학 기술이 결합’됐을 때를 배제하고 인공지능과 생명공학의 개별적인 기술로만 이야기한 것이다.

예를 들어, 두 기술의 결합은 장기 기증과 같은 세계적인 건강 문제를 다룰 수 있다. 세계보건기구에 따르면, 2008년 현재 매년 약 100,800개의 고형 장기 이식 (Solid Organ Transplants)이 행해졌다. 하지만 미국에서는 거의 113,000명의 사람들이 생명을 구하는 장기 이식을 기다리고 있는 반면, 매년 수천 개의 좋은 장기들이 버려지고 있다. 수년간 신장 이식을 필요로 하는 사람들은 생물학적으로 생존할 수 있는 살아있는 기증자를 찾거나, 그들의 지역 병원에 생존할 수 있는 죽은 기증자가 나타나기를 기다려야 하는 제한된 선택권을 가지고 있었다.

그러나 빅데이터와 AI는 환자와 장기 기증자들의 매칭을 더욱 쉽게 해주며, 심지어 AI는 방대한 양의 환자-기증자 관계를 통해 수 여자와 수혜자를 일치시킬 수 있기 때문에 생물학적 적합이 아닌 기증자도 기증 할 수 있게 한다.

2000년에 처음으로 신장 교환이 이루어진 이후, 거의 6,000명의 사람들이 알고리즘으로 확인된 기증자로부터 신장 이식을 받았다. 하지만 이것은 AI로 인한 장기 이식의 시작에 불과할 수도 있다. AI는 이미 잠재적 기증자와 수혜자를 확인할 수 있으며 미래에는 도덕적/종교적 요인 등을 포함한 더욱더 풍부한 환자 데이터를 근간으로 해 어떤 사람이 먼저 이식을 받아야 하는지 심사까지 할 수 있을 것이다.

이러한 AI 모델이 잠재력을 최대한 발휘하지 못하게 방해하는 가장 큰 장애물은 생물학 (Biology)적인 사실이다. 이론적으로 AI 응용 프로그램은 전 세계의 모든 생존 및 사망 장기 기증자와 모든 환자를 포함하는 데이터 세트를 사용할 수 있다. 그러나 실제로 사망한 기증자의 장기는 이식 가능 시간은 매우 짧기 때문에 이식 수술 가능한 시간제한이 있고, 환자와 기증자가 제 때에 도달할 수 있는 지리적 반경 내에 배치해야 한다.

하지만, 다행스럽게도, 인공생명공학은 이러한 제약사항을 완화 시켜주고 있다. 장기가 신체 외부에 있어도 여러 날 동안 장기를 보존하고 재생하는 것을 탐구하고 있는 기업들이 있기에, AI 모델 데이터 풀의 크기를 증가시킴으로써 제약사항들을 점차 없애고 있다. 새로운 생명공학을 완벽하게 만드는 데는 보통 몇 년이 걸린다. 그러나, 만약 성공한다면, 이러한 혁신은 세계 장기기증 체제가 일부에 지나치지 않은 넓은 공공 보건의 영역에 혁명을 일으킬 수 있다.

오늘날 기술 발전에 대해 도덕적, 윤리적 의미를 다루기에는 너무 광범위하다. 이 둘에 대한 근본적인 알고리즘은 아직 정립되지 않았다. 가난하고 부유한 환자들의 요구를 어떻게 평가하는 알고리즘은 무엇인가? 기증된 장기 (Organ)는 장기 이식의 위험이 낮은 다른 국가에 살고 있는 멀리 떨어진 환자에게 보내야 하는가 장기 이식의 위험이 높은 인근에 거주하는 환자에게 보내져야 하는가? 이 질문의 알고리즘은 무엇인가?

이것들은 중요한 질문들이다. 하지만 우리가 조합 기술을 발전시키고 적용시킨 다음 적절한 통제 장치를 결정해야 한다고 믿는다. AI의 매칭 파워는 사망한 한 사람의 장기 기증에 의해 8명의 생명을 구할 수 있다는 것을 의미한다. 생명공학 기술의 혁신은 장기가 결코 낭비되지 않도록 할 수 있다. 이런 기술이 더 빨리 발전할수록 더 많은 생명을 구할 수 있다.

AI와 생명공학은 이처럼 광범위한 잠재력을 갖고 있기 때문에 정밀하고 급속한 발전을 거듭하고 있다. 그들이 앞으로 나아갈 때, 우리는 인공지능과 생명공학이 함께할 새로운 조합을 찾아야 한다.

생명공학 속의 AI

바야흐로 인공지능(AI)의 시대이다. 모든 과학기술 분야에서는 앞다투어 AI를 외치고 있다. 온라인에는 AI와 관련된 뉴스와 교육자료가 넘쳐나고 있다. 우리 사회가 AI에 관심을 가지게 된 결정적인 사건으로 많은 사람들이 영국 DeepMind 사의 AlphaGo와 이세돌 전 프로바둑 기사와의 대결을 꼽을 것이다. 대학원생 시절부터 컴퓨터 관련 분야인 시스템 생물학 연구를 수행한 필자는 AlphaGo의 등장 이후로 시스템 생물학에 대한 관심도 덩달아 높아졌음을 느낄 수 있었다.
우연히도 필자 연구실의 책꽂이에 BT News 2009년도 가을호 (2009 Vol. 16 No. 2)가 꽂혀 있는 것을 발견하였다 (그림 1). 벌써 10년도 더 지난 이 호의 기획특집은 시스템 생명공학(systems biotechnology)을 주제로 다루고 있었다. 비록 AI나 빅데이터라는 표현은 사용하고 있지는 않지만, 여전히 AI와 빅데이터 기반 생명공학 연구와 일맥상통하는 단어들이 눈에 띈다.
오믹스, 시스템 수준, 생물 네트워크 등이 대표적인 예가 되겠다. 매우 거시적이며, 정략적인 개념들이다.

인공지능과 생명공학의 결합 - ingongjineung-gwa saengmyeong-gonghag-ui gyeolhab

그림 1. BT News 2009년도 가을호(2009 Vol. 16 No. 2)의 표지와 목차


그렇다. 시간이 흐르면서, 새로운 기술들이 많이 쏟아지고 있지만, 생명공학과 시스템 생물학이 추구하는 기본 철학에는 변함이 없다. 시스템 생물학은 많은 데이터로부터 중요한 패턴을 찾아 내고, 이를 기반으로 생명체의 특성과 행동을 거시적인 관점에서 알아보는 학문이다. 시간이 흐르면서 달라진 점은 데이터의 양과 종류가 나날이 빠른 속도로 늘어나고 있다는 것과, 방대해진 데이터를 더욱 효율적으로 처리하기 위한 새로운 기술들이 꾸준히 개발되었다는 것이다. AI 중에서도 특히 딥러닝 (deep learning)으로 대표되는 머신러닝 (machine learning)은 그 어느 때보다 많은 관심을 받고 있다. AI는 앞으로 생명공학 연구를 어떻게 바꿀 것인가?


거대해지고 빨라지고 있는 생명공학 연구

분석 기술의 발달로 생명공학 연구의 규모가 커지는 것은 쉽게 생각해 볼 수 있다. 10년 전에도 ‘게놈 수준’(genome-scale)이라는 표현은 흔히 사용되어 왔다. 한 세포 안의 모든 유전자들을 고려하기에 게놈 수준이라는 표현이 사용되어 왔지만, 이제는 약간 진부한 표현이 되어 버린 것 같다. 근래에는 여러 세포의 유전체를 전체적으로 분석하는 연구를 자주 볼 수 있게 되었다 [1,2]. 일례로 가장 잘 알려져 있는 박테리아인 대장균 (Escherichia coli)의 경우, 50여균주에 대한 게놈 수준의 대사 (metabolism) 연구가 2013년에 첫 선을 보였으며 [3], 그 이후로 박테리아 범유전체(pan-genome) 연구가 여럿 나오기 시작하였다. 올해 초에 발표된 38가지 암 종류에 해당하는 총 2658개 암 조직 샘플에 대한 유전체 분석 연구도 대표적인 예가 될 수 있겠다 [4]. 이 연구는 37개국 1300여명의 과학자들이 참여한 Pan-Cancer Analysis of Whole Genomes (PCAWG) 국제 컨소시엄이 수행하였으며, 이 대규모의 국제공동연구를 통해서 38종 암들의 유전자 돌연변이 특징을 자세히 분석하였다.
이렇게 데이터의 양이 빠른 속도로 커지는 것은 그만큼 빠른 분석을 가능하게 하는 새로운 방법론들이 개발되었다는 것을 의미한다. 필자가 속한 공동연구팀은 최근에 단백질서열의 EC 번호 (Enzyme Commission number)를 빠르고 정확하게 예측할 수 있는 딥러닝 기반 프로그램인 DeepEC를 개발하였다 [5] (그림 2). 효소의 기능을 나타내기 위한 방법 중 하나인 EC 번호는 효소가 매개하는 특정 생화학 반응을 4자리 숫자로 나타내는, 일련의 생화학 암호에 해당한다.게놈분석을 하게 되면, EC 번호도 예측을 하게 되는 데, NCBI RefSeq 등 게놈 데이터베이스에 등록된 GenBank 파일을 보면, 예측된 EC 번호의 개수가 매우 적고 정확성도 높은 편이 아니다. EC 번호의 중요성 때문에 지금껏 십여 개의 EC 번호 예측 프로그램들이 개발되었지만, DeepEC는 이전에 발표된 EC 번호 예측 프로그램들보다 성능과 속도, 용량 면에서 월등하다는 것이 검증되었다. DeepEC와 같은 프로그램들뿐만 아니라 샘플을 초고속으로 처리할 수 있는 로봇도 동원이 되면서, 오늘날의 생명공학 연구가 점점 더 거대해지고 빨라지고 있다는 것은 쉽게 생각해 볼 수 있다.

인공지능과 생명공학의 결합 - ingongjineung-gwa saengmyeong-gonghag-ui gyeolhab

그림 2. DeepEC의 EC 번호 예측을 위한 단백질 서열정보 처리 과정 (왼쪽) 및 DeepEC와 다른 EC 번호 예측 프로그램들과의 정보처리 속도 비교 (오른쪽)

머신러닝은 양날의 검
생명공학 분야에서도 머신러닝에 관심을 가지는 연구원들을 많이 접하고 있다. 머신러닝은 잘 활용하면 득이 되지만, 제대로 활용하지 못할 경우 독이 될 수 있다. 이에 머신러닝 수행 시의 고려사항을 공유하고자 한다.
첫째, 머신러닝 기술 자체보다는 연구의 목적이 우선시되어야 한다. 생명공학 관련 연구목표를 달성하기 위해서 머신러닝 기술은 수단으로 보는 것이 대개의 경우에 해당한다. 연구의 목적에 따라서는 컴퓨터 프로그래밍은 필요하지만 머신러닝이 필요하지 않은 경우도 많다. 특히 생명공학 분야에서 사용되는 대부분의 머신러닝 기술은 전산학 분야에서 이미 치밀하게 검증된 기술이기에, 사용자 입장에서 연구목적 달성에 적합한 머신러닝 기술을 적시적소에 활용하는 것이 매우 중요하다. 단연 생명공학에 대한 충분한 지식 없이는 올바른 연구 목적을 가질 수 없으며, 실제로 잘못된 연구목표를 설정하고 머신러닝 모델을 만드는 경우를 목격한 적이 있다. 사실 연구 목적을 설정하는 것은 매우 어려운 단계에 해당한다.
둘째, 분석하고자 하는 데이터의 특성을 정확히 파악하고 있어야 한다. 이 두 번째 고려사항은 매우 중요해서 몇 가지 세부사항으로 더욱 나눌 수가 있다. 당연한 얘기처럼 들릴 수 있지만 사용하려는 데이터가 연구목적에 적합한 것이어야 한다. 그러나 주어진 데이터가 연구 목적에 적합한지 여부를 판단하는 것은 생각보다 쉽지 않다. 주어진 데이터를 가지고 실제 머신러닝 모델을 구축하고 나서야 깨닫게 되는 경우도 흔하다. 또 다른 어려운 점은 우리가 다루게 될 대부분의 데이터는 머신러닝 적용에 적합하도록 반드시 전처리 (data preprocessing)를 거쳐야 한다는 점이다. 데이터 전처리는 불완전한 형태의 데이터를 머신러닝 적용이 가능한 ‘깨끗한’ 형태의 데이터로 전환하는 것을 의미한다. 주어진 데이터에 일부 누락된 수치가 있을 수 있고, 표준화(standardization)가 필요할 경우 특정 생물 시스템의 특징에 맞게 수행해야 할 것이며, 분석 기기의 어떠한 특징 때문에 측정 오차가 생기는 지를 파악하고 있어야 한다. 이 문제는 생명공학 지식 없이 머신러닝 지식만으로는 해결하기 어려운 영역에 해당한다. 머신러닝 분야에서 흔히 접하는 ‘garbage in, garbage out’이라는 말은 데이터의 올바른 선택과 전처리의 중요성을 잘 나타내준다 (그림 3).

인공지능과 생명공학의 결합 - ingongjineung-gwa saengmyeong-gonghag-ui gyeolhab

그림 3. 머신러닝 분야에서 흔히 사용되는 ‘garbage in, garbage out’ 개념


셋째, 머신러닝 예측결과가 처음 설정한 연구 목적에 대한 답변이 되는지 검증을 하여야 한다. 데이터 전처리만큼이나 어려우며, 많은 시간을 필요로 하는 단계이다. 역시나 전문적인 생명공학 지식을 필요로 하는 단계이며, 연구 목적과 관련된 세부 전문가들과의 많은 토론을 필요로 한다.
종합해 보면, 생명공학 연구에 AI를 적용한다는 것은, 로봇의 활용도 포함이 되지만 대부분의 경우는 오믹스 데이터 내지는 충분히 큰 분량의 데이터에 머신러닝을 활용하는 연구가 되겠다. 이 과정에서 활용하고자 하는 머신러닝에 대한 충분한 이해가 중요하지만, 그에 못지 않게 연구주제에 대한 깊은 생물학적 지식도 필요하다. 이러한 이유 때문에 시스템 생물학 연구를 하기 위해서는 생명공학과 컴퓨터 프로그래밍을 동시에 익혀야 하며, 생물 및 전산학 전문가와도 활발히 대화를 나누는 것이 연구의 진행에 매우 중요하다고 볼 수 있다.

배우기 쉬워진 시대
실험을 전문으로 하는 연구원이더라도, 조금이나마 컴퓨터와 더욱 친숙해졌으면 하는 바람을 가지고 있다. 다루게 되는 데이터가 시간이 지날수록 많아지다 보니, 컴퓨터를 제대로 활용할 수 있다는 것은 큰 장점으로 다가올 것이라는 생각 때문이다. 지금은 무엇이든 지 배우기 쉬워진 시대가 된 것 같다. 특히 컴퓨터와 관련된 것은 더더욱 그렇다. 머신러닝만 하더라도, YouTube, 블로그 등에 너무나도 유용한 무료 자료들이 많아서 마음만 먹으면 쉽게 접할 수 있다 (그림 4). 다만 실험을 전문으로 하는 연구원이 컴퓨터를 처음 접할 때, 어디서부터 시작해야 할 지 명확하지 않을 수 있겠다는 생각이 들었다. 즉 컴퓨터 환경 (computing environment)의 설정인데, 이를 조금이나마 수월하게 실행할 수 있도록 최근에 프로토콜 (protocol) 논문 형태로 관련 내용을 정리하였다 [6].

인공지능과 생명공학의 결합 - ingongjineung-gwa saengmyeong-gonghag-ui gyeolhab

그림 4. YouTube에서 ‘machine learning’ 검색어를 통해 검색된 수 많은 교육자료들


생명공학 연구에서 컴퓨터의 중요성 때문에, 필자는 모든 수업에서 관련 소프트웨어 프로그램을 적극적으로 사용하고 있다. 일례로 2020년 봄학기에 대사공학 (metabolic engineering)을 가르치고 있는데, 미생물 대사를 연구할 때 필요한 대사 모델링 (metabolic modeling)을 주요 주제로 다루고 있다. 이를 위해서 프로그래밍 언어 중 하나인 Python으로 기본 연산부터 시작하여, 대사모델을 시뮬레이션할 수 있는 COBRApy를 가르치고 있다 [7]. 생물정보학 및 머신러닝 활용과 관련해서는, 작년에 ‘생명공학을 위한 빅데이터 분석 및 기계학습’ 수업을 개설하였다. 모든 분야가 그렇듯, 시스템 생물학 분야도 너무 빠르게 발전해서, 수업 시간에 새로운 소프트웨어들이나 컴퓨터 기술들을 적극적으로 소개하려고 한다. 이러한 교육 기회를 통해서, 생명공학 분야의 AI 전문가 양성에 최선을 다하고자 한다.

결론 및 전망
기술의 발전으로 생명공학 연구는 앞으로 더더욱 빨라지고 거대해 질 것이다. 이 과정에서 생명공학과 컴퓨터 프로그래밍을 동시에 익히는 것은 경쟁력 있는 연구를 수행함에 있어서 중요한 밑거름이 될 것이다. 다만 연구주제에 정말 빅데이터 또는 머신러닝이 필요한지, 주어진 데이터는 연구주제에 적합한지를 꼼꼼히 살펴보아야 한다. 컴퓨터 프로그래밍은 이제는 비교적 쉽게 접할 수 있는 영역이 되어 버렸다. 앞으로의 도전은 우리나라 고유의 바이오 데이터 확보와 관리 인프라 확충이 될 것이다. 우리나라 고유의 바이오 데이터에는 한국인 특이 유전체 정보일 수 있고, 우리나라 연구진이 개발한 산업용 미생물 균주일 수도 있다. 특히 일부 해외 연구소에서는 화합물 대량생산을 위해서 로봇을 구축하여 미생물 균주를 제작하는 데에 활용하고 있다. 이러한 도전은 한 연구실뿐만 아니라, 기관 내지는 국가 차원에서도 고민해야 할 문제가 되겠다. 현 시점에서 이러한 새로운 기술 장착은 향후 우리나라 생명공학 경쟁력에 지대한 영향을 끼칠 것으로 예상한다.

참고 문헌
[1] Kim Y, Gu C, Kim HU & Lee SY. Current status of pan-genome analysis for pathogenic bacteria. Current Opinion in Biotechnology 63, 54-62 (2020)
[2] Gu C, Kim GB, Kim WJ, Kim HU & Lee SY. Current status and applications of genome-scale metabolic models. Genome Biology 20, 121 (2019)
[3] Monk JM, Charusanti P, Aziz RK, Lerman JA, Premyodhin N, Orth JD, Feist AM & Palsson BØ. Genome-scale metabolic reconstructions of multiple Escherichia coli strains highlight strain-specific adaptations to nutritional environments. Proceedings of the National Academy of Sciences U S A (PNAS) 110:20338-43 (2013)
[4] The ICGC/TCGA Pan-Cancer Analysis of Whole Genomes Consortium. Pan-cancer analysis of whole genomes. Nature 578:82-93 (2020)
[5] Ryu JY, Kim HU & Lee SY. Deep learning enables high-quality and high-throughput prediction of enzyme commission numbers. Proceedings of the National Academy of Sciences U S A (PNAS) 116, 13996-14001 (2019)
[6] Jeon J & Kim HU. Setup of a scientific computing environment for computational biology: Simulation of a genome-scale metabolic model of Escherichia coli as an example. Journal of Microbiology 58, 227-234 (2020)
[7] Ebrahim A, Lerman JA, Palsson BO & Hyduke DR. COBRApy: COnstraints-Based Reconstruction and Analysis for Python. BMC Systems Biology 7:74 (2013)