본문 바로가기
프로그램/AI

단백질 구조분석에 이용되는 AI 프로그램

by 롱카이 2023. 6. 22.
반응형
  • 생물학에서 매우 중요한 단백질
세포막에서 생명활동을 하는 단백질
세포막에서 생명활동을 하는 단백질

생명체를 탐구하는 생물학에게 단백질은 가장 중요한 학문 중 하나입니다. 단백질은 물질이동 등 생명활동 그 자체를 하는 물질이며 단백질이 작동을 멈추면 생명활동을 하지 못해 사망에 이르기 때문입니다. 그렇기에 단백질은 생명활동에 필수적인 물질입니다. 이 때문에 생물학에서 단백질은 반드시 이해하고 연구해야 하는 대상입니다.

세포 내 물질이동을 담당하는 키네신 단백질
세포 내 물질이동을 담당하는 키네신 단백질

단백질은 생명활동의 매커너즘을 수행하는 물질이기에 단백질에 대한 상세한 이해가 반드시 필요합니다. 특정 단백질이 어떤 역할을 하는지 반드시 알아야 하며 여러 단백질의 연쇄작용으로 생체활동 매커니즘을 추적해가야 합니다. 그래서 세포를 대상으로 하는 수많은 실험으로 연쇄작용에 관여하는 단백질을 찾아냅니다.
 
 
 

  • 단백질 연구의 난제
단백질은 수시로 움직이며 역할을 수행한다
단백질은 물분자의 도움을 받아 수시로 움직이며 역할을 수행한다

문제는 단백질은 그 기능에 따라 구조가 다양하며 한 단백질은 한시도 가만히 있지 않다는 점입니다. 단백질은 맡은 역할을 수행하기 위해서는 수시로 움직이며 기능을 활성화하고 종료해야 합니다. 즉 단백질이 스스로 작동 스위치를 켰다가 끕니다. 그리고 기능을 수행할 때 화학작용으로 수행하는데 이때 물이 반드시 필요합니다. 단백질은 물 분자와 수시로 상호작용하며 생김새를 바꾸고 기능을 활성화/비활성화합니다.

단백질은 아미노산이 복잡하게 조립된 물질이다
단백질은 아미노산이 복잡하게 조립된 물질이다

또한 단백질은 여러 아미노산이 연결된 아미노산 띠(폴리펩타이드)가 여러 형태로 접히고 돌돌말려 조립된 형태이며 3차원 형태로 겉면 뿐만 아니라 내부도 복잡하게 조립된 형태이기에 단백질 구조를 정확하게 파악하는 것은 간단한 문제가 아닙니다.

적혈구 헤모글로빈 단백질
적혈구 헤모글로빈 단백질

위 GIF를 봐도 단백질이 그리 구조적으로 단순한 물질이 아님을 알 수 있습니다. 그리고 규칙적으로 구조가 변하기에 어떻게 변하는지도 알아야 합니다. 이걸 왜 알아야 하냐면 제약산업 등 생물학을 활용한 산업에서 제품이 올바르게 기능하기 위해서는 정상적으로 작동하는 단백질에 알맞게 연결되도록 제작해야 하기 때문입니다.

단백질 구조를 알아야 정교한 약을 만들 수 있다
단백질 구조를 알아야 정교한 약을 만들 수 있다

좀 더 쉽게 표현하자면 단백질은 자물쇠이고 약은 열쇠인 셈입니다. 자물쇠 구조를 잘 알고 열쇠구멍을 완벽하게 알아야 알맞은 열쇠를 만들어 자물쇠를 열 수 있죠. 이 때문에 제약산업 등 생물학계와 업계에서는 단백질 구조를 정확히 아는 것이 필수입니다.
 
 
 

  • 단백질 구조 추정 실험
단백질 구조 추정 과정
단백질 구조 추정 과정

학계에서는 여러 실험으로 단백질 구조를 추정합니다. 추정을 무수히 많이 한 다음 그 결과 데이터를 종합 분석해 단백질 구조를 최종적으로 평가합니다. 그리고 실험 역시 간단하지 않습니다. 우선 폴리펩타이드의 아미노산 순서를 파악한 후 아미노산 순서에 따른 조립방식을 추정합니다. 그 후 단백질을 집중 배양해 X-ray로 찍거나 금속을 덮어 코팅하거나 Western blot으로 단백질 크기와 무게를 추정하거나, 아예 얼려서 하나하나 확인하는 등 다양한 실험을 통해 단백질의 구조를 하나하나 추정해갑니다.

단백질 구조 추정 실험
단백질 구조 추정 실험

이런식으로 단백질 구조 "추정"은 엄청나게 많은 실험을 필요로 하는 노동집약적인 과정입니다. 그리고 각각의 실험은 단백질의 극히 일부 정보만 얻기에 하나의 단백질 구조를 파악하는데 10년~20년 이상의 시간이 흐릅니다. 그리고 수많은 석박들이 거기에 뛰어들고요.
 
 
 

  • 단백질 구조 추정과 컴퓨터 과학
RT-PCR 실험과정
RT-PCR 실험과정

어느 한 단백질 구조를 알아내기 위해서는 정말 다양한 것을 연구해야 합니다. 우선 단백질을 만드는 유전자 염기서열부터 파악해야 합니다. PCR로 확인하는데 유전자를 대량복제한 후 일일이 하나하나 확인해야 합니다. 옛날에는 만개가 넘는 복제 유전자를 실험으로 다 확인하고 얻은 정보를 종합해 유전자 염기서열을 파악해야 해서 한 유전자 염기서열 파악에 5년 이상의 시간이 흘렀습니다.

PCR 프로그램
PCR 프로그램

그러나 지금은 컴퓨터와 기계가 PCR 실험을 하며 컴퓨터 프로그램이 매우 빠른 속도로 PCR을 하나하나 다 분석해 속도와 정확성 모두 인간을 아득히 능가했습니다. 그래서 PCR 실험 비용이 획기적으로 감소해 일반인도 친자확인 등 유전자검사 혜택을 누릴 수 있습니다. 여튼 노동집약적인 생물학 실험 특성 때문에 생물학은 예전부터 프로그램을 적극적으로 이용했습니다.

파이썬에 단백질 구조 추정 실험 데이터를 입력하면 자동으로 3차원 구조를 출력한다
파이썬에 단백질 구조 추정 실험 데이터를 입력하면 자동으로 3차원 구조를 출력한다

또다른 예로 수많은 단백질 구조 추정 데이터를 한번에 정리하는 프로그램도 등장했습니다. 예전에는 과학자들이 방대한 데이터를 일일이 검토하며 퍼즐맞추듯이 하나하나 구조를 정리했다면 지금은 파이썬이 단백질 구조 추정 결과를 종합하는 프로그램으로 활약합니다. 파이썬에 수많은 실험 데이터들을 입력하면 짧은 시간에 데이터를 모두 종합해 3차원 모델을 출력해줍니다.

한 단백질 구조를 파악하는데 엄청나게 많은 실험이 필요하다
한 단백질 구조를 파악하는데 엄청나게 많은 실험이 필요하다

남은 것은 단백질 구조 추정 실험으로 수많은 실험을 하며 하나씩 천천히 알아가야 했습니다. 그래서 단백질 구조 추정 실험은 여전히 수많은 석박학이 메달려 연구소에서 실험하며 데이터를 하나씩 차곡차곡 쌓아갔습니다. 이 노동집약성 때문에 1902년부터 2020년까지 120년이 넘는 시점 동안 발견된 2억개 이상의 단백질 중 구조를 완벽히 파악한 단백질은 17만개 밖에 되지 않았습니다.
 
 
 

  • 단백질 구조 분석 AI
알파고는 단백질 연구 AI 모태가 되었다
알파고는 단백질 구조 분석 AI의 모태가 되었다

전세계 생물학 학계는 이 문제점을 잘 알고 있었으며 이를 개선하려는 시도가 수없이 이뤄졌습니다. 그러다 2016년 구글의 AI 알파고와 대한민국 바둑 프로기사 이세돌의 대결에서 알파고가 승리했다는 소식은 생물학계에 큰 충격으로 다가왔고 생물학계는 알파고의 딥러닝 기술에 주목했습니다.

최초의 단백질 구조 추정 AI인 알파폴드가 추정한 단백질 구조
최초의 단백질 구조 추정 AI인 알파폴드에서 추정한 단백질 구조

알파고를 개발한 딥마인드 기업 역시 단백질 구조 분석 AI 개발에 관심을 보였고 국제 생물학계는 기업에 연구결과와 이론을 모두 전해주고 딥마인드는 이 데이터를 AI에게 학습시켜 단백질 구조 추정 AI를 개발했습니다. 2018년 딥마인드는 알파폴드AlphaFold라는 단백질 구조 추정 AI를 발표했고 놀라운 속도와 정확성으로 학계를 놀라게 했습니다.

알파폴드의 단백질 추정과정
알파폴드의 단백질 추정과정

그리고 2022년 딥마인드는 더 개량된 알파폴드2AlphaFold2는 이전보다 속도와 정확성을 더 향상했습니다. 덕분에 사람이 5년~10년 동안 하던 단백질 구조 추정이 무려 AlphaFold2는 평균 10분~15분으로 혁명적으로 감소했습니다. 이는 단백질학에 혁명을 불러왔고 생물학 대학원과 연구소에서 사람이 일일이 실험하는 대신 실험조건을 세팅한 후 AI를 이용해 단백질 분석을 하는 모습으로 바뀌었습니다.

ESMFold는 단백질 구조를 자동완성한다
ESMFold는 단백질구조를 자동완성한다

구글 자회사인 딥마인드에서 AlphaFold를 내놓자 메타 역시 메타 AI라는 자회사에서 ESMFold라는 단백질 구조 예측 AI를 개발해 2022년 세상에 공개했습니다. ESMFold는 데이터를 종합한 후, "자동완성" 기능으로 6억개의 단백질 구조 예측에 성공했습니다.

ESMFold가 예상한 단백질 구조
ESMFold가 예상한 단백질 구조

실험결과로 단백질 구조를 예측하는 AlphaFold와 달리 ESMFold는 아미노산 서열만 입력하면 자동으로 완성된 단백질의 형태를 예상해서 출력합니다. 정확한 실험결과에 기반한 것은 아니지만 단백질 구조 예상에 큰 도움을 제공합니다.
 
 
 

  • 신약개발 AI. 바이오네모BioNeMo
바이오네모
바이오네모

2023년에는 엔비디아에서 신약개발 AI를 발표했는데, 단백질 구조 중 작용할 기작(단백질이 자물쇠라면 기작은 열쇠구멍을 말합니다)의 구조를 정확하게 판단하고 그 기작에 알맞을 분자구조를 예측해 어떤 분자가 적합할지를 판단합니다. 여기서 그치지 않고 기작에 특정 분자가 들어가면 단백질 구조가 어떻게 변하고 어떤 일을 할지도 예측하는 엄청난 성능을 보유하고 있습니다.

단백질과 분자가 결합하면 어떤 일이 일어날지 예측하는 AI
단백질과 분자가 결합하면 어떤 일이 일어날지 시뮬레이션하는 바이오네모

예전에는 약학과 생화학, 단백질학을 전공한 고급인재들이 단백질에 다양한 물질들을 일일이 연결하는 실험을 하며 실험데이터로 알맞은 신약 물질후보를 탐색해나갔고 엄청난 시간과 돈이라는 비용이 들었는데 바이오네모가 짧은 시간에 간단히 시뮬레이션하며 높은 정확성을 띄어 실험 횟수가 급격히 줄어들었습니다.

바이오네모를 이용해 만든 신약
바이오네모를 이용해 만든 신약

바이오네모BioNeMo는 단백질과 분자의 결합을 파악하는 디피독DiffDock, 메타 AI가 개발한 단백질 구조 예측 AI ESMFold, 새로운 분자생성을 시뮬레이션하는 MoFlow AI, 심층 비지도언어 ProtGPT-2라는 여러 종류의 AI를 종합 제공하는 클라우드로서 연구소의 수많은 부서들이 하는 일을 한 클라우드 안에서 하는 것을 가능하게 했습니다. 그래서 신약을 연구하는 제약 스타트업들은 바이오네모BioNeMo로 더 짧은 시간에 더 정교하고 부작용이 적은 신약을 개발할 수 있게 되었습니다.
 
 
 
 

반응형

'프로그램 > AI' 카테고리의 다른 글

AI가 침투할 직업들  (122) 2023.06.23
생성형 인공지능  (36) 2023.06.23
국가별 AI 선도 기업 리스트  (32) 2023.06.23
음악활동에 이용되는 AI 프로그램  (32) 2023.06.22
미술활동에 이용되는 AI 프로그램 종류  (36) 2023.06.22

댓글