2023-02-07l 조회수 2582
단백질은 생명체 안에서 일어나는 거의 모든 현상에 관여하는 생체 분자로, 3차원 구조에 따라 다양한 기능을 갖는다. 따라서, 단백질의 구조를 이해하고 조절할 수 있다면 생명 활동을 통제하거나 신약을 개발하는 데 활용할 수 있다. 단백질은 보통 다른 분자들과의 상호작용을 통해 기능하는데, 그러한 상호작용 메커니즘을 밝혀내는 데 있어 단백질의 구조 정보가 필수적이다.
기존의 단백질 구조 예측 연구에는 X선 결정법*이나 초저온 전자현미경 기법*이 주로 활용되었으나, 2018년 구글 딥마인드가 개발한 ‘알파폴드(AlphaFold)’를 시작으로 단백질 구조 예측 분야에 ‘인공지능 붐’이 일었다. 게다가, 유명 학술지 ‘사이언스’는 ‘2021년 최고 혁신 연구’에 AI 단백질 구조 예측 프로그램 ‘로제타폴드(RoseTTAFold)’를 선정하기도 했다. ‘로제타폴드’의 핵심 개발자인 백민경 교수님께서 2022년 9월부로 서울대학교 생명과학부에 부임하셨는데, 자세한 이야기를 들어보았다.
*X선 결정법 : X선이 결정화된 단백질을 통과하며 만들어내는 회절 무늬를 통해 단백질의 구조를 알아내는 방법
*초저온 전자현미경 기법(Cryo-EM) : 단백질 용액을 급속 냉동시켜 자연 상태를 최대한 유지한 후에, 투과전자현미경으로 3차원 구조를 분석하는 기법
Q. 새로 부임하셨으니 교수님에 대해 잘 모르는 학생들이 많으리라 생각됩니다. 그런 학생들을 위해 본인을 간단히 소개해주세요.
안녕하세요, 저는 2022년 9월부터 서울대학교 생명과학부에 부임하게 된 백민경이라고 합니다. 저는 학부, 대학원(석박통합) 과정 모두를 서울대학교 화학부에서 지냈습니다. 대학원 때 컴퓨터를 통해서 단백질 구조나 상호작용을 예측하는 계산 생물학 쪽의 연구를 하게 됐는데, 그게 지금까지 이어져서 화학을 전공했지만 생명과학부의 교수로 오게 되었습니다.
Q. 서울대학교 생명과학부에 교수로 임용되신 소감이 궁금합니다.
일단은 모교로 돌아와서 너무 기쁩니다. 제가 박사학위 받고 나가면서 ‘드디어 10년 만에 500동 탈출이다.’라는 생각을 했었는데, 3년 만에 다시 돌아와 버렸네요(웃음). 그래서 기쁘고 친숙하면서도 낯선 느낌이 있는 것 같아요. 학생으로서 지낸 500동과, 교수로서 지낼 500동이 같은 공간이지만 묘하게 다른 느낌이 있어서 그런 낯섦을 즐기며 생활하고 있습니다.
Q. 이제 서울대학교 생명과학부에서 교수님만의 연구실을 꾸려가실 텐데, 교수님의 연구 분야인 계산 생물학에 대해 간단히 소개해주세요.
계산 생물학은 이름에서도 알 수 있듯이, 컴퓨터를 활용한 계산을 통해서 다양한 생명 현상을 이해하려고 하는 분야입니다. 저는 단백질 같은 생체 분자의 구조가 어떻게 생겼는지, 어떤 식으로 움직이는지 등을 컴퓨터로 예측하는 연구를 하고 있습니다만, 컴퓨터를 활용해서 생명 현상에 대한 연구를 하는 것은 다 계산 생물학이라고 볼 수 있습니다.
예를 들어서 암 환자 20명의 유전체를 컴퓨터로 분석해서 유전적 공통점을 찾거나, 암에 걸리지 않은 사람 20명의 유전체와 비교해서 차이점을 찾는 것도 계산 생물학의 일종입니다. 큰 틀에서 보면, 컴퓨터 계산을 통해 생명 현상에 대한 연구를 하는 것은 모두 계산 생물학이라고 볼 수 있습니다.
Q. 그렇다면 계산생물학을 전공하기 위해서 어떤 분야를 집중적으로 공부해야 할지 궁금합니다.
일단 계산 생물학이니까 당연히 컴퓨터를 다룰 줄 알아야 합니다. 프로그래밍 지식이나 기초적인 인공지능 활용 능력이 있으면 훨씬 더 쉽게 시작할 수 있을 것 같고, 당연히 생명 현상에 대한 관심과 이해도 필요합니다. 뿐만 아니라, 의외로 물리화학적인 지식이 있으면 도움이 많이 됩니다. 우연의 일치일 수도 있겠지만, ‘알파폴드’의 핵심 개발자인 존 점퍼(John Jumper)와 저는, 원래 전공이 물리화학으로 같습니다. 인공지능도 결국 사람이 어떻게 생각하고 학습하는지를 따라하도록 만들어지기 때문에, 생명 현상을 물리화학적으로 이해한 상태에서 알고리즘을 만들면 예측의 정확도가 높아질 것이라고 생각합니다. 따라서 이런 식으로 폭넓은 공부를 할 필요가 있습니다. 컴퓨터 프로그램을 다룰 수 있고, 생명 현상에 대한 관심이 있으면서, 생명 현상의 물리화학적 원리에 대한 호기심을 갖고 있다면, 계산 생물학을 전공하기에 충분할 것이라고 생각합니다.
Q. 계산 생물학은 생소하지만 흥미로워서 배워보고 싶은 학생들이 많을 것 같습니다. 그래서 연구 실습 학부생을 받으실 계획이 있으신지, 연구 실습에서 어떤 것을 배울 수 있을지 궁금합니다.
일단 저는 최대한 많은 학생들과 교류해보고 싶기 때문에, 제 연구실에 공간이 있고 여력이 있다면 최대한 받을 생각입니다. 사실 저도 인턴이나 연구 실습 같은 경험을 해보면서 대학원에 가기로 결심했어서 그런지, 학부 과정 중에 다양한 경험을 하는 게 중요하다고 생각합니다. 아마도 대부분의 학생들이 계산 생물학을 경험해 본 적이 없을 텐데, 연구 실습을 하게 되면 계산 생물학 분야에 대한 공부를 같이 할 예정입니다. 그리고 단백질 서열 정보, 혹은 구조 정보를 바탕으로 단백질의 기능을 연구하는 간단한 프로젝트를 진행하면서 계산 생물학을 ’찍먹’ 해볼 기회도 제공해 주려고 합니다.
Q. 계산 생물학이 떠오르는 분야여서 그런지, 아직 계산 생물학을 전공하는 학생 수가 많지는 않은 것 같습니다. 직접 계산 생물학 과목을 개설해서 가르치실 계획은 없으신가요?
사실 계산 생물학 과목을 개설하고 싶긴 한데, 과목을 만든다는 게 생각보다 쉬운 일이 아니더라고요. 지금 당장 새로운 과목을 개설하기는 힘들 것 같고 시간이 조금 지나봐야 알 것 같습니다. 아니면 ‘생물물리학’이나 ‘생물정보학’, ‘생물학자를 위한 전산학 개론’ 같은 과목들에 팀티칭으로 들어가면서 계산 생물학 연구와 관련되는 내용으로 수업 내용을 구성할 기회가 있다면 해보고 싶습니다.
Q. 계산 생물학 연구에는 생물학 지식뿐만 아니라 컴퓨터 활용 능력이 요구될 것 같습니다. 그런데 로제타폴드 개발 과정에는 AI 엔지니어가 참여하지 않았다고 들었습니다. 어떻게 가능했나요?
계산 생물학이라고 하면 기본적으로 컴퓨터를 활용하니까 당연히 기초적인 프로그래밍 공부를 해야 합니다. 공부를 어느정도 해서 컴퓨터와 친숙한 상태가 되면, 인공지능은 오히려 훨씬 쉽게 만들 수 있습니다. 저는 인공지능을 단백질의 구조와 기능 연구에 사용할 수 있는 일종의 계산 도구로 생각했습니다. 제가 AI 전공자는 아니지만, 단백질 구조 연구에서 인공지능이 쓸 만한 도구라는 생각이 들어서 단백질 구조 예측 분야와 인공지능 분야 각각이 마주하고 있는 문제들의 유사점을 찾아보려고 노력했습니다. 두 분야에서 나타나는 문제점 간의 유사한 부분을 찾으면, 인공지능 분야의 문제를 해결하기 위해 사용한 인공지능 모델을 단백질 구조 예측 분야에 가져와서 쓸 수 있지 않을까 생각했습니다. 덕분에 AI 엔지니어 없이도 ‘로제타폴드’라는 프로그램을 만들 수 있었던 것 같습니다. 물론 그 과정에서 어려움도 있었는데, 이미 존재하는 인공지능 모델을 가지고 와서 약간 고쳐 쓸 수는 있어도, 제가 풀고자 하는 문제에 인공지능을 최적화시키지는 못했습니다. 그래서 협업할 수 있는 AI 엔지니어가 있으면 좋겠다고 생각했는데, 당시에는 구하지 못해서 조금 어려움을 겪었습니다.
Q. 로제타폴드가 단백질의 구조를 예측하는 원리에 대한 간단한 설명 부탁드립니다.
인공지능은 데이터가 많이 있을 때 많은 데이터 안에 숨어있는 패턴을 찾는 것에 능합니다. 단백질의 3차원 구조는 주로 단백질을 구성하는 아미노산 서열에 의존하기 때문에, 단백질의 아미노산 서열이 비슷하면 구조도 비슷할 가능성이 높습니다. 현재까지 알려진 단백질 서열 데이터는 굉장히 많은데, 그 중에서 서열이 비슷한 단백질들을 모아보면 그 서열들 안에 구조에 대한 공통적인 정보가 들어있을 것이라고 추측할 수 있습니다. ‘로제타폴드’는 ‘어떻게 하면 인공지능을 활용해서 서열 정보 안에 숨어있는 구조에 대한 패턴을 찾아내고, 그걸로 3차원 구조를 만들 수 있을까’ 고민하는 과정에서 나온 방법입니다. 따라서 물리화학적 원리를 근거로 단백질의 구조를 예측하기보다는, PDB(Protein Data Bank)에 존재하는 서열 데이터와, 그에 대응되는 구조 정보를 활용해서 구조에 대한 패턴을 찾아내는 능력에 초점을 맞췄다고 생각하면 될 것 같습니다.
Q. 서열을 통해 구조를 예측하는 것이 ‘로제타폴드’의 기능이군요. 그러면 구조가 밝혀진 단백질의 경우에, 구조를 통해서 기능을 예측할 수는 없나요?
구조를 통해서 기능을 예측하는 건 사실 아직 많이 연구가 필요한 부분입니다. 물론 단백질의 구조가 기능에 중요하다고는 하지만, 사실 아무런 배경지식 없이 헤모글로빈 단백질의 구조를 보면 무슨 기능을 할지 알 수 없을 것입니다. 그렇기 때문에 가장 중요한 것은 ‘단백질이 어떤 분자들과 상호작용을 하고, 그러한 상호작용을 통해서 어떤 기능을 수행할지’에 대한 연구입니다. 단백질의 구조만으로 그 단백질이 다른 유기 분자와 어떻게 상호작용할지 예측하는 것은 아직 어렵습니다. 그래서 제 연구실에서는 단백질의 구조를 어느 정도는 예측할 수 있으니까, 구조를 예측한 단백질들이 어떤 상호작용에 어떻게 관여할지 연구해보려고 합니다.
Q. 초저온 전자현미경 기법(cryo-EM), X선 결정법 같이 기존에 사용되던 단백질 구조 분석 기술들과, AI 기반 구조 예측 기술 간의 차이점이나, 장단점에는 무엇이 있을까요?
실험을 통한 구조 결정 방법은 실험적인 증거들이 있기 때문에 실험 결과가 진실에 가까울 것이라고 어느 정도 확신을 할 수가 있습니다. 그래서 실험적인 방법으로 구조를 결정하면 그 결과의 정확도가 꽤 높고 실제로 그럴 것이라는 믿음이 강합니다. 허나, 단백질 하나를 결정하고 구조를 보는 데 있어서 최소 수개월에서 수년의 시간이 걸린다는 치명적인 단점도 있습니다. 반면, AI 단백질 구조 예측 방법은 컴퓨터에 데이터를 입력하면 1, 2초 만에, 길게 걸려도 몇 분 내에 결과를 볼 수 있습니다. 물론 예측이다 보니 틀렸을 가능성도 분명히 존재합니다. 그럼에도 굉장히 빠른 속도로 많은 수의 단백질 구조를 예측해볼 수 있다는 것이 장점입니다. 그래서 단백질의 기능을 연구하거나, 돌연변이(mutation) 단백질의 영향을 연구하기 위해 실험을 설계해야 할 때, 구조 정보에 대한 예측이 있다면 보다 정교한 실험 설계가 가능해집니다. 그렇지만, AI 방식도 한계점이 있습니다. 단백질은 생체 내에서 굉장히 역동적인(dynamic한) 분자라서, 딱 하나의 고정된 상태로 있는 게 아니라, 끊임없이 움직이고 있습니다. X선 결정법이나 Cryo-EM 기법도 마찬가지이긴 합니다만, 현재 인공지능 방법은 특정 상태(state)의 구조밖에 예측할 수 없습니다. 그리고 단백질이 항상 열역학적으로 가장 안정적인 상태로 존재하는 것은 아니기 때문에, IDP* 같은 단백질에 대해서는 밝혀지지 않은 바가 많습니다.
*IDPs(Intrinsically Disordered Proteins) : 명확하게 고정된 3차원 구조를 갖지 않는 단백질들
Q. 현재 계산 생물학 분야가 생명과학 분야에서 어느 정도의 입지를 갖게 되었는지 궁금합니다.
제가 박사를 시작하고 졸업할 때만 해도, 컴퓨터 계산을 통해 단백질의 구조나 상호작용을 예측한 결과를 알려주면 거의 아무도 안 믿었어요. 그런데 지금은 ‘알파폴드’와 ‘로제타폴드’가 예측한 결과가 나오면 연구자들이 ‘일단 그러겠구나’ 생각하고 연구를 진행해요. 즉 예측에 대한 신뢰성이 과거에 비해 상당히 많이 올라갔다고 말할 수 있을 것 같습니다. 옛날에는 계산 생물학은 새로운 정보를 창출한다기보다, 이미 존재하는 실험 결과를 어떻게 하면 보다 잘 설명할 수 있을지 도와주는 도구였는데 지금은 오히려 반대가 된 것 같아요. 계산을 통해서 예측한 결과가 이후의 실험을 설계하는 가이드를 주는 방식으로, 컴퓨터 계산이 한 발 앞서 나가는 추세입니다.
Q. 지금까지 과학자들이 Cryo-EM이나 X선 결정법으로 밝혀낸 단백질 구조가 1% ~ 1.5% 정도라고 들었는데, ‘알파폴드2’가 인간 단백질의 약 98%의 구조를 예측했다고 합니다. 예측이 100% 정확하기는 어려울 것 같은데, AI 기반 방식의 오차율이 어느 정도인지 궁금합니다.
일단 예측의 정확도라고 하면, ‘알파폴드’도 그렇고 ‘로제타폴드’도 그렇고 최근에 개발된 인공지능 기반 방법들은 자신의 예측이 얼마나 정확할지에 대한 예측값을 같이 줍니다. 인공지능이 문제를 풀고 나서 예측한 결과가 ‘90% 정도 맞을 것 같아.’ 혹은 ‘80% 정도 맞을 것 같아.’ 이런 식으로 자기의 예측 정확도에 대한 추정값(estimation)을 함께 줍니다. 그래서 인공지능이 구조를 예측했을 때, 그 예측이 매우 확실하다면 추정값이 80점, 90점으로 높게 나오는데, 그런 경우는 나중에 실험으로 결정화(crystallization)해보면 구조가 거의 일치합니다. 이처럼 거의 정확하게 예측하는 경우가 전체 예측의 50%~60% 정도 되는 것 같습니다. 그 외의 것들 중에서는 ‘이 부분은 맞을 것 같은데, 이 부분은 잘 모르겠다.’ 이런 식으로 예측 정확도가 떨어지는 부분들이 있습니다. 이런 경우 전체적인 구조 예측은 틀렸을 수 있지만, 도메인(domain)* 단위나, 중요한 기능 단위로 봤을 때 정보를 담고 있기는 합니다. 사실 어떤 정보를 어떻게 활용할지 생각하는 것은 결국 사람의 몫이기에, 관심 있는 단백질의 예측 구조를 보고 ‘이게 과학적으로 가능한 구조일까’ 같은 판단은 정확도 추정값이나 추가적인 정보를 바탕으로 사람이 평가해야 할 문제라고 생각합니다.
*도메인(domain) : 단백질의 구조적, 기능적 단위. 도메인들이 모여 단백질의 3차 구조를 형성한다.
Q. 앞서 협업할 AI 엔지니어를 찾지 못해서 어려움을 겪었다고 말씀하셨는데, AI 엔지니어들과 협업해서 단백질 구조 예측 문제에 최적화된 인공지능을 개발한다면 예측이 더 정확해질 수 있을까요?
제 개인적인 생각입니다만, 지금 방법의 한계들은 인공지능 모델 자체를 개선한다고 해도 해결하기 어려울 것 같습니다. 왜냐하면 구글 딥마인드는 이미 세계 최고의 AI 엔지니어들이 충분히 모여 있는 그룹인데, 거기서조차도 특정 부분에 대해서는 예측에 어려움을 겪고 있기 때문입니다. 즉, 지금의 접근 방식이 아닌, 뭔가 추가적인 것이 필요하다는 뜻으로 볼 수 있을 것 같습니다. 앞서도 말씀드렸지만, 지금의 접근 방식은 진화 정보에 상당히 많이 의존하고 있습니다. 진화 정보가 별로 없는 단백질이나, 특정 종만 가지고 있는 굉장히 특이적인 생체 분자에 대해서는 예측이 어렵습니다. 또한, 진화 정보가 부족하거나, 구조가 굉장히 많이 변하는 단백질, 종마다 차이가 심한 단백질에 대한 예측 정확성은 낮을 수밖에 없습니다. 그래서 제 원래 전공인 물리화학을 인공지능에 잘 녹여내면, 진화 정보에서 커버되지 않는 부분에 대해서 보다 정확한 예측을 할 수 있지 않을까 생각하고 있습니다.
Q. AI 기반 방법으로 예측한 단백질 구조 정보들이 신약 개발에 어떻게, 얼마나 도움이 될까요?
어떤 환자가 있다고 할 때, 그 질병을 유발하는 요인은 다양하겠지만, 질병의 상당수가 특정 단백질의 기능 이상에 의해 유발됩니다. 그래서 신약 개발을 위해서는, 기능이 상실된 단백질의 기능을 어떻게 회복시킬지, 혹은 과도하게 기능하는 단백질을 어떻게 억제할지에 대한 연구가 필요합니다. 만약 질병을 유발하는 단백질의 3차원 구조를 알고 있다면, 연구를 시작하는 것이 수월할 것입니다. 단백질의 구조를 아무것도 모르는 상태에서 ‘이 단백질이 문제가 되는 것 같은데 신약을 찾아보자.’ 하는 것은 ‘사막에서 바늘 찾기’와 같은 수준이라고 생각합니다. 그래서 구조에 대한 정보가 신약 개발에 많은 도움이 될 것이라고 기대는 하는데, 앞서 말씀 드렸다시피 인공지능이 아직 단백질과 다른 분자의 상호작용까지는 예측하지 못하기 때문에, 이에 대한 지속적인 연구가 필요할 것 같습니다.
Q. 지금까지 교수님께서 개발하신 ‘로제타폴드’에 대한 설명을 들어보았는데, ‘로제타폴드’가 ‘사이언스 선정 2021년 최고 혁신 연구’에 뽑혔다는 소식을 들으셨을 때의 기분이 궁금합니다.
가장 혁신적인 연구를 선정하기 전에 먼저 10개의 후보를 정하고, 투표를 통해 최종선정하는 방식으로 진행됩니다. 처음 10개의 후보 중 하나로 선정 되었을 때, 사이언스 측으로부터 연락을 받아 후보에 들었다는 사실은 인지하고 있었습니다. ‘투표가 끝나면 발표나겠지’ 생각하고 잊은 채 살았는데, 발표되기 하루 이틀 전에 한국 기자님께서 인터뷰를 하고 싶다고 연락주셨습니다. 최종적으로 선정됐다는 사실을 그때 알게 됐고, 상당히 얼떨떨했던 것 같습니다. 사실 ‘로제타폴드’가 분명 중요한 연구이긴 하지만 개인적으로는 ‘올해의 혁신 연구’ 수준이라고는 생각하지 않았는데, 오히려 선정되고 나니까 ‘이게 정말 그만큼 중요한 연구였구나, 앞으로 내가 하는 연구들이 이만큼 영향력이 있는 일들이구나.’ 라는 확신을 가지게 된 것 같습니다. 그래서 처음에는 얼떨떨하고 기분이 좋았던 것 같습니다. 상금이 있었으면 기분이 더 좋았을 것 같네요(농담, 웃음).
Q. 지금은 교수님으로서 이렇게 인터뷰에 응해주시고, 다양한 연구 성과들도 내셨지만, 교수님도 학부생, 대학원생이던 시절이 있었을 것입니다. 교수님께서는 어떤 학생이었나요?
학부생일 때는 교양 과목보다 전공 과목을 좀 더 좋아하던 학생이었고, 동아리를 정말 열심히 했습니다. 제가 SNUPO(서울대학교 오케스트라 동아리)라는 동아리에서 10회 연속으로 오케스트라 무대에 섰거든요. 수석 단원도 두 번이나 하고(웃음). 그런 식으로 공부만 하는 게 아니라, 동아리 활동 같은 것을 통해서 다양한 경험을 해보려고 노력했던 것 같습니다. 지금까지도 동아리를 했던 게 가장 잘한 일이라고 생각이 되는 게, 악기 연주 실력 이런 것도 물론 있겠지만, 동아리를 하면서 정말 다양한 단과대의 친구들을 만날 수가 있었거든요. 만약 학과 생활만 했으면 계속 화학과 친구들만 만났을 텐데, 자연대의 다른 학과나, 공대, 인문대, 음대 같은 다양한 단과대 친구들을 만나면서 생각의 폭이 넓어지는 계기가 됐던 것 같아요. 그리고 인공지능 같은 걸 배울 때도 그런 쪽으로 연구하는 친구들이 있으니까 도움을 더 쉽게 요청할 수 있고, 친구들한테 편하게 물어볼 수도 있어서 좋았습니다. 그래서 동아리가 제 생각의 폭과 경험의 폭을 많이 늘려줬던 것 같아요. 대학원생 때는… 그냥 연구실 열심히 성실하게 잘 나가는 학생이었습니다(웃음).
Q. 서울대학교에는 각자의 꿈을 찾아서 온 학생들도 있고, 아직 구체적인 진로를 정하지 못해서 여러 경험을 해보고 있는 학생들도 있습니다. 마지막으로 그런 학생들에게 조언 부탁드립니다.
저는 자기가 뭘 가장 재밌어하는지, 어떤 걸 할 때 가장 즐거워하는지를 깨닫기 위해서 본인을 관찰하는 게 필요하다고 생각해요. 물론 놀 때는 그냥 노니까 즐겁긴 한데 노는 걸 직업으로 삼을 수는 없잖아요(웃음). 제가 어떤 걸 제일 좋아하고 잘하는지를 곰곰이 생각해 보니까 저는 연구 쪽을 가장 재밌어하더라고요. 그냥 수업을 듣는 것에서 그치지 않고, 수업에서 파생된 질문들에 대한 답을 더 찾아보거나, 인턴, 혹은 연구 실습을 해보면서, 어떤 주제에 대해 나만의 프로젝트를 처음부터 끝까지 진행하는 과정이 재밌었거든요. 그래서 제 적성이 연구 쪽이랑 잘 맞겠다는 생각이 들어서 대학원까지 진학했던 것 같아요. 이런 식으로 학부 때 다양한 경험을 하시면서 자기가 어떤 일을 할 때 가장 즐거운지 알아가시면 좋을 것 같습니다. 그리고 만약 내가 즐겁게 느끼는 일을 평생 한다면 힘든 일이 있어도 포기하지 않고 계속할 수 있지 않을까 생각합니다.
지금까지 인터뷰에 응해주셔서 감사합니다.
자연과학대학 홍보기자단 자:몽 김세영 기자 clamman21@snu.ac.kr
카드뉴스는 자:몽 인스타그램 @grapefruit_snucns에서 확인 가능합니다.