생성형 AI 기반 단백질 설계의 최신 연구 및 산업 동향 분석 보고서

1부: 생성형 AI 기반 단백질 설계의 혁신 사례 분석

1.1. 개요: 단백질 설계의 새로운 시대, AI의 등장

지난 몇 년간, AlphaFold와 같은 혁신적인 딥러닝 모델들은 단백질 구조 예측 분야에 혁명을 가져왔다. 이 모델들은 아미노산 서열만으로 단백질의 3차원 구조를 높은 정확도로 예측함으로써, 수십 년간 생명과학계의 난제였던 단백질 접힘(protein folding) 문제를 사실상 해결했다.¹ 그러나 이는 본질적으로 자연에 ‘이미 존재하는’ 단백질의 구조를 ‘예측’하는 기술이었다. 단백질 연구의 진정한 패러다임 전환은 여기서 한 단계 더 나아가, 자연에 존재하지 않는 새로운 단백질(De Novo Protein)을 특정 기능을 갖도록 ‘설계’하는 시대가 열리면서 시작되었다.

이러한 패러다임 전환의 중심에는 RFdiffusion과 같은 생성형 AI 모델이 있다. RFdiffusion은 이미지 생성 AI 모델인 DALL-E와 유사한 확산 모델(diffusion model)을 기반으로 하며, 텍스트나 이미지가 아닌 3차원 단백질 백본 구조를 무작위 노이즈로부터 생성하는 기술이다.⁴ 이 모델은 특정 표적에 결합하거나, 원하는 형태적 제약(topology)을 갖도록 조건을 부여하여 단백질 골격(backbone)을 디자인할 수 있다. 이렇게 생성된 단백질 골격에

ProteinMPNN이라는 또 다른 딥러닝 모델을 사용하여 물리화학적으로 안정하고 기능적으로 최적화된 아미노산 서열을 입힌다.⁶ 마지막으로, AlphaFold2 또는 AlphaFold3와 같은 구조 예측 모델을 통해 설계된 단백질이 의도한 대로 접힐지, 그리고 표적과 성공적으로 결합할지 평가하고 검증하는 과정을 거친다.² 이처럼 단일 모델에 의존하기보다, 여러 최첨단 AI 모델을 정교하게 결합한 파이프라인이 생성형 AI 기반 단백질 설계의 표준으로 자리 잡았다. 이는 단백질 연구의 본질을 단순한 ‘관찰’에서 ‘창조’로 바꾸는 근본적인 변화를 의미하며, AI가 과학 연구의 보조 도구를 넘어 핵심적인 ‘디자이너’로 부상했음을 강조한다.

1.2. 암 면역치료를 위한 정밀 표적 바인더 설계

암 면역치료 분야에서 AI 기반 단백질 설계는 기존 치료법의 한계를 극복하는 혁신적인 접근법으로 주목받고 있다. 특히, T세포가 암세포를 인식하는 데 사용하는 ‘펩타이드-주조직적합성복합체(pMHC)’를 표적으로 삼는 바인더(binder) 설계는 정밀 암 치료의 핵심 기술로 부상하고 있다.

1.2.1. NY-ESO-1 표적 T 세포 수용체 모방체(TCRm) 설계

Karsten D. Householder et al.의 연구는 AI를 활용하여 기존 항체의 한계를 극복하는 새로운 형태의 T세포 수용체 모방체(TCRm)를 설계하는 데 성공했다.⁶ 전통적으로 TCR의 기능을 모방하기 위해 개발된 TCRm 항체는 유연한 상보성 결정 영역(CDR) 루프를 가지고 있어, 펩타이드보다 MHC 분자의 나선(helix)에 더 강하게 결합하는 경향이 있었다. 이로 인해 불필요한 교차 반응성을 유발하고 off-target 독성 위험을 높이는 문제가 있었다.⁶

이러한 문제를 해결하기 위해, 연구진은 RFdiffusion 모델을 사용하여 단단한(rigid) α-나선형 4-helix bundle 구조를 가진 TCRm을 de novo로 디자인했다. 이 구조적 강성은 유연한 항체 루프와 달리, 단백질이 다른 펩타이드에 구조적으로 적응하는(structural adaptation) 것을 방지하고, 특정 펩타이드의 돌출된 부분(up-facing side chains)에만 집중적으로 결합하도록 유도했다.⁶

연구 결과, 이렇게 설계된 mini-TCRm 1.1은 NY-ESO-1 펩타이드에 대해 Kd가 9.5 nM인 매우 높은 친화도를 보였으며, 대조군 펩타이드인 MART-1에는 결합하지 않는 뛰어난 표적 특이성을 입증했다. 이 바인더는 T세포 인게이저(TCE) 또는 키메라 항원 수용체(CAR) T세포로 활용되었을 때, 표적 암세포에 대한 효과적인 세포 독성을 유도하는 것으로 확인되었다. 이는 AI가 단백질의 미시적인 구조적 특성(예: 강성)을 제어하여 기능적 성능을 최적화할 수 있음을 보여주는 중요한 사례이며, 기존 항체 기반 치료제의 한계를 극복하는 새로운 가능성을 제시한다.⁶

1.2.2. 고특이성 pMHC-I 바인더를 활용한 CAR-T 치료제 개발

Bingxu Liu et al.의 연구는 암 환자 집단이 가진 MHC 유전자형과 다양한 신생항원을 포괄하기 위해 필요한 수백, 수천 개의 특이적 바인더를 효율적으로 설계할 수 있는 범용적인 AI 파이프라인을 제시했다.⁶ 기존 방법들은 고비용과 낮은 성공률로 인해 광범위한 표적에 적용하기 어려웠다.⁶

이 연구는 RFdiffusion과 ProteinMPNN을 결합한 파이프라인을 통해 바이러스, 종양 관련 항원, 신생항원 등 11개의 다양한 pMHC-I 복합체에 대한 바인더를 성공적으로 설계했다. 특히 주목할 만한 점은, 계산적으로 비용이 많이 드는 de novo 설계 대신 ‘부분 확산(partial diffusion)’ 기법을 사용하여 하나의 성공적인 바인더 스캐폴드를 여러 pMHC-I 표적에 효율적으로 재설계할 수 있음을 입증한 것이다. 이는 pMHC-I 구조가 펩타이드만 다를 뿐 MHC 골격은 유사하다는 점을 활용한 전략이다.⁶

실험적으로, 이렇게 설계된 바인더들은 CARs(chimeric antigen receptors)에 통합되어 표적 펩타이드에 대한 특이적인 T세포 활성화를 유도하는 것으로 확인되었다. 예를 들어, 신생항원 CTNNb1의 돌연변이 펩타이드에 대한 바인더 ctnnb1-15는 돌연변이 부위인 F5와 집중적인 상호작용을 통해 높은 특이성을 보였다.⁶ 이 연구는 AI 기반 단백질 설계가 광범위한 표적에 대한 치료제를 개발하는 데 있어 확장성(scalability) 문제를 해결하는 중요한 통찰을 제공하며, 개인 맞춤형 암 치료의 실용화에 한 발 더 다가서게 한다.

1.2.3. 신생항원 미니바인더(miBd) 설계와 T세포 매개 세포 독성

Kristoffer Haurum Johansen et al.의 연구는 AI 기반 단백질 설계 파이프라인을 더욱 정교하게 개선하여, 구조가 알려지지 않은 신생항원 표적에 대한 바인더를 성공적으로 디자인하는 가능성을 제시했다.⁶ 이 연구는 AI 예측의 한계인 false positive(실험에서 실패할 가능성이 높은 예측)를 줄이는 계산 전략에 초점을 맞췄다.

연구진은 RFdiffusion과 ProteinMPNN 기반 설계 파이프라인에 in silico 교차 스크리닝과 분자 동역학(MD) 시뮬레이션을 통합했다. in silico 교차 스크리닝은 AI 모델이 예측한 결합 구조를 기반으로, 잠재적인 off-target 펩타이드와의 결합 가능성을 사전에 예측함으로써 실험 후보를 압축하는 데 사용되었다.⁶ 나아가, MD 시뮬레이션은 단백질-표적 결합이 단순히 정적인 구조뿐만 아니라 동적인 유연성에 의해서도 결정된다는 점을 고려하여, 결합 인터페이스의 동적 안정성과 상호작용 에너지 변동을 정량적으로 평가하는 데 활용되었다.⁶ 이러한 다층적 계산 검증을 통해 연구진은 NY-ESO-1에 대한 미니바인더 NY1-B04를 성공적으로 식별했다. 이 바인더는 6.92 nM의 높은 친화도를 보였으며, cryo-electron microscopy(cryo-EM) 구조 분석을 통해 AI 모델의 예측과 거의 일치함을 확인했다.⁶ 이 miBd를 탑재한 T세포는 IMPAC-T(immune-targeting minibinder for pMHC activated cytotoxic T) 세포로 명명되었으며, NY-ESO-1을 발현하는 흑색종 세포를 효과적으로 사멸시키는 것을 증명했다.

특히 중요한 점은, 이 파이프라인을 AlphaFold2로 구조를 예측한 신생항원(RVTDESILSY)에도 적용하여 성공적인 바인더를 발굴했다는 것이다. 이는 실험적 구조 데이터가 없는 경우에도 AI 기반 단백질 설계가 효과적으로 작동할 수 있음을 보여주며, 개인 맞춤형 암 치료에 적용될 잠재력을 강력하게 시사한다.⁶

표 1: 주요 연구 논문 요약 비교 (AI 기반 단백질 설계 사례)

연구 논문	핵심 주제	주요 타겟	주요 AI 모델/기술	핵심 전략 및 기술적 의의	주요 성과
Householder et al.	TCR 모방체(TCRm) 설계	NY-ESO-1 / HLA-A*02	RFdiffusion, ProteinMPNN	구조적 강성(Rigidity): 유연한 항체 대신 단단한 α-나선 구조로 off-target 독성 감소.	9.5 nM 친화도, 높은 특이성, CAR T세포 기능 입증.
Liu et al.	범용적 pMHC-I 바인더 설계	11개 pMHC-I 복합체	RFdiffusion, ProteinMPNN, AlphaFold2/3	설계 확장성(Scalability): ‘부분 확산(partial diffusion)’으로 하나의 스캐폴드를 여러 타겟에 재설계.	11개 타겟에 대한 특이적 바인더 성공, CAR T세포 활성화 입증.
Johansen et al.	신생항원 miBd 설계	NY-ESO-1, 신생항원 RVTDESILSY	RFdiffusion, ProteinMPNN, AlphaFold2/3, MD	예측 신뢰도 강화: in silico 교차 스크리닝 및 MD 시뮬레이션으로 false positive 감소.	6.92 nM 친화도, cryo-EM으로 구조 확인, 신생항원 바인더 발굴.

1.3. 치명적인 독소 중화제를 위한 De Novo 단백질 설계

암 면역치료 분야 외에, 생성형 AI 기반 단백질 설계는 뱀 물림(snakebite)과 같은 ‘소외된 열대 질병(neglected tropical disease)’에 대한 해결책으로도 제시된다. Susana Vázquez Torres et al.의 연구는 현재의 뱀 독소 치료제인 항혈청(antivenom)의 한계를 극복하기 위해 AI를 활용한 새로운 접근법을 탐구했다.⁶

기존 항혈청은 면역화된 동물의 혈장에서 유래한 다클론 항체로, 생산 비용이 높고, 운송에 냉장 유통망(cold-chain)이 필수적이며, 아나필락시스(anaphylaxis)와 같은 심각한 부작용을 일으킬 수 있다. 또한, 뱀 독소의 일부 성분(three-finger toxins, 3FTx)에 대한 중화 능력이 제한적이라는 문제도 있었다.⁶

연구진은 RFdiffusion 모델을 사용하여 뱀 독소 3FTx 계열의 짧은 사슬(short-chain) 및 긴 사슬(long-chain) α-신경독소, 그리고 세포독소(cytotoxin)를 중화하는 단백질 바인더를 de novo로 설계했다. 이 단백질들은 재조합 DNA 기술을 통해 생산되어 배치별 편차(batch-to-batch variation)가 적고, 미생물 발효를 통해 저렴하게 대량 생산될 수 있다.⁶

주요 결과로, 설계된 단백질 바인더들은 탁월한 열 안정성(Tm>95℃)과 나노몰 수준의 높은 결합 친화도(Kd=0.9 nM, 1.9 nM)를 보였다. in vitro 실험에서 모든 3FTx 하위 계열을 효과적으로 중화했으며, 생쥐 모델을 대상으로 한 치사량 신경독소 공격 실험에서는 독소 투여 후 15분 뒤에 바인더를 투여하는 구제(rescue) 실험에서 100% 생존율을 달성하며 뛰어난 in vivo 효능을 입증했다.⁶

이 연구는 AI 기반 단백질 설계가 단순한 기술적 혁신을 넘어, 사회적 가치를 창출할 수 있는 잠재력을 보여준다. 즉, 저비용, 고안정성으로 생산된 치료제가 냉장 시설이 부족한 저개발국에 널리 보급될 수 있는 길을 열어, 치료제 개발의 민주화(democratization of therapeutic discovery)에 기여할 수 있음을 시사한다.⁶

1.4. 단일 구조 예측을 넘어선 단백질 기능 시뮬레이션

단백질의 기능은 정적인 구조만으로 온전히 설명될 수 없으며, 활성 상태와 비활성 상태 사이의 움직임과 같은 동적인 변화에 크게 의존한다.⁸ AlphaFold와 같은 기존 모델은 이 동적 변화를 포착하는 데 한계가 있었다.¹

Sarah Lewis et al.의 연구는 이 한계를 극복하기 위한 혁신적인 딥러닝 시스템인 BioEmu (Biomolecular Emulator)**를 소개한다.⁶

BioEmu는 AlphaFold2의 시퀀스 인코딩과 확산 모델을 결합하여 단백질의 평형 앙상블(equilibrium ensembles)을 에뮬레이션하는 시스템이다. 이는 특정 시점의 구조 하나를 예측하는 것이 아니라, 단백질이 가질 수 있는 다양한 구조적 상태들의 확률적 분포를 학습하고 생성한다. 모델은 세 단계의 방대한 데이터로 훈련되었다. 첫째, AlphaFold 데이터베이스의 수억 개 구조를 활용한 사전 훈련. 둘째, 수천 개의 단백질에 대한 200밀리초 이상의 분자 동역학(MD) 시뮬레이션 데이터를 활용한 훈련. 셋째, 50만 개 이상의 실험적 단백질 안정성 측정 데이터를 활용한 미세 조정(fine-tuning)이다.⁶

BioEmu의 성능은 MD 시뮬레이션과 비교하여 탁월한 효율성을 보여준다.⁶ 단일 GPU로 시간당 수천 개의 독립적인 구조 샘플을 생성할 수 있어, MD 시뮬레이션 대비 4-5배 빠른 속도를 달성한다. 예측 정확도 면에서도 MD 시뮬레이션과 비교했을 때 자유 에너지 차이의 평균 오차가 1 kcal/mol 미만으로 필적하는 수준이다.⁶ 이를 통해 도메인 움직임, 국소적 풀림(local unfolding), 그리고 기존 MD 시뮬레이션으로 발견하기 어려웠던 숨겨진 결합 포켓(cryptic binding pockets)의 형성 등 단백질 기능의 핵심인 동적 변화를 효율적으로 포착할 수 있음을 입증했다.⁶

이 연구는 AI가 MD 시뮬레이션의 샘플링 문제(sampling problem)라는 오랜 난제를 해결하는 강력한 보완 도구임을 보여준다. MD는 여전히 복잡한 분자 상호작용의 물리적 법칙을 탐구하는 데 필수적이지만, 엄청난 계산 비용과 시간(BioEmu 대비 수만~수십만 배)이 소요된다. BioEmu는 이와 같은 복잡한 MD 시뮬레이션의 결과를 극히 효율적인 비용으로 모방함으로써, 신약 개발에서 결합 포켓을 식별하거나 돌연변이의 영향을 예측하는 등 다양한 분야에 새로운 기회를 제공한다.⁶

2부: 핵심 방법론 및 기술적 통찰

2.1. De Novo 단백질 설계 파이프라인의 주요 AI 모델 및 역할

생성형 AI를 활용한 단백질 설계의 성공은 단일 모델의 성능에 의존하기보다, 각기 다른 기능을 가진 여러 AI 모델이 유기적으로 결합된 정교한 파이프라인에 의해 달성된다.

RFdiffusion: 이 모델은 파이프라인의 시작점에서 단백질의 3차원 백본(backbone)을 de novo로 생성하는 역할을 한다.⁴ 마치 화가가 스케치를 하듯, RFdiffusion은 사용자가 지정한 조건(예: 특정 표적 단백질에 결합, 특정 3D 모양)에 맞는 단백질 골격을 생성한다. 이는 기존의 단백질 라이브러리 스크리닝 방식과 달리, 완전히 새로운 구조를 디자인할 수 있게 해주는 핵심적인 생성(generative) 기술이다.⁵
ProteinMPNN: RFdiffusion이 생성한 3차원 백본은 아직 아미노산 서열이 정의되지 않은 상태다. ProteinMPNN은 이 백본에 가장 잘 접히고(fold), 동시에 기능적으로 효과적일 아미노산 서열(sequence)을 설계하는 역할을 한다.⁴ 이 모델은 또한, 설계된 바인더가 표적 펩타이드에만 특이적으로 결합할지, 혹은 유사한 off-target 펩타이드에도 결합할지 예측하는 데 사용될 수 있다. 이 모델의 예측 점수는 잠재적인 cross-reactivity 위험을 평가하는 데 중요한 지표가 된다.⁶
AlphaFold2/3: 이 모델은 생성된 단백질 설계의 품질을 검증하고 평가하는 역할을 한다. RFdiffusion과 ProteinMPNN이 생성한 단백질 서열-구조 쌍을 입력으로 받아, 해당 서열이 의도한 3차원 구조로 안정적으로 접힐지 예측하고, 바인더와 표적 단백질 간의 결합 인터페이스가 얼마나 신뢰할 만한지 iPAE(interface predicted aligned error)와 pLDDT(predicted local distance difference test)와 같은 지표로 점수화한다.⁶ iPAE 점수가 낮을수록(일반적으로 <10.0), 설계된 바인더-표적 복합체의 결합 구조가 안정적일 가능성이 높다고 판단된다.⁶ 이 검증 과정을 통해 수천 개의 초기 디자인 후보 중 성공 가능성이 높은 소수의 후보들을 효율적으로 선별할 수 있다.

표 2: AI 단백질 설계 파이프라인의 핵심 모델 기능 분석

모델명	주요 역할	기술 원리	주요 지표 및 의미	장점	한계점
RFdiffusion	단백질 백본 생성	확산 모델 기반 de novo 생성	–	–	3D 백본 디자인의 핵심.
ProteinMPNN	아미노산 서열 설계	뉴럴 네트워크 기반 서열 예측	–	–	주어진 백본에 최적의 서열을 빠르게 디자인.
AlphaFold2/3	구조 예측 및 검증	딥러닝 기반 구조 예측	iPAE: 결합 인터페이스 신뢰도(낮을수록 좋음).	생성된 디자인의 안정성을 빠르게 평가.	단일 정적 구조 예측에 초점이 맞춰져 있음.
BioEmu	동적 앙상블 에뮬레이션	확산 모델, MD 데이터 학습	자유 에너지 차이: 평형 상태 간 에너지 차이.	정적 구조 예측의 한계를 넘어 단백질 동역학 예측.	아직 단일 사슬 단백질에 국한됨.

2.2. 표적 특이성 및 안전성 확보를 위한 계산 전략

AI 기반 단백질 설계의 가장 중요한 도전 과제 중 하나는 특이성(specificity)을 확보하여 임상적 안전성을 담보하는 것이다. 특히, 항암 면역치료제 바인더의 경우, 건강한 세포에 발현되는 유사 펩타이드와의 미세한 교차 반응조차 치명적인 부작용을 초래할 수 있다.⁶ 이를 해결하기 위해 정교한 계산적 전략들이 파이프라인에 통합되고 있다.

In silico 교차 스크리닝: AI 모델의 예측을 기반으로 잠재적인 off-target을 사전에 예측하고 선별하는 방법이다. Karsten D. Householder et al.의 연구는 14,363개의 HLA-A*02 제시 펩타이드 데이터베이스를 대상으로 AI 모델을 활용한 스크리닝을 수행하여, 잠재적 off-target 펩타이드 두 개를 정확히 예측했다.⁶ Johansen et al.의 연구에서는 펩타이드 돌연변이체 패널에 대한 in silico 교차 스크리닝을 통해 실험 전 후보를 압축했으며, 이 예측이 in vitro 실험 결과와 높은 상관관계를 보였다.⁶ 이는 임상 진입 전 계산적 방법으로 안전성 문제를 최소화하려는 필수적인 단계로 자리 잡고 있다.
분자 동역학(MD) 시뮬레이션: AI 모델은 주로 정적인 결합 구조를 예측하는 데 강점을 가지지만, 단백질-표적 결합의 실제 안정성은 동적인 유연성과 상호작용 에너지의 변동에 의해 크게 좌우된다. Johansen et al. 연구에서 MD 시뮬레이션은 AI 예측의 이러한 정적 한계를 보완하는 중요한 도구로 활용되었다. MD 시뮬레이션을 통해 결합 인터페이스의 유연성 및 상호작용 에너지 변동이 낮은 바인더를 선별함으로써, in vitro 실험의 성공 가능성을 높이는 데 결정적인 역할을 수행했다.⁶ 이는 AI 예측의 불확실성을 관리하고 R&D 효율성을 극대화하기 위해 AI와 고전적인 계산 생물학 방법론을 결합하는 전략의 중요성을 보여준다.

2.3. AI 모델 성능 평가 기준 및 방법

AI 기반 단백질 설계의 신뢰도를 판단하기 위해 여러 정량적, 정성적 평가 지표가 사용된다.

iPAE (interface predicted aligned error): AlphaFold 모델이 예측한 단백질-단백질 결합 인터페이스의 상대적 위치 정확도에 대한 신뢰도를 나타내는 지표다. 낮은 iPAE 값(예: ≤10.0)은 모델이 결합된 두 단백질의 상호 작용을 높은 정확도로 예측했음을 의미하며, 이는 실험적 성공 가능성이 높다는 선행 연구에 의해 입증되었다.⁶
pLDDT (predicted local distance difference test): AlphaFold가 예측한 단백질 구조의 각 아미노산 잔기 위치에 대한 신뢰도를 나타내는 지표다. pLDDT 값이 높을수록(예: >90), 예측된 구조가 실제 구조와 매우 유사할 것으로 예상된다.⁶
RMSD (Root Mean Square Deviation): AI 모델이 예측한 구조와 실제 실험적으로 결정된 구조(예: X선 결정학, cryo-EM) 간의 원자 위치 차이를 나타내는 지표다. RMSD 값이 낮을수록 예측 정확도가 높음을 의미한다. 예를 들어, Liu et al. 연구에서는 AI 모델 예측과 실제 결정 구조의 Cα 원자 RMSD가 0.4 Å에 불과하여, 설계 정확도가 원자 수준에 근접함을 입증했다.⁶
Kd (dissociation constant): 단백질 바인더와 표적 간의 결합 친화도를 나타내는 실험적 지표다. Kd 값이 낮을수록(예: 나노몰(nM) 또는 피코몰(pM) 수준), 결합력이 강함을 의미한다.⁶

이러한 지표들은 AI 모델의 예측 성능을 객관적으로 평가하고, 수많은 후보 디자인을 신속하게 선별하는 데 필수적인 역할을 한다.

3부: 관련 분야 최신 동향 및 미래 전망

3.1. 기술 혁신 동향: ‘AI-Native’ 시대의 도래

2024년과 2025년을 기점으로 단백질 AI 기술은 단일 단백질 구조 예측이라는 초기 목표를 넘어, 단백질의 복잡한 생물학적 기능을 총체적으로 이해하고 창조하는 방향으로 진화하고 있다.

다중 분자 상호작용 예측 (AlphaFold 3): Google DeepMind가 발표한 AlphaFold 3는 단백질뿐만 아니라 DNA, RNA, 리간드 등 다양한 분자들의 복합체 구조를 통합적으로 예측하는 능력을 선보였다.² 이는 신약 개발에서 약물-표적 결합, 유전자 치료, 그리고 복잡한 생체 내 신호 전달 경로를 이해하는 데 획기적인 발전을 가져올 것이다.
동적 앙상블 모델의 부상 (BioEmu, AlphaFlow): BioEmu는 단백질의 정적 구조 예측 한계를 넘어, 그 기능에 필수적인 동적인 움직임과 conformational 상태들의 확률적 분포(equilibrium ensemble)를 효율적으로 에뮬레이션한다.⁸ 이와 유사하게 AlphaFlow 모델은 molecular dynamics(MD) 앙상블을 생성하여 실험 및 생리학적 조건에 더 가까운 단백질 구조를 예측할 수 있다.¹¹ 이러한 기술들은 신약 개발에서 숨겨진 결합 포켓을 발견하거나, 단백질 안정성 변화의 구조적 원인을 밝히는 데 혁신적인 기회를 제공한다.
언어 모델(LLM)의 활용: 단백질 서열을 언어(language)로 간주하는 접근법도 활발히 연구되고 있다. ProtGPS와 같은 모델은 단백질 서열만으로 세포 내 위치(localization)를 예측하고, 특정 위치로 이동할 새로운 단백질을 생성할 수 있다.³
ProteinVAE는 유전자 치료 벡터 단백질을 면역 회피성으로 재설계하는 데 활용되었다.¹² 이러한 모델들은 단백질 설계의 가능성을 서열 수준으로 확장한다.

이러한 기술 혁신들은 단백질을 자연의 존재를 모방하는 대상이 아닌, 인간의 목적에 맞게 재설계(re-designed) 또는 창조(created)하는 AI-Native 시대의 도래를 의미한다. 이는 AI가 단백질 기능 예측을 유전체 규모(genomic scale)로 확장하는 데 중요한 길을 열어줄 것이다.⁶ 또한, AI가 수만 개의 후보를 빠르게 디자인하면, 로봇 자동화 시스템과 같은 고속 실험 플랫폼이 이를 신속하게 검증하는 폐쇄 루프(closed-loop) R&D 시스템이 미래 연구 개발의 표준이 될 것이다.¹³

3.2. 산업 및 상업화 동향: 파트너십과 투자 활성화

생성형 AI 기반 단백질 설계는 기술적 가능성을 넘어, 실제 시장에서 대규모 투자와 전략적 파트너십을 유치하며 산업 생태계를 빠르게 재편하고 있다.

투자 및 시장 성장: 2024년은 AI 기업에 대한 벤처 투자가 사상 최고치를 기록한 해였다. 특히 헬스케어 분야의 AI 스타트업들이 상당한 투자를 유치하며, AI 신약 개발 시장은 2025년까지 1.7억 달러 규모로 성장할 것으로 예상된다.¹⁴ 이러한 투자는 AI 기술이 신약 개발의 속도, 비용, 성공률을 혁신적으로 개선할 것이라는 시장의 기대를 반영한다.
주요 파트너십: 거대 제약사들은 자체적으로 AI 역량을 구축하는 대신, 전문적인 AI 플랫폼 기술을 보유한 바이오텍 스타트업들과의 협력을 통해 기술을 빠르게 내재화하고 있다. 사노피는 BioMap과 10억 달러 규모 이상의 파트너십을 체결했으며, 아스트라제네카는 Absci와 2억 4,700만 달러 규모의 계약을 맺고 AI 설계 항체를 활용한 항암제 후보를 개발하고 있다. 2024년에는 노바티스가 Generate:Biomedicines와, 2025년에는 일라이 릴리가 Big Hat Biosciences와 유사한 대규모 파트너십을 발표했다.¹ 이러한 파트너십은 AI가 단순한 연구 도구를 넘어, 신약 파이프라인의 핵심적인 전략적 동반자로 인식되고 있음을 보여준다.

표 3: AI 기반 신약 개발 주요 파트너십 및 투자 현황 (2024-2025)

파트너십 주체	AI 기술/플랫폼	대상 질환/영역	계약/투자 규모	비고
Sanofi-BioMap	AI 플랫폼	바이오치료제, 항체	10억 달러 초과	2023년 계약
AstraZeneca-Absci	AI 설계 항체	항암제	2.47억 달러	2023년 계약
Novartis-Generate:Biomedicines	단백질 치료제 설계	항체 포함	10억 달러 초과	2024년 계약
Eli Lilly-Big Hat Biosciences	AI 항체 발굴	항체 프로그램 2개	미공개	2025년 계약
Xaira Therapeutics	AI 항체 디자인	항체	10억 달러 초과 투자	2024년 투자 유치

3.3. 임상 적용 및 확장 가능성

AI 기반 단백질 설계의 응용 분야는 항암제, 항독소와 같은 직접적인 치료제 개발을 넘어 광범위한 영역으로 확장되고 있다.

유전자 치료제: ProteinVAE 모델은 면역 반응을 회피하는 유전자 치료제 벡터 단백질을 설계함으로써 치료 효능을 개선하고 부작용을 줄이는 데 활용되었다.¹² 이는 AI가 특정 기능(면역 회피)을 갖는 비천연 단백질을 디자인할 수 있음을 보여준다.
진단: AI는 방대한 유전체, 전사체, 단백질체 데이터에서 복잡한 패턴을 분석하여 새로운 질병 바이오마커를 발굴하고, 암 진단 및 예후 예측의 정확도를 높이는 데 기여한다.¹⁶ 이는
정밀 의학(precision medicine) 실현을 위한 핵심 기술로 주목받고 있다.
산업 효소: ZymCTRL과 같은 생성형 AI 도구는 자연 효소와 유사성이 30% 미만인 새로운 기능성 효소를 설계한다.¹⁷ 이 효소들은 탄소 포집, 바이오 연료 생산, 지속 가능한 산업 공정 등에 활용될 수 있어, 바이오경제(bioeconomy) 전반에 걸쳐 혁신을 주도할 잠재력을 가진다.¹⁷
합성 생물학 및 재료 과학: AlphaFold 3는 단백질, DNA, 리간드 간의 복잡한 상호작용을 예측하는 능력을 통해, 특정 환경에 반응하는 새로운 생체 재료를 디자인하거나, 합성 미생물을 엔지니어링하는 등 합성 생물학 분야의 발전을 가속화하고 있다.²

3.4. 극복해야 할 도전 과제 및 향후 방향성

생성형 AI 기반 단백질 설계는 엄청난 잠재력을 가졌지만, 임상 적용을 위한 현실적인 난제들이 여전히 남아있다.

비천연 단백질의 면역원성(Immunogenicity) 문제: AI가 설계한 de novo 단백질은 자연에 존재하지 않는 외인성(exogenous) 단백질이므로, 인체에 투여 시 예상치 못한 면역 반응(예: 항약물 항체, ADA)을 유발할 위험이 있다.⁶ 이는 치료제의 효능을 떨어뜨리거나 심각한 부작용을 초래할 수 있다.²⁰ 현재의 계산적 예측 방법들은 아직 완전하지 않으며 ²¹, 이 문제를 해결하기 위한 탈면역원화(deimmunization) 설계 전략이 필수적인 연구 과제로 남아있다.⁶
Off-target 독성 위험: 특히 pMHC 바인더의 경우, 수많은 정상 세포에 발현되는 수천 개의 펩타이드 중 단 하나의 펩타이드에 대한 미세한 결합조차 치명적인 부작용을 일으킬 수 있다. 따라서 AI 모델의 예측만으로는 한계가 있으며, 정교한 in silico 스크리닝과 MD 시뮬레이션 등을 통해 잠재적 독성 위험을 철저히 검증하는 노력이 지속되어야 한다.⁶
AI 예측의 불확실성: AlphaFold는 pLDDT 점수로 예측의 신뢰도를 제공하지만, 복잡한 다중 분자 시스템이나 동적인 상태 변화에 대한 예측의 정확도를 어떻게 정량적으로 평가하고 검증할 것인가는 여전히 중요한 연구 과제다.⁷ BioEmu와 같은 모델은 이 불확실성을 관리하기 위한 중요한 발걸음이지만, 아직은 단일 단백질 사슬에 국한되는 등 한계가 있다.⁶

결론: AI 기반 단백질 설계의 현재와 미래

종합적으로 볼 때, 생성형 AI는 단백질 연구의 보조 도구를 넘어, 특정 기능을 가진 단백질을 창조하는 핵심적인 디자이너로 부상했다. RFdiffusion, ProteinMPNN, AlphaFold로 구성된 AI 파이프라인은 정밀 암 치료를 위한 고특이성 pMHC 바인더, 뱀 독소 중화제 등 다양한 기능성 단백질을 성공적으로 설계하며 그 잠재력을 입증했다. 특히, 기존 방법론으로는 해결하기 어려웠던 구조적 강성, 설계 확장성, 예측 신뢰도와 같은 문제들을 AI 기반 계산 전략으로 극복했다는 점에서 그 의의가 크다.

나아가, BioEmu와 AlphaFold 3의 등장은 단백질 AI 기술이 단순한 정적 구조 예측을 넘어, 단백질의 동적인 기능과 복잡한 다중 분자 상호작용을 총체적으로 이해하는 단계로 진화하고 있음을 보여준다. 이러한 기술적 발전은 제약 산업의 R&D 효율성을 혁신적으로 개선할 뿐만 아니라, 유전자 치료, 진단, 산업 효소 개발, 신소재 설계에 이르기까지 광범위한 분야에서 새로운 기회를 창출하고 있다.

물론, 비천연 단백질의 면역원성, off-target 독성과 같은 임상 적용의 난제들은 여전히 극복해야 할 과제로 남아있다. 그러나 AI가 인간 과학자의 창의성을 증폭시키고, 인간의 독창성과 기계의 지능이 협력하여 과학 발전의 새로운 장을 열어가는 분자 르네상스(molecular renaissance) 시대는 이미 시작되었다.¹⁴ 생성형 AI 기반 단백질 설계 기술은 궁극적으로 신약 개발의 민주화를 촉진하고, 인류의 난제를 해결하는 데 중요한 역할을 수행할 것이다.

참고 자료

Strengths and limitations of AlphaFold 2 – EMBL-EBI, 8월 26, 2025에 액세스, https://www.ebi.ac.uk/training/online/courses/alphafold/an-introductory-guide-to-its-strengths-and-limitations/strengths-and-limitations-of-alphafold/
AI for Regenerative Design: Introducing AlphaFold 3 – Biodesign Academy, 8월 26, 2025에 액세스, https://www.biodesign.academy/p/ai-for-regenerative-design-introducing-alphafold-3
AI model deciphers the code in proteins that tells them where to go | MIT News, 8월 26, 2025에 액세스, https://news.mit.edu/2025/ai-model-deciphers-code-proteins-tells-them-where-to-go-0213
Unveiling the Future of Protein Design: RFdiffusion’s De Novo Revolution – CBIRT, 8월 26, 2025에 액세스, https://cbirt.net/unveiling-the-future-of-protein-design-rfdiffusions-de-novo-revolution/
RFdiffusion: A generative model for protein design – Baker Lab, 8월 26, 2025에 액세스, https://www.bakerlab.org/2023/07/11/diffusion-model-for-protein-design/
science.adv3813_De novo design and structure of a peptide–centric TCR mimic binding module.pdf
AlphaFold3: An Overview of Applications and Performance Insights – PubMed, 8월 26, 2025에 액세스, https://pubmed.ncbi.nlm.nih.gov/40332289/
Biochemistry Unfolded (e09): How BioEmu Enhances AlphaFold by Predicting Protein Ensembles – YouTube, 8월 26, 2025에 액세스, https://www.youtube.com/watch?v=iyfiqp9UFk8
2025 Guide to AI-Driven Protein Design & Machine Learning in Structural Biology, 8월 26, 2025에 액세스, https://nanohelix.ai/blog/ai-protein-design-guide-2025
blog.colbyford.com, 8월 26, 2025에 액세스, https://blog.colbyford.com/new-week-new-molecular-ai-models-bioemu-1-and-evo-2-3cc526b52850#:~:text=BioEmu%2D1%20is%20a%20unique,conformations%20of%20your%20folded%20protein.
bjing2016/alphaflow: AlphaFold Meets Flow Matching for Generating Protein Ensembles – GitHub, 8월 26, 2025에 액세스, https://github.com/bjing2016/alphaflow
U of T researchers’ AI model designs proteins to deliver gene therapy | University of Toronto, 8월 26, 2025에 액세스, https://www.utoronto.ca/news/u-t-researchers-ai-model-designs-proteins-deliver-gene-therapy
Designed by AI: the future of antibody drugs – The Pharmaceutical Journal, 8월 26, 2025에 액세스, https://pharmaceutical-journal.com/article/feature/designed-by-ai-the-future-of-antibody-drugs
AI-Powered Molecular Innovation: Breakthroughs and 2025 Growth – Mantell Associates, 8월 26, 2025에 액세스, https://www.mantellassociates.com/ai-powered-molecular-innovation-breakthroughs-and-2025-growth/
The State of the Funding Market for AI Companies: A 2024 – 2025 Outlook | Mintz, 8월 26, 2025에 액세스, https://www.mintz.com/insights-center/viewpoints/2166/2025-03-10-state-funding-market-ai-companies-2024-2025-outlook
AI-driven biomarker discovery: enhancing precision in cancer diagnosis and prognosis – PMC – PubMed Central, 8월 26, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC11906928/
World-first generative AI tool designs enzymes for more sustainable industrial processes, 8월 26, 2025에 액세스, https://www.biosciencetoday.co.uk/world-first-generative-ai-tool-designs-enzymes-for-more-sustainable-industrial-processes/
LICEDB: light industrial core enzyme database for industrial applications and AI enzyme design – Oxford Academic, 8월 26, 2025에 액세스, https://academic.oup.com/database/article/doi/10.1093/database/baaf001/8028993
NSF invests nearly $32M to accelerate novel AI-driven approaches in protein design, strengthening the U.S. bioeconomy, 8월 26, 2025에 액세스, https://www.nsf.gov/news/nsf-invests-nearly-32m-accelerate-novel-ai-driven-approaches
Immunogenicity of protein therapeutics: The key causes, consequences and challenges, 8월 26, 2025에 액세스, https://www.researchgate.net/publication/51046146_Immunogenicity_of_protein_therapeutics_The_key_causes_consequences_and_challenges

AbImmPred: An immunogenicity prediction method for therapeutic antibodies using AntiBERTy-based sequence features – PMC, 8월 26, 2025에 액세스, https://pmc.ncbi.nlm.nih.gov/articles/PMC10889861/