[리뷰] FTGRN: 사전 훈련-미세 조정 패러다임 기반의 범용 유전자 조절 네트워크 추론 프레임워크

최근 거대 언어 모델(LLM)과 파운데이션 모델의 등장은 단순한 텍스트 생성을 넘어 전사체학을 포함한 전반적인 계산 생물학의 패러다임을 송두리째 바꾸고 있습니다. 방대한 데이터로부터 일반화된 표현을 학습하고 이를 특정 문제에 적용하는 전이 학습 방식은, 이제 유전자 조절 메커니즘을 파헤치는 복잡한 연구 영역에서도 핵심적인 역할을 수행하고 있습니다.

이러한 흐름 속에서 최근 발표된 FTGRN(Foundation Transformer for Gene Regulatory Networks)은 기존 유전자 조절 네트워크(GRN) 추론 방식의 고질적인 문제였던 막대한 계산 자원 소모와 낮은 일반화 가능성을 동시에 해결한 혁신적인 프레임워크입니다. 원경재(Kyoung Jae Won) 교수팀이 주도한 이 연구는 사전 훈련과 미세 조정을 결합한 ‘Pretrain-Fine-tune’ 패러다임을 GRN 추론에 도입하여, 단일 세포 전사체 데이터로부터 맥락 특이적인 조절 관계를 전례 없는 속도로 찾아낼 수 있게 했습니다.

FTGRN: 사전 훈련과 미세 조정의 워크플로우

FTGRN은 방대한 생물학적 지식과 실험 데이터를 체계적으로 학습하는 구조를 갖추고 있습니다.

  • 사전 훈련 (Pretrain): GPT-4를 활용해 NCBI 데이터베이스의 유전자 기능 설명을 768차원의 의미론적 임베딩으로 변환합니다. 이를 공개된 ChIP-seq 데이터와 통합하여 트랜스포머 기반의 그래프 신경망(GNN)을 사전 훈련하며 일반적인 조절 패턴을 학습합니다.
  • 미세 조정 (Fine-tune): 사전 훈련된 모델에 사용자의 scRNA-seq 데이터를 입력하여 특정 조건이나 세포 유형에 최적화된 네트워크를 생성합니다. 이 단계에서는 지수 감쇠(Exponential decay) 알고리즘을 사용하여 고신뢰도의 조절 쌍을 우선적으로 식별합니다.
  • LLM 기반 정제: 선택적으로 ChatGPT나 Gemini와 같은 LLM 보조 도구에 특정 전사 인자(TF)의 관련성을 질의함으로써 데이터의 잡음을 줄이고 정밀도를 높이는 과정을 거칩니다.

압도적인 효율성과 예측 성능

FTGRN은 기존의 지도 학습 및 비지도 학습 방법들과 비교했을 때 속도와 정확도 면에서 뛰어난 성능을 입증했습니다.

  • 초고속 추론: 2,000개 유전자에 대한 조절 네트워크 추론을 단 27초 내에 완료하며, 이는 기존 GRNPT 모델 대비 약 4배 이상의 속도 향상을 보여줍니다.
  • 정확도 향상: BEELINE 벤치마킹 결과, 기존 모델인 GRNPT보다 약 5% 높은 AUPRC와 3% 개선된 AUROC 수치를 달성했습니다.
  • 신뢰성: 6개의 단일 세포 데이터셋 전체에서 평균 96.3%의 정확도를 기록하며 기존의 co-expression 기반 방식들을 크게 상회했습니다.

생물학적 검증: 아미노산 기아(AAS) 반응 연구

모델의 실제 적용 능력을 검증하기 위해 아미노산 기아(AAS) 상태의 생쥐 배아 섬유아세포(MEFs) 데이터를 분석했습니다.

  • FTGRN은 스트레스 반응 네트워크를 정확히 재구성하고 c-Jun, ATF4, DDIT3, c-Fos와 같은 핵심 조절 인자들을 허브 노드로 식별했습니다.
  • 특히 예측된 c-Fos의 표적 유전자 10개 중 8개가 실험적으로 유의미한 하향 조절을 보이며 80%의 높은 검증률을 나타냈습니다.

이 연구는 파운데이션 모델을 통한 사전 훈련이 희소한 단일 세포 데이터 내에서도 강력한 조절 지식을 추출할 수 있음을 보여주며, 향후 다양한 질환 연구에서 조절 메커니즘을 밝히는 실용적인 도구가 될 것으로 기대됩니다.


주요 참고문헌

  • FTGRN: Weng et al., Advanced Intelligent Systems, 2026.
  • GenePT: Chen & Zou, bioRxiv, 2024.
  • BEELINE: Pratapa et al., Nat. Methods, 2020.
  • scPRINT: Kalfon et al., Nat. Commun., 2025.

Similar Posts