Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルによるAI創薬の進展 / Advancements in AI-Driven Dru...

tsurubee
March 13, 2025

言語モデルによるAI創薬の進展 / Advancements in AI-Driven Drug Discovery Using Language Models

tsurubee

March 13, 2025
Tweet

More Decks by tsurubee

Other Decks in Research

Transcript

  1. 6 • 抗体は、体内に侵入したウイルスや細菌などの有害な異物 (これを「抗原」という)を排除する ために、免疫システムによって生成されるタンパク質である。 抗体とは • この抗体を利用して病気の予防や治療を行う薬が抗体医薬であり、抗体は現在、ヒトの病気を 治療するための重要な創薬モダリティの一つである。 •

    タンパク質は1文字のアルファベットで表される20種類のアミノ酸が鎖状に並んだアミノ酸配列 で表現できる。 [Kovaltsuk+, 2017] How B-Cell Receptor Repertoire Sequencing Can Be Enriched with Structural Antibody Data 出典:[Kovaltsuk+, 2017]のFigure 1
  2. 8 抗体と自然言語 出典:[Ofer+, 2021]のFigure 1 [Ofer +, 2021] The language

    of proteins: NLP, machine learning & protein sequences • 抗体(タンパク質)は、20種類のアミノ酸という「単語」を並べた「文章」である。 • 単語の並び順によって文章の意味が決定されるように、アミノ酸配列の並び順によってタンパク 質の立体構造や生物学的な機能が決定される。
  3. 9 タンパク質言語モデル • Metaは、膨大なタンパク質配列データで学習したESM (Evolutionary Scale Modeling)という のタンパク質言語モデルを開発している。 • ESM-2

    [Lin+, 2023]は、6.5億のタンパク質配列を用いて学習された最大150億パラメータを持つ タンパク質言語モデルであり、タンパク質の構造・機能の予測に応用されている。 出典:[Lin+, 2023]のFigure 2 [Lin+, 2023] Evolutionary-scale prediction of atomic-level protein structure with a language model
  4. 10 抗体言語モデル 自然言語の分野で医療や法律などに特化したドメイン特化型言語モデルの開発が進んでいるのと 同様に、タンパク質言語モデルにおいても抗体に特化した抗体言語モデルの開発が進んでいる。 代表的な抗体言語モデルの研究 [1] Deciphering antibody affinity maturation

    with language models and weakly supervised learning (2021). [2] Deciphering the language of antibodies using self-supervised learning (2022). [3] AbLang: an antibody language model for completing antibody sequences (2022). [4] On pre-training language model for antibody (2023). [5] Rapid discovery of high-affinity antibodies via massively parallel sequencing, ribosome display and affinity screening (2024). [6] Enhancing antibody language models with structural information (2023). [7] Large scale paired antibody language models (2024). [1] [2] [3] [4] [5] [6] [7] [3]
  5. 13 作成した2つのデータセット 1. VHHCorpus-2M 2. AVIDa-SARS-CoV-2 VHH sequence Antigen sequence

    Label D R T S W S A … M F V F L V L L … 1 G S R T Y Y A … M P M G S L Q … 0 … … … VHH sequence K P E D T A V … K V D D A A V … … 事前学習 ×5 2,040,988サンプル SARS-CoV-2 変異体 ×2 ラベリング ファインチューニング 性能評価 77,003サンプル
  6. 20 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models

    Evaluation ベースラインモデル タンパク質 抗体 事前学習なし VHHCorpus-2M AVIDa-SARS-CoV-2
  7. 21 ベンチマークタスク・モデル Pre-trained Language Models Pre-training Fine-tuning Fine-tuned Language Models

    Evaluation VHHCorpus-2M データセット分割 片方の個体が生成した抗体を学習し、 もう片方の個体が生成した抗体を予測する。 AVIDa-SARS-CoV-2
  8. 23 まとめ • 抗体は、体内に侵入したウイルスや細菌などの有害な異物を排除するために、免疫システムに よって生成されるタンパク質であり、1文字のアルファベットで表される20種類のアミノ酸が 鎖状に並んだアミノ酸配列で表現できる。 1. 抗体とは 2. 抗体言語モデル

    3. NeurIPS 2024採択論文 • 抗体は、アミノ酸という「単語」が特定の構造的・機能的な規則(文法)に従って並べられた 「文章」として捉えられる。 • 近年、抗体配列に特化して学習させた抗体言語モデルの開発が盛んに行われている。 • アルパカが持つ特殊な抗体 (VHH)は、アミノ酸配列の効率的なデータ化に適していることから、 これを利用して抗体言語モデルの事前学習用およびファインチューニング・性能評価用のデー タセットを作成し、ベンチマーク実験を行った。