事前学習DNA言語モデルを用いた植物ゲノムの単一ヌクレオチド分解能での種間モデリング
植物ゲノムの種間モデリングにおけるマイルストーン:PlantCaduceus DNA言語モデルの創出と画期的応用
1. 学術的背景と研究動機
過去20年間、ハイスループットシーケンシング技術の急速な発展とともに、1000種を超える植物ゲノムが公開されており、今後もこの数は急増し続けると予想されています。しかし、これら膨大なゲノムの機能要素注釈、それらの転写と翻訳レベルにおける発現調節の理解、さらに異なる遺伝変異が個体の適応性や形質に及ぼす影響の解析は、植物ゲノム学および作物改良分野で解決が求められる「ボトルネック」課題です。
動物やヒトと比較して、植物ゲノムはより複雑な構造を持ち、ゲノムサイズは巨大で、反復配列の割合が非常に高く、種間多様性が極めて大きいだけでなく、同属・同種内部でも著しいバリエーションを有しています。このため、単一種に基づくディープラーニング(Deep Learning、DL)モデルは、特定種内でのみ良好な性能を示すことが多く、種を超えた汎用化が困難です。これが、新規にシーケンスされた植物(特に非モデル種)の遺伝子機能注釈や変異効果予測の能力を著しく制限しています。一方で、大規模なラベル付きデータは植物分野では非常に不足しており、従来型の教師ありディープラーニングでは非ラベル種への効率的な拡張ができません。
近年、自然言語処理(NLP)における自己教師あり事前学習言語モデル(Language Model, LM)の発展を受けて、生物配列データの事前学習モデルは強力な特徴抽出と汎化能力を有することが実証されてきました。タンパク質言語モデル(ESM等)は、タンパク質構造予測や変異効果識別等で成果を上げていますが、これはコーディング領域のみに解析範囲が限られており、非コーディング領域や調節エレメントには対応できません。一方、DNA言語モデルは、非コーディング領域や調節領域を含めたゲノム全体の配列情報をカバーできる可能性を有します。
しかし、DNA言語モデルは植物ゲノムの課題に直面します。(1)複雑な反復配列により、意味のないパターンにモデルが偏りやすく、生物学的機能に関係する言語規則の獲得が難しいこと、(2)非コーディング領域の保存性が低くノイズが多いため、学習時にデータバイアスが発生しやすいこと、(3)DNAは二重鎖構造であり、正鎖と逆相補鎖(reverse complement, RC)の情報対称性を十分考慮する必要があることです。
そのため、合理的な仕組み・豊かな特徴表現・種間汎用化能力を兼ね備えた植物DNA言語モデルの開発は、現代植物ゲノム学研究における「画期的ニーズ」となっています。
2. 論文出典および著者紹介
本研究論文「Cross-species modeling of plant genomes at single-nucleotide resolution using a pretrained DNA language model」は、Jingjing Zhai、Aaron Gokaslan、Yair Schiff、Ana Berthel、Zong-Yan Liu、Wei-Yun Lai、Zachary R. Miller、Armin Scheben、Michelle C. Stitzer、M. Cinta Romay、Edward S. Buckler、Volodymyr Kuleshovらにより共同執筆されました。著者は主にCornell University(コーネル大学)ゲノム多様性研究所、計算機科学科、植物育種・遺伝学部およびUSDA(米国農務省)からなり、関連するNSFおよびNIH助成金の支援を受けています。
本論文は2025年6月9日にPNAS(米国科学アカデミー紀要)に掲載され、分野を代表する国際学術誌です。論文全文、事前学習データ、モデルコードはすべて公開されており、オープンサイエンスの精神が示されています。
3. 研究フロー詳細
1. 研究対象とデータセット
(1)事前学習データの出典と処理
本プロジェクトは、イネ科(Poaceae)およびアブラナ目(Brassicales)の2系統16種の被子植物(angiosperm)ゲノムを用い、1億6000万年の進化史をカバーします。モデル植物や作物(シロイヌナズナ、イネ、トウモロコシ、コムギ等)を含み、ゲノムサイズと反復配列含有量に大きな多様性を持つため、種間解析の理想的な基盤となっています。
各ゲノムは512bpウィンドウに細分され、単一ヌクレオチド(single-nucleotide)単位でトークン化され、HA級分解能に接近します。従来の全ゲノム網羅型サンプリングと異なり、PlantCaduceusはGPNプロジェクトの手法を踏襲し、反復非コーディング領域をダウンサンプリング・重み付けし、機能的意義の大きい領域の学習を強化、反復配列による「ハイジャック」効果を最小化しています。
(2)特徴テストおよび下流評価データセット
すべてのモデルは無教師事前学習完了後、以下タスクで汎化力・機能解釈能力を検証しました:
- 遺伝子注釈4大タスク(転写開始点TIS、転写終止点TTS、スプライスドナー/アクセプターサイト)
- 進化保存性(Andropogoneae 34ゲノムによるサトウキビ・ソルガム等の比較)
- 変異効果ゼロショット予測(zero-shot、突然変異が遺伝子機能に及ぼす潜在的影響評価)
2. 研究フローと技術実装
(1)DNA言語モデルPlantCaduceusの革新的アーキテクチャと事前学習
モデルアーキテクチャの革新
本研究は、Mamba(Selective State Space Model、SSM)系統のCaduceusモデルを採用し、DNAに特化した最適化を行いました:
- 512bpの超長コンテキストウィンドウをサポートし、長距離依存性学習能力を大幅向上。
- DNAの二重鎖RC対称性を「等変性(RC-equivariance)」としてモデル化し、強いプリオリティを持たせ、正鎖と逆鎖情報を等価に処理、特徴の冗長性を回避。
- 単一ヌクレオチドでトークン化し、6-mer等主流方式より高分解能で「1塩基変異」効果の精密対応が可能。
- チャンネル反転と特徴平均により、出力embeddingがRC等変性を厳密に満たす。
事前学習戦略
- 15%ランダムマスク(BERT標準)、80%はspecial tokenで置換、10%はランダムに置換、10%は元の塩基を保持。
- AdamW最適化+Cosine decay学習率、最優モデル225Mパラメータ、8枚H100 GPUで25日間学習。
- 各ウィンドウごとに、タスクはマスクされた塩基の実際のタイプを予測、全下流機能へのインタフェースは最終隠れ層のembedding抽出で統一。
(2)下流タスク設計とモデル評価
a. 種間遺伝子機能注釈評価
- シロイヌナズナの高精度注釈TIS、TTS、スプライスサイトを訓練データとして、embedding抽出後にXGBoost(非線形モデル)と線形層分類器を訓練、下流分類タスクを実装。
- 4大タスクの各々で、訓練セット(シロイヌナズナ)およびテストセット(トウモロコシ、イネ、ワタなど、事前学習に含む/含まない種)でモデル表現力と汎化力を検証。
- 同時に、GPN、AgroNT(Transformer骨格、1Bパラメータ)、NT-v2(動物大モデル)、および伝統的CNN+LSTMを基盤とした教師ありDanQモデルと比較評価。
b. 種間進化保存性予測
- ソルガム34種とイネ外群のゲノムアライメントに基づき、Identity値でconserved(≥34)とneutral(<15)塩基をラベル付けし、2億7700万位点の大規模不均衡データセットを構築。
- ソルガムの9染色体で訓練、10染色体で検証、種を超えてトウモロコシへ転移テストも実施。
- モデルembedding出力後、XGBoostによる二値分類器を訓練し、性能はAUROC・AUPRCで評価。
c. ゼロショット変異効果予測:病原性/有害変異識別の新手法
- in silico mutagenesis(全ゲノム変異シミュレーション)を通じ、リファレンスと変異等位遺伝子のlog-likelihood差(zero-shot score)を変異効果指標とした。
- トウモロコシ、サトウキビ、シロイヌナズナ、SNP集団シーケンシング等、100万超の実際/シミュレーション変異データを網羅。
- 主流MSA推論法PhyloP・PhastCons、GPN、AgroNTと比較打点性能を詳細検証。
(3)手法/モデル比較・消去実験
- GPN比較の公平性担保のため、パラメータや学習ステップ揃えたオリジナルGPNを特別に設計し、多ゲノム集約やネットワーク拡張の汎化性能への寄与を解析。
- AgroNTはパラメータ量が膨大でBrassicales集合事前学習が困難なため、LoRAファインチューニングによりフリーズembeddingの情報不足を補完。
- XGBoostと線形層の多階層解析により、高次元embeddingからの情報抽出に複雑モデルが必要か否かを検証。
4. 主要発見とデータによる裏付け
1. 新モデルPlantCaduceusの汎用性と表現力
- 4種の遺伝子注釈タスク(TIS、TTS、スプライスドナー/アクセプター)では、PlantCaduceusはembedding固定でも線形層微調整でもシロイヌナズナ内部評価(AUPRC値平均>0.94)で既存モデルを凌駕または匹敵。
- 最も大きな飛躍は種を超えたテストで(例:トウモロコシ・ワタ等)、PlantCaduceusの種間AUPRCはシロイヌナズナの0.789から0.764にとどまり、GPN(0.509)、AgroNT(0.106)、NT-v2等に大差、DanQはほぼ失敗(AUPRC≒0)。
- 消去実験により、事前学習種数の増大・モデルキャパシティの拡大が汎用力を強化することが明らかに。ただしPlantCaduceusは最小20Mパラメータ構成ですら他モデルを凌駕。
- 特に、PlantCaduceusアーキテクチャはパラメータ効率・RC等変性ハンドリングで明瞭な優位性を示した。
2. 進化保存性予測の種間転移性能
- PlantCaduceusはアノテーション不要で、DNA配列embeddingのみで高精度な進化保存性予測が可能:SorghumでAUROC=0.896、AUPRC=0.876、Maize転移でもAUROC=0.829、AUPRC=0.797で他モデルを大幅に上回る。
- 非コーディング領域の保存性予測がタンパク質コード領域を上回る場面もあり、調節エレメント等複雑領域への表現力を強調。
- カスタムGPNやLoRAファインチューニングAgroNTは下流性能は接近するが、PlantCaduceusの極致には及ばず。
3. ゼロショットモデル駆動による疾患変異/有害変異スクリーニング新手法
- シミュレーションと実変異をzero-shot score(log-likelihood差分)で評価した結果、PlantCaduceusはGPN・AgroNTや過去のMSA法(PhyloP・PhastCons)比で致病性・希少アリルへの感度が高く、希少アリルの富集3倍向上。
- 外部検証でシロイヌナズナEMS既知変異スクリーニングでは、19個の表現型既知変異のうち15個がPlantCaduceusスコアでTop1~10%にランクイン。他モデルより大幅に優れ、因果変異・重要育種候補の新たな選抜指標となりうる。
- もちトウモロコシsu1座位GWASシグナルでも、PlantCaduceusは唯一の因果変異W578Rを特定可能で、強いLD(連鎖不均衡)下でのシグナルデコンボリューション問題も解決。
5. 研究結論と学術的/応用的意義
本研究は、PlantCaduceusを代表とする多種事前学習DNA言語モデルスキームを初めて提唱し、植物ゲノム多様性・反復配列複雑性・アノテーション欠如・二重鎖RC等変性という一連の技術的難題を克服しました。同モデルは高精度(配列注釈・調節予測等)、高汎化性(種間転移)、高効率(パラメータ数と計算コスト省力)、かつ単一塩基レベルの機能解析(病原性変異のゼロショット予測等)を兼ね備えます。研究チームはコード・モデル・データも完全公開しており、今後の「千種植物ゲノムプロジェクト」や大規模新種ゲノム機能解読、作物の精密育種・有用素材選抜等分野に強力な基盤と発展可能なプラットフォームを提供します。
さらに、PlantCaduceus発の「ゼロショット変異解釈」手法は、高価な進化保存性多配列アライメントや個別種モデルトレーニングを要さずに疾患・重要変異識別のための新たな道筋を開き、ゲノム医学・集団ゲノム学・多様性作物改良分野にパラダイム転換をもたらします。
6. 研究の特色とイノベーションまとめ
- モデルメカニズムの革新:SSM+Mamba+Caduceusアーキテクチャを採用し、既存TransformerやCNN/LSTM型を上回り、RC等変性を初めて系統的に導入。
- メソッド体系の完全性:データセット処理、事前学習から下流タスク設計、消去実験、多手法モデル比較まで、結論の厳密性と適用範囲の広さを担保。
- 応用価値の多元性:基礎研究(遺伝子機能進化・調節エレメント解読)、作物産業利用(有用/有害変異の迅速発見)、バイオインフォマティクス理論の発展等、多岐に貢献。
- 高い利便性とオープン性:コード・モデル・データをすべて公開し、二次開発や教育リソースとしても有益。
7. その他の補足と展望
- 将来の拡張方向:事前学習ゲノムを裸子植物等さらに多様な系統に拡大し、モデルの汎用性と応用範囲を高める。また、コンテキストウィンドウを数千/万bpに拡張し、遠隔調節エレメントの予測にも挑戦予定。
- 専門技術的詳細:モデルパラメータ(例:32層225M、24層40M等複数バージョン)は、設備リソースに合わせた柔軟運用を可能とする。
- 育種実用機能:モデルは分子育種素材の優良選抜、交雑組合せ設計、有害変異負担の軽減、作物の収量・耐性向上等に直接貢献可能。
PlantCaduceusは次世代植物DNA言語モデルとして、基礎生物学研究を牽引するだけでなく、デジタル精密育種やゲノム医学などの下流実用分野にも革新的なツール基盤を提供し、種間ゲノム注釈と機能解明における著しいブレイクスルーとなるものです。