MHCクラスIIとペプチド配列を利用したインターフェロン-ガンマ放出予測の多様なアプローチの探求
学術的背景と研究の意義
近年、治療用タンパク質(therapeutic proteins)は医学分野での大きな可能性のため、バイオ医薬品産業の研究焦点となっています。治療用タンパク質医薬はその高い標的性を強みとし、従来治療が困難であった急性または慢性疾患(自己免疫疾患、癌など)に対して解決策を提供すると考えられています。1880年代の血清療法の発見から、1986年の初のモノクローナル抗体医薬muromonab-CD3の登場まで、治療用タンパク質市場は拡大の一途をたどり、2032年には推定474億米ドルに到達します。しかし、治療用タンパク質が引き起こす免疫応答(immunogenicity)は、薬物開発者にとって長年の悩みです。免疫応答は有害な副作用をもたらすだけでなく、治療機序としても機能し、ワクチンのように体内免疫応答を刺激して免疫保護を実現します。
タンパク質医薬による免疫応答の分子機構において、MHC(major histocompatibility complex, 主要組織適合性複合体)II類分子の抗原提示経路は極めて重要です。MHC-IIはタンパク質分解によって生じたペプチド(peptide)と結合し、pMHC-II複合体を形成した上でT細胞に提示し、免疫反応を引き起こします。異なるMHC-IIアレル(allele)は各ペプチドに対する結合能力が大きく異なり、個体や集団の遺伝的差異が免疫応答に顕著に影響します。したがって、薬物ペプチドとMHC-IIの相互作用の理解や、インターフェロンγ(interferon-gamma, IFNγ)など主要サイトカイン誘導能力の評価は、薬物設計の有効性と安全性評価における画期的な意義を持ちます。
しかし現状の実験的評価法(サイトカイン放出実験、T細胞増殖実験など)はコスト高・時間がかかる・大量スクリーニング不適合という制約があり、膨大なペプチド/MHCアレル組み合わせの需要に十分応じられません。よって、高効率・汎用性・説明可能な計算予測モデルの開発が、今この分野で最も突破が求められている課題です。本研究はこうした科学的課題に着目し、ペプチドとMHC-II配列に基づく計算分類モデルを確立してIFNγ放出を効率的に予測し、モデルの解釈性および汎化能力も検討しました。
論文の出典および著者情報
本論文「exploring diverse approaches for predicting interferon-gamma release: utilizing MHC class II and peptide sequences」は、Abir Omran、Alexander Amberg、Gerhard F. Eckerらによって執筆され、著者はそれぞれウィーン大学薬科学科およびサノフィ社プレクリニカルセーフティ部門に所属しています。論文は2025年、オックスフォード大学出版局の《Briefings in Bioinformatics》第26巻第2号(DOI: https://doi.org/10.1093/bib/bbaf101)に掲載されました。本文献はオープンアクセスとして公開されており、バイオインフォマティクスと計算免疫学分野の最先端発展を促進することを目的としています。
研究全体の流れと具体的な実験詳細
データセットの収集と前処理
研究チームはまずImmune Epitope Database(IEDB)より人宿主、MHC-II関連のIFNγ放出実験データ(陽性・陰性両方)を収集しました。各pMHC-IIペア(特定ペプチド配列と特定MHC-IIアレルのpseudo-sequenceの組み合わせ)は、データベース内の大多数の測定結果により活性ラベル付けされます。例えば、ある組み合わせに5件の測定記録があり3件が陰性なら“非活性(inactive)”とします。
さらにペプチド配列長を12-24アミノ酸に限定しました(文献的にMHC-IIが好むペプチド長)。重複(duplicate)データについては完全一致のみ1つ残して他は削除。他のタイプの重複も除去されました。これらのフィルタリングの結果、最終的に7266件のpMHC-IIペアが残り、うち非活性が30%を占めるなど、データに明確な不均衡(imbalance)が存在しました。
データセットの分割と処理
モデル開発段階では10分割交差検証(cross-validation, CV)を採用。クラス不均衡やペプチド長分布など潜在的な混乱要因を踏まえ、層化サンプリング(stratified splitting)によって各折のトレーニング・テストセット間でクラスとペプチド長の分布を揃えました。ペプチド長分布では15配列長が主要で、全体の70%を占めていました。
配列表現および特徴量エンジニアリング
ペプチドおよびMHC-II配列は以下の三種のディスクリプタ(descriptor)で表現:
- LBE(Letter-based encoding, 文字ベースエンコーディング):アミノ酸配列を数値化。25アミノ酸未満はpaddingで0を補足し統一長にし、建模をし易くする。
- ProtBert埋め込み特徴(ProtBert embedding features):2億1700万のタンパク質配列で訓練されたBERT変種であるProtBertで得られる文脈情報豊かなベクトルで、配列情報を多面的に表現。
- Z-scaleディスクリプタ:物理化学的特徴量で、定長配列専用(主に15配列に適用)、アミノ酸の化学特性(疎水性、立体、電子的特性など)を反映。
各pMHC-IIサンプルについて、ペプチドおよびMHC-IIアレルpseudo-sequenceに由来する特徴量を連結(concatenate)し、モデルへと入力。こうした特徴処理が多次元的な入力基盤をモデルにもたらします。
総合的なモデル化とアルゴリズム開発
モデル構築では、従来型“ツリー系”機械学習アルゴリズムを主に用い、主なものは:
- ランダムフォレスト(Random Forest, RF):高い可解釈性で特徴重要度を発見しやすい
- サポートベクターマシン(SVM)
- 勾配ブースティングマシン(GBM)
クラス不均衡対策として、分類閾値を最適化(種々の確率しきい値を試し、感度・特異度のバランスを取った上最終的に0.65を選定)、またアクティブラーニング(Active Learning, AL)も導入。各サイクルで最も不確かな10サンプルを訓練集合に加え、モデルの少数クラス認識力を向上させる試みをしました。計算コストを考慮し、パラメータ最適化はランダムサーチ(randomized search)を選択し、各種特徴表現毎に交差検証しました。
性能評価およびモデル汎化能力の検証
主要な評価指標として、バランス精度(balanced accuracy)、Matthews相関係数(MCC)、適合率(precision)、感度(sensitivity)、特異度(specificity)を採用。また、モデルの汎用性を検証するため、T細胞増殖(t-cell proliferation)実験に関するIEDBデータをさらに収集、IFNγ放出重複を除いた計711件(活性600、非活性111)を用い、トップモデルの外部予測力を再検証しました。
説明可能性分析とモデルへのインサイト
モデル判断過程をより深く理解するため、以下の解釈可能性分析も実施:
- 特徴重要度分析:RFモデルを基盤に、15配列ペプチドの中で最重要となる5箇所のアミノ酸位置を抽出し、この部位のアミノ酸頻度差をクラス別に統計。
- バーチャル単一アミノ酸変異実験(Virtual Single Amino Acid Mutation):テスト集合の各配列すべての位置に全アミノ酸20種を逐次変異させ、モデル予測がどう変化するか(ERROR RATEの変動)を観測。特定位置で最も予測に影響を及ぼす・及ぼさないアミノ酸種を特定し、MHC背景での変異効果多様性をも検出。
主要な結果とデータ分析
各種モデルの性能評価
計11種の異なる組み合わせモデルを構築しました。各アルゴリズム・特徴でランダムフォレスト(RF)が全て優れていました。最も基本的なLBEモデル(複雑な埋め込みではなく単純数値化のみ)が最高指標を示し、10分割CV時の主な成績は:
- バランス精度:0.78
- MCC:0.53
- 適合率:0.88
- 感度:0.78
- 特異度:0.77
Z-scaleやLBE-15merモデルはほぼ同等の性能、ProtBertモデルは感度最低だが特異度最高、アクティブラーニング併用LBEモデルはやや向上(MCC最大0.51)するも350サイクル超で停止。全体的に、情報量豊富な記述子(Descriptor)の導入は、現サンプル規模条件下ではパフォーマンス向上に寄与せず、入力次元高騰による特徴希薄化が一因と考察。
T細胞増殖実験による外部テスト
LBEトップモデルによるt-cell proliferation外部データセットでの成績:
- バランス精度:0.61
- MCC:0.21
- 適合率:0.88
- 感度:0.87
- 特異度:0.35
非活性サンプルの選別力は高くないものの、活性サンプル識別能力は極めて高い。外部データが正負極度不均衡という状況を鑑み、端点評価としても十分な汎化能力を示しました。
モデル説明性の分析
15merペプチドランダムフォレストモデルにおいて、特徴重要度トップ5位はp3、p14、p2、p8、p13。それぞれp2/p3/p8はTCR結合領域、p13/p14は直接結合しないもののpMHC-II複合体の安定性へ明確な影響を及ぼすことが知られます。
アミノ酸分布頻度の分析では、五つの位置間に明瞭なクラス特異性はなく(例:ロイシンは活性/非活性双方で高頻度AA)、モデルは単一アミノ酸の出現頻度よりも、配列多点の協調パターンに基づき判断していることが示唆されます。
バーチャル単点変異実験からは、p2、p3、p8、p13、p14で予測に最大影響。たとえばp2やp14で酪氨酸(Y)へ変異させるとエラー率が大きく変動(最大ΔER=0.017)、また特定MHC背景で変異の予測方向すら反転することが判明(例:G→YがHLA-DRB10901で活性判定を逆転)。これによりモデルがMHC背景・ペプチド配列・免疫応答間の多段複雑協調関係を学習していることが再度裏付けられました。
研究の結論と科学的・応用的価値
本研究は配列特徴に基づく多様な計算手法を体系的に比較し、単純な文字ベースエンコーディングでもRF等のアルゴリズムでpMHC-II複合体によるIFNγ放出誘導の有効な計算予測が可能であることを証明しました。アクティブラーニング・モデル説明性ツールも組み合わせることで予測精度向上だけでなく、分子的意思決定根拠も深く解明できました。さらに、モデルは他のT細胞関連実験データにも汎化可能であり、今後の高スループット・普遍型薬物免疫原性リスク評価の理論的および方法論的基盤となります。
研究のハイライト
- 多様な特徴記述の比較:物理化学・自然言語処理(ProtBert)・従来数値コーディングの併用で、現場実務への指針を提供。
- アクティブラーニング戦略の実装:少数派クラスの識別精度向上を目指し、アルゴリズム面でも革新を試行。
- 詳細なモデル解釈実験:特徴重要度・仮想変異の併用で生物学的意義を可視化し、利用性と信頼性を強化。
- 評価端点の汎化性検証:初めてモデルを異なるが関連するT細胞実験へ応用、実際の創薬プロセス実装を後押し。
- データおよびコードの公開:全データ・コードをgithubで公開、再現・改良の模範を示す。
残された課題と今後の展望
- データセットには実験形式や検出方法の異質性があり、全ての特徴が建模に取り込まれていない。
- 極度のクラス不均衡やアレル分布の偏在は、希少型へのモデル汎化性を制限する要因となり得る。
- 新世代の大規模事前学習型タンパク質BERTモデルをタスク特化で微調整すれば、さらなる性能向上が期待される。
まとめ
本研究はタンパク質医薬免疫リスク高スループット予測の道を効果的に探索・統合し、今後の個別化免疫原性予測や創薬最適化、前臨床スクリーニングプロセス強化のための堅実な方法論的・理論的基盤を提供しました。アルゴリズムの革新、説明性・操作性の両立など、科学的にも応用的にも非常に価値が高い成果です。今後さらに大規模データやマルチモーダル情報を取り入れ深化させていくことで、バイオインフォマティクス、計算免疫学、バイオ医薬産業界へ向けた重要な洞察を提供するものとなるでしょう。