シングルセル多オミクスデータセットを使用したコピー数異常推論ツールのベンチマーク

一、研究背景及意义

腫瘍学およびゲノム研究分野において、染色体コピー数異常(Copy Number Alterations, CNAs)は癌の発生および進行を引き起こす主要な遺伝的変異タイプです。CNAsは腫瘍の異質性を決定するだけでなく、早期腫瘍検出、腫瘍サブクローン(subclone)進化解析、耐性機構の研究などにおいても重要な意義を持ちます。従来のコピー数変異検出方法は主に単一細胞DNAシーケンシング(scDNA-seq)に依存しており、分解能は高いものの、高コストやシーケンスカバレッジの低さに制約され、大規模・高スループットな実応用において広く利用するのは難しい現状です。

single-cell RNA sequencing(scRNA-seq)技術の普及とデータ蓄積が進むに伴い、scRNA-seqデータから一定条件下で潜在的なゲノムのコピー数変化も推定できることが判明し、既存のトランスクリプトームデータからゲノム構造変異を探る新たな可能性が大きく広がりました。このため、近年はscRNA-seqデータによってCNAsを推定する計算ツール(inferCNV、CopyKAT、SCEVAN、Numbat、CASPERなど)が登場しています。これらのツールは、発現レベルやアリル頻度等のシグナルをもとに、様々なアルゴリズムによって腫瘍細胞のCNA特徴を推定します。

しかし、そのアルゴリズムの根拠、パラメータ設定、入力要件、適用シナリオに多くの違いがあるため、現時点では独立かつ体系的なベンチマーク評価がなく、各ツールの性能、利点、適用推奨を横断的に比較できません。このため、後続の腫瘍異質性や単細胞空間トランスクリプトーム研究では、ツール選択や結果解釈の際に困難が生じています。したがって、実際のペアド単一細胞DNA/RNAシーケンス・マルチオミクスデータを用いて、現存主要ツールを包括的かつ客観的にベンチマーク比較することは、この分野の標準化および研究品質向上にとって極めて重要な科学的・実践的価値を持ちます。

二、論文の出典と著者情報

本研究論文のタイトルは「benchmarking copy number aberrations inference tools using single-cell multi-omics datasets」であり、Minfang Song、Shuai Ma、Gong Wang、Yukun Wang、Zhenzhen Yang、Bin Xie、Tongkun Guo、Xingxu Huang、および責任著者LiyE Zhangらによって共同執筆されました。著者は主に浙江実験室、上海科技大学生命科学技術学院、上海市臨床研究・試験センター、崖州湾国家実験室などの機関に所属しています。論文は国際的生物情報学権威誌《Briefings in Bioinformatics》の2025年第26巻第2号に掲載されました。

三、研究設計およびフロー詳細

1. 研究全体の流れ

本ベンチマーク研究は、DNAとRNA情報を同時に取得できる単一細胞マルチオミクスデータセット(同一細胞に対するscRNA-seqおよびscDNA-seqの並行測定)を独自に活用し、scDNA-seqで定義するCNAを「ゴールドスタンダード(真値)」の対照とすることで、現在主流のscRNA-seq CNA推定5ツールの多次元性能を体系的に評価したものです。そのコアフローは以下の通りです:

  • マルチオミクスデータセットの統合とサンプル選別;
  • 5ツール(inferCNV、CopyKAT、SCEVAN、Numbat、CASPER)のフルプロセス実行およびパラメータチューニング;
  • 「腫瘍/正常細胞分類」「CNAプロファイル推定精度」「腫瘍サブクローン認識」「非悪性細胞の非倍数性検出」などのタスクを基軸に、様々な条件下で各ツールを定量比較。

2. データセットの由来および処理

研究チームは複数の公開プロジェクトまたは共同著者から実データセットを収集し、以下を含みました:

  • 結腸・直腸癌(Colorectal Cancer, CRC)8例(Zhouらの研究より);
  • 急性リンパ性白血病(Acute Lymphoblastic Leukemia, ALL)2例;
  • 膠芽腫(Glioma)1例、神経内分泌腫瘍(Neuroendocrine tumor)1例、NPC43細胞株1例、HUVEC細胞株1例(いずれもYuら、Cuiらの関連研究より);

各サンプルは、同一細胞に対してRNAとDNAのペアドシーケンシングデータを含み、scDNA-seq結果は真値CNAの標定に、scRNA-seqデータは各ソフトウェアの入力として使用されました。詳細データは論文補足表S1を参照してください。

3. 5ツールおよびその原理

本評価の対象ツールは2大カテゴリに分かれます:

  • 発現行列のみを利用するツール:inferCNV、CopyKAT、SCEVAN。腫瘍細胞のある染色体領域でCopy number amplification(増幅)またはdeletion(欠失)が生じると、対応する遺伝子の平均発現が上昇または下降する現象を利用。アルゴリズムは移動平均、ベイズ的分割、分割最適化等により空間的発現シグナルの変動パターンを取得します。
  • アリル/ヘテロ接合部位情報も利用するツール:Numbat、CASPER。発現行列に加え、アリル比率変化(B-allele frequency)も解析し、コピー数変化を伴わないヘテロ接合性喪失(Copy number neutral Loss of Heterozygosity, CNLOH)などの詳細なCNAタイプも識別可能です。Numbatはハプロタイプ対応の隠れマルコフモデル(HMM)を、CASPERは多スケール信号分析フレームワークを採用しています。

各ソフトウェアは公式マニュアルに従って標準化実行し、経験的パラメータも最適化:inferCNVは「二段階実行法」により正規化基準線を改善、NumbatおよびCASPERは適切な発現リファレンス細胞タイプの選定が必須です。

4. 評価フローと指標設定

  • 腫瘍/正常細胞識別精度

    • scDNA-seqによるクラスタ注釈を真値とし、各ツールの同一細胞における分類精度およびF1スコアを算出。
    • サンプル内の腫瘍純度(tumor purity:腫瘍細胞の割合)、微小環境細胞の有無、シーケンス深度等がアルゴリズム性能にどう影響するかを検証。
  • CNAプロファイル推定一致性

    • 推定された単一細胞(または細胞集団)のCNAセグメントを真値と比較し、ピアソン相関係数等指標で空間的シグナルの一致度を定量化。
    • 特に広範囲および微小変異の検出能力とパラメータ/プロセス(例:二段階実行)の最適化効果に着目。
  • 断点およびサブクローン構造識別

    • 断点識別機能を持つ3ツール(inferCNV、SCEVAN、Numbat)の主要サブクローン染色体構造断点の検出精度(F1-score、リコールなど)を比較。
    • サブクローン解析は階層クラスタリング+類似性分析で、推定サブクローンとDNA真値構造の一致度を評価。
  • 非悪性細胞の非倍数性検出能力

    • 既知の非倍数性が高頻度な集団(線維芽細胞、T/B細胞、内皮細胞など)で、各ツールの単染色体増減検出感度を確認。
  • 計算効率と実用性評価

    • 各ソフトウェアが千細胞規模データを処理する際のメモリ/計算資源消費・実行時間を記録し、大規模応用への実用性を評価。

四、主な結果とデータ詳細

1. 腫瘍/正常細胞自動分類能力

  • 総合パフォーマンス:Numbatはマルチオミクスデータが豊富な場合、腫瘍・正常識別において最良の性能を発揮。発現行列のみから解析する場合はCopyKATが最も安定かつ高精度、さらに低シーケンシング深度にもロバスト。
  • 腫瘍純度の違いによる性能影響:高腫瘍純度下では、inferCNVが腫瘍背景を誤って表現リファレンスに設定し「誤ったノーマライズ」を起こしやすく(腫瘍CNAシグナルが“ベースライン”と見なされ、正常細胞を誤って腫瘍に分類)、SCEVANは低腫瘍純度下で成績が悪化。微小環境細胞の導入で分類とCNA推定の双方が明瞭に改善。
  • シミュレーション実験:ダウンサンプリング(腫瘍:正常比1:100〜100:1)を用いたロバストネス検証で、Numbatは常に高精度、inferCNVは極端な純度で分類方向が逆転する事象も観察された。

2. CNA異常プロファイル推定精度

  • 正規化基準線最適化:inferCNVでは二段階法で先に正常細胞をリファレンスとして選定し主解析することで、DNA真値とのセグメント一致性(ピアソン値)が著しく向上。
  • ツール間差異:Numbat、CASPERは離散整数型CNAプロファイルを出力し、DNAデータとの比較が容易かつ明快。他ツールは連続値信号出力で、全データで突出するものはない。全体的に腫瘍・正常細胞数がバランスしている場合に最良の傾向。
  • 全断点・異常セグメント・LOH検出:SCEVANはサブクローン構造断点(複雑な染色体再構成領域)検出において感度・F1ともにトップ。NumbatはB-allele統合解析によりCNLOH検出が敏感だが、コピー数大幅増加領域でLOH過検出傾向も。

3. サブクローン構造推定能力

  • すべてのツールは、腫瘍細胞の識別が正確である前提付きでDNA真値由来サブクローン構造の空間進化を再現できる。脳膠芽腫やCRC例では、ほぼ全ての方法でサブクローン推定がDNA結果と非常に一致(ARI>0.8)したが、特殊サンプルでは微小環境細胞導入支援も有効。SCEVANおよびinferCNVが特に良好。

4. 非悪性細胞の非倍数性検出

  • 非悪性細胞のCNAは主に単染色体の全体的な増減だが、これら低負荷異常の検出力で各ツールはパフォーマンス一貫性に欠け、UMI/遺伝子数の少なさ・発現変動の小ささなど複合的要因が影響。低負荷CNA異常に特化した新たなアルゴリズム開発が急務であることを示唆。

5. 計算リソース・実用性

  • CopyKATとSCEVANは計算効率が最も優れ、一般的なPC環境でも千細胞規模解析が可能。NumbatとinferCNVはアルゴリズムの複雑性から、千細胞超の解析ではサーバー利用が推奨される。

五、主な結論と応用価値

本研究はscRNA-seq用CNA推定ツールとして独立かつ体系的なベンチマーク評価の初めての例であり、それぞれのツールの強み・弱み・適用指針が明らかになりました。以下のような要点があります:

  • ツール選択は実験条件に合わせて:B-alleleデータがある場合はNumbat+SCEVAN/InferCNV、発現行列のみではCopyKAT+SCEVAN/InferCNVの組み合わせを最優先推奨。複数ツールの併用で相互検証することが信頼性向上に寄与。
  • パラメータ最適化とリファレンス設定が極めて重要:InferCNVの二段階処理フローやNumbatのgammaパラメータ等、サンプル特性に応じて多回のパラメータ試行が最適パフォーマンスに不可欠。
  • LOH等特殊イベントの検出は慎重な解釈が必要:必ず独立したDNAデータによる検証を推奨。

科学的価値として、多様な腫瘍単細胞/空間トランスクリプトーム研究分野へ標準化されかつ実証実験に基づくツール選択ガイダンスを提供し、関係分野のデータ解釈の一貫性・信頼性向上に資するものです。また、低負荷CNA異常や低発現解像度へのアルゴリズム面での課題も指摘し、今後の開発指針となる点も重要です。

六、研究の特徴とイノベーション

  • 実際の「同一細胞」マルチオミクスデータの新規活用により、推定ツールが現実生物学環境下で発揮する性能を最大限に再現;
  • ツールの分類性能、断点・サブクローン検出、計算コスト、パラメータ最適化を含む全工程の包括的評価;
  • 特定条件下のアルゴリズムの“癖”や落とし穴が明確となり、空間トランスクリプトミクス等新興分野のツール選抜の実践的指標となる。

七、その他重要情報

論文はすべての解析コードとスクリプトをオープンソース化しており、他研究者の再利用・検証が容易です。使用データは全て公開済みアクセス可能なもので、研究は中国国家自然科学基金、「浙江省リーダープロジェクト」、浙江実験室等の支援を受けています。著者グループは国内における単細胞マルチオミクスや腫瘍異質性解析で豊富な経験とデータ蓄積があり、複数の学術研究機関による共同執筆です。

本研究はscRNA-seq領域におけるコピー数変異推定技術の発展と応用に実証的な基礎と評価基準を提供し、腫瘍バイオインフォマティクスをはじめ複数のフロンティア科学分野に広範な示唆を与えます。