連続結果の回帰モデリングにおけるランダムフォレスト変数選択方法の比較
背景紹介:機械学習回帰モデルにおける変数選択の重要性
近年、機械学習はバイオインフォマティクスおよびデータサイエンス分野で広く応用され、予測モデリングの発展を大きく促進しています。ランダムフォレスト(Random Forest、RF)回帰は一般的なアンサンブル学習アルゴリズムとして、予測精度やモデルの堅牢性を効果的に高めることができ、連続型アウトカムの予測モデルを構築する上で重要なツールとなっています。しかし、高次元データに直面した場合、モデル内の予測変数が多いほど必ずしも予測性能の向上につながるわけではなく、むしろ情報の冗長化やモデルの過学習、実際の応用時の利便性の低下につながる可能性があります。したがって、「変数選択(Variable Selection/Feature Selection/Feature Reduction)」は非常に重要なモデリングステップとなっています。
変数選択によって変数の冗長性を減らし、予測性能やモデルの汎化能力を向上させるだけでなく、その後のデータ収集やモデル運用コストを削減し、モデルの解釈性や応用効率を高めることができます。従来、研究者たちはランダムフォレストを利用した多くの変数選択手法を提案してきましたが、実際の連続型アウトカムデータにおいて、各手法のパフォーマンスや適応性、最適な選択については一致した経験的指針が存在しません。また、変数選択には予測精度の向上だけでなく、モデルの簡素化(変数の最小化)と計算効率の両立という多次元的な目的が伴います。
論文出典と著者紹介
本研究は『A comparison of random forest variable selection methods for regression modeling of continuous outcomes』として、2025年《Briefings in Bioinformatics》(Volume 26, Issue 2,DOI:https://doi.org/10.1093/bib/bbaf096)に掲載され、Nathaniel S. O’Connell、Byron C. Jaeger、Garrett S. Bullock、およびJaime Lynn Speiserらによって共同執筆されました。著者はいずれも米国Wake Forest University School of Medicine(ウェイクフォレスト大学医学部)の生物統計・データサイエンス学科、整形外科、および公衆衛生科学部門に所属しています。
研究フロー詳細:包括的なベンチマーク評価設計
1. 研究目的と全体設計
本研究は、R言語で実装された13種類のランダムフォレスト回帰変数選択手法を体系的に評価・比較し、さまざまなタイプの実データセットにおけるパフォーマンスの違いを明らかにすることを目的としています。評価指標は、モデル予測精度(主にR^2)、モデルの簡潔さ(変数削減率)、計算効率(所要時間)の三つの側面をカバーしています。本研究はオープンサイエンスの理念を採用しており、全てのコードとデータは公開されており、再現性と透明性を重視しています。
2. データセットの出典と処理フロー
3. 変数選択手法の実装と分類
今回評価された13種の変数選択法は全てRエコシステムをベースにしており、よく知られたcaret、boruta、vsurf、rrfパッケージ等のほか、近年登場したobliqueランダムフォレスト(斜め分割木)実装であるaorsfシリーズも含みます。各手法の詳細な実装は原著論文に則り、特記のない限りハイパーパラメータはデフォルト設定を使用しました。手法タイプは「テストベース(Test-based)」と「パフォーマンスベース(Performance-based)」の二つに大別されます:
- テストベース手法:変数の統計的またはパーミュテーション的有意性によるフィルタリング(例:boruta、altman、aorsf-permutation)。
- パフォーマンスベース手法:変数の追加/削除によるモデルパフォーマンス変化を基にした再帰的選択(例:caret、jiang、rrf、aorsf-menzeなど)。
4. 実験手順と評価方法
著者らは各データセットごとに20回のMonte Carlo交差検証(split-sample validation)を行い、それぞれランダムに訓練データとテストデータ(50%:50%、大規模データセットでは訓練上限1,000件)に分割し、すべての変数選択は訓練データ上で実施しました。変数数が150を超える大型データセットは、毎回150個の変数をランダム抽出し選択プロセスを実行、計算量を制御しました。変数選択の結果得られた特徴サブセットは、軸方向(axis-based RF、rangerパッケージ実装)と斜方向(oblique RF、aorsfパッケージ実装)のそれぞれのランダムフォレストでモデル学習され、テストセットでR^2が評価されました。
また、各手法の変数選択所要時間、変数縮減率を記録し、zスコア標準化で異なる指標・データセット間の表現力の違いを横断的に比較しました。
主な研究結果の詳細
1. 変数選択手法の全体的なパフォーマンス
計算効率
最も計算効率が高かったのはaxis-sfe、rrf、aorsf-menze、aorsf-negation、aorsf-permutationで、ほとんどのデータセットで中央値5秒未満で処理が完了しました。rfvimptest、caret、svetnikは最も遅く、一部データセットで千秒以上を要しました。
変数縮減能力
rfvimptestは最大の変数圧縮(>90%)を達成し、vsurf、altman、svetnikは約80%、rrfはほとんど圧縮しませんでした。caretやborutaといった一部手法はデータセットごとの変数縮減率の変動が大きく、様々なデータの複雑さへの柔軟な適応性を示しています。
予測性能(R^2)
大半の手法(rfvimptestを除く)は連続型アウトカムのランダムフォレスト回帰で、テストセット中央値のR^2が0.61~0.67(軸方向RF)、0.62~0.73(斜方向RF)と分布しており、主要な選択手法はアプローチは異なるものの最終的な予測能力がほぼ並んでいます。最高のR^2はaorsf-menzeおよびaorsf-permutation(oblique RF)で記録され、軸方向RFではcaret、jiang、boruta、aorsf-permutationが優れていました。
2. 感度および層別分析
一部手法は特定データセットで変数を全く選択しない場合(rfvimptest、borutaの一部データセット、altmanやvsurfの特定状況)があったため、著者らはすべての手法が変数選択したサンプルのみの感度分析を実施し、主要な分析での手法順位がほぼ一致していることを確認しました。これにより主要結論の堅牢性が示されました。
さらに、サンプルサイズと変数数の比(n:p)による高(n:p≥10)/低(n:p<10)サブグループ解析では:
- 低n:p比(高次元・サンプルが少ない)環境下では、斜めRFの方が明らかに優れており、伝統的な軸方向RFよりも予測精度が高かった。
- 高n:p比環境では、主要手法において軸向きと斜向きモデルの性能差が縮まった。
3. 手法特性および分類の比較
論文では、アルゴリズム実装(軸方向RF、条件付き推論RF、斜方向RF)とカテゴリ(テストベース/パフォーマンスベース)による比較も行いました。条件付き推論RF手法は計算コストが高いためパフォーマンスは一般的であり、斜方向RF(aorsfシリーズ)関連手法は高速で精度も高く顕著な優位性を示しました。また、テスト/パフォーマンスベースの分類による優劣の明確な違いはなく、全体としては各手法の具体構造や実装の特徴により左右されていました。
4. データとコードの再現性
本研究のコードとデータはすべてGitHub(https://github.com/nateoconnellphd/rfvs_regression)で公開されており、科学研究の高い透明性・再現性を担保し、コミュニティの再利用や拡張が推奨されています。
主要結論と意義
著者らは重要な結論を示しました。Rのデフォルト実装に基づく場合、連続アウトカム用ランダムフォレスト回帰モデルでは、
- 軸方向RFではborutaとaorsf-permutationが推奨される;
- 斜方向RFではaorsf-permutationとaorsf-menzeが最適である。
これら2系列の実装は高い予測精度、変数の強力な圧縮、高い計算効率を兼ね備えており、高次元データや実用展開の場面に有効です。著者はさらに、実務者は複数の高性能手法を試し、データ特性に応じて最適解を選ぶことを推奨しています。
研究のハイライトと科学的価値
- 大規模実データセットのベンチマーク評価:59種の多様な公開データセットを用い、結果の信頼性と汎用性を大きく高め、変数選択手法の開発・応用の基礎を固めました。
- 斜方向ランダムフォレストの導入・体系評価:oblique RF系列を初めて十分に比較し、連続変数予測における独自性を実証し、従来のクラシックRFだけに偏った研究を補いました。
- 多次元指標・標準化評価体系:予測性能・モデル簡潔性・計算効率を統合的に評価し、より科学的・実用的な参照基準を提供しました。
- オープンサイエンスと再現性の重視:全ソースコード・データを公開し、継続的な検証と最適化を促進、分野横断的な透明性と手法交流を強調しました。
- 実応用への具体的指針:データ収集コストやモデル解釈性、現場応用での変数選択の重要性を明示し、研究や産業界の活用ニーズに直接応えました。
付加情報
- 本論文は米国NIHなどの研究資金で支援されており、この分野の研究が高い重視を受けていることを示しています。
- 論文で使用されたデータとコードが全て公開されており、国内外の研究者によるローカライズや二次開発を容易にしています。
結語と展望
本研究は、現在のRエコシステムにおける主流および新興のランダムフォレスト回帰変数選択手法を体系的に整理し、厳密な大サンプル実証と詳細な定量分析を通じて、各手法の長所・短所や適用場面を明確化しました。これにより、バイオインフォマティクス・医学・工学など多分野における連続変数予測タスクにおいて、適切な変数選択戦略の選定に重要な理論的かつ実践的な基盤を提供しています。そのオープンサイエンス理念や高次元・複雑な実データへの着目も、今後の機械学習分野における変数選択や説明可能性研究の優れた模範となるでしょう。