豊富な帰納バイアスを用いた視覚言語モデルの学習

豊富な帰納的バイアスを用いた視覚と言語モデルの学習 研究背景と問題提起 近年、視覚と言語モデル(Vision-Language Models, VLMs)は、コンピュータビジョンおよび自然言語処理の分野で顕著な進展を遂げています。これらのモデルは大規模な画像-テキストペアに基づいて事前学習され、統一されたマルチモーダル表現空間を構築し、多様な下流タスクで優れたパフォーマンスを発揮します。しかし、少数ショット学習(few-shot learning)のシナリオでは、特定のタスクに適応させつつ良好な汎化能力を維持するためには、これらのモデルを効果的に調整する方法が依然として解決すべき課題となっています。 既存の手法は通常、プロンプトエンジニアリング(prompt engineering)やパラメ...

Seaformer++:モバイル視覚認識のためのスクイーズ強化軸変換器

SEAFormer++——モバイルビジョン認識のための効率的なTransformerアーキテクチャ 研究背景と問題提起 近年、コンピュータビジョン分野では、畳み込みニューラルネットワーク(CNN)からTransformerベースの手法への大きな変革が起こりました。しかし、Vision Transformerは多くのタスクで優れたグローバルコンテキストモデリング能力を示す一方で、その高い計算コストとメモリ要件により、特に高解像度画像を扱う場合、モバイルデバイスへの展開が困難です。低遅延と高効率を求めるモバイルデバイスに対応するため、研究者たちは局所注意機構、軸方向注意(Axial Attention)、動的グラフメッセージパッシングなどの軽量化手法を提案してきました。しかし、これらの方法でも高...

オブジェクト再識別のためのトランスフォーマー:調査

オブジェクト再識別のためのTransformer: サーベイ 背景と研究の重要性 オブジェクト再識別(Object Re-Identification、以下Re-ID)は、特定のオブジェクトを異なる時間やシーンで識別する重要なコンピュータビジョンタスクです。本分野は、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNNs)をベースとした深層学習技術により大きな進展を遂げました。しかし、視覚Transformerの登場により、Re-ID研究は新たな局面を迎えています。本研究では、Transformerを用いたRe-ID技術を体系的にレビューし、画像/ビデオ、少データ/少アノテーション、多モーダル、特殊な応用シナリオでの利点と課題を分析します。 研...

タンパク質構造予測:課題、進展、そして研究パラダイムのシフト

タンパク質構造予測:課題、進歩、および研究パラダイムの変化 タンパク質構造予測は、生化学、医学、物理学、数学、コンピューターサイエンスなど多分野の研究者を引きつける重要な学際的研究課題です。研究者たちは同じ構造予測問題を解決するために様々な研究パラダイムを採用しています:生化学者と物理学者はタンパク質フォールディングの原理を解明しようとしています;数学者、特に統計学者は通常、与えられた目的配列のタンパク質構造の確率分布を仮定することから始め、最も可能性の高い構造を見つけます;一方、コンピューターサイエンティストはタンパク質構造予測を最適化問題として捉え、最低エネルギーを持つ構造コンフォメーションを見つけるか、予測構造と天然構造の間の差異を最小化しようとします。最近では、深層学習もタンパク質構...

全自動マルチモーダルMRIベースのマルチタスク学習によるグリオーマセグメンテーションとIDHジェノタイピング

全自動マルチモーダルMRIベースのマルチタスク学習によるグリオーマセグメンテーションとIDHジェノタイピング

全自動マルチモーダルMRI多タスク学習によるグリオーマ分割とIDH遺伝子分類の研究報告 研究背景 グリオーマは中枢神経系で最も一般的な原発性脳腫瘍で、世界保健機関(WHO)2016年分類によると、グリオーマは低悪性度グリオーマ(LGG、グレードIIおよびIII)と高悪性度グリオーマ(HGG、グレードIV)に分類されます。イソクエン酸デヒドロゲナーゼ(Isocitrate Dehydrogenase, IDH)変異の状態はグリオーマにおける最も重要な予後指標の一つです。臨床研究では、IDH変異を持つ低悪性度グリオーマ患者の予後は通常、野生型患者よりも良好であることがわかっています。従来のグリオーマの手動セグメンテーションは時間と労力を要するもので、正確なIDH遺伝子分類と正確なグリオーマ分割は...