3D生成敵対ネットワークにおけるワンショット生成ドメイン適応

One-shot Generative Domain Adaptation in 3D GANs 近年、生成対抗ネットワーク(Generative Adversarial Networks, GANs)は、画像生成分野で顕著な進歩を遂げました。従来の2D生成モデルは、多くのタスクで極めて高い能力を発揮しています。しかし、この技術を3次元(3D-aware image generation)の分野に拡張し、2D画像を生成しながら3D構造を同時に学習することは、依然として多くの課題に直面しています。本稿は、International Journal of Computer Vision に掲載された、Ziqiang Li、Yi Wu、Chaoyue Wangらの研究「One-shot Gener...

CNNにおける帰属マップの信頼性評価:摂動ベースのアプローチ

深層学習の解釈可能性研究:摂動に基づく帰属マップ評価手法 背景と研究動機 深層学習モデルは多くのタスクで顕著な成功を収めていますが、これらのモデルの解釈可能性と透明性への関心が高まっています。特に、モデルの高精度な予測と同時に、その意思決定プロセスを人間が直感的に理解できるようにする能力が不足しています。この欠如は、多くの実世界のアプリケーションにおけるモデルの採用を制限しています。 コンピュータビジョン分野では、帰属法(Attribution Methods)が神経ネットワークの解釈可能性研究に広く利用されています。これらの方法は、入力画像中のどの領域がモデルの意思決定に最も寄与しているかを示す帰属マップ(Attribution Maps、AMs)を生成します。しかし、帰属マップの定性的性...

RAFTに基づいたネットワークとデジタルビデオ安定化のための合成データセット

深層学習に基づくビデオ安定化方法の改良と合成データセットSynthStabに関する研究 背景紹介 デジタルビデオ安定化技術は、不要な振動やカメラの揺れをソフトウェアで取り除く技術であり、特にアマチュア動画撮影で広く利用されています。しかし、既存の深層学習ベースの直接変形(Direct Warping Stabilization、以下DWS)方法は、低品質の動画では効果を発揮するものの、大きな不安定性を伴う場合には限界があり、従来手法の安定性には達していません。この主な原因は、既存データセットでの安定動画の定義の曖昧さ、モデル構造の単純さ、将来フレームに関する予測情報の活用不足などにあります。 これらの問題を解決するため、本研究ではRAFT(Recurrent All-Pairs Field ...

MVTN:3D理解のためのマルチビュー変換の学習

MVTN:3D理解のためのマルチビュー変換の学習

マルチビュー変換ネットワーク(MVTN): 3D理解研究における新たな進展 背景と研究の動機 近年、コンピュータビジョン分野における3次元(3D)データの深層学習研究は、分類、セグメンテーション、検索タスクにおいて顕著な進展を遂げました。しかし、3D形状情報を効果的に活用する方法は依然として重要な課題です。一般的な3Dデータ表現方法には、点群(Point Clouds)、メッシュ(Meshes)、ボクセル(Voxels)があります。また、もう一つの人気のある手法として、3Dオブジェクトやシーンを複数の2次元(2D)ビューにレンダリングするマルチビュープロジェクション技術があります。この方法は、人間の視覚システムが取得する画像の流れにより近く、2D深層学習の先進成果を最大限に活用できます。 例...

画像分類のためのクロススケール共起局所二値パターン

クロススケール共起局所バイナリパターンを用いた画像分類法の研究 画像分類技術はコンピュータビジョン分野で重要な位置を占めており、画像特徴抽出はこの分野の核心的研究対象です。近年、局所バイナリパターン(Local Binary Pattern, LBP)は、その効率性と優れた記述能力により、テクスチャ分類や顔認識などの視覚タスクで広く利用されています。しかし、従来のLBP手法は幾何変換(回転やスケーリング)や画像ノイズに対して制約があり、その記述能力が劣化しやすいという課題がありました。これらの課題に対処するため、重慶郵電大学の肖斌らの研究チームは、学術誌「International Journal of Computer Vision」に「CS-COLBP: Cross-Scale Co-O...

StyleGANを用いた画像編集のための残差変形

GAN反転と画像編集の新手法:StyleGANを用いたWarping the Residualsによる画像編集 背景と研究課題 生成的敵対ネットワーク(Generative Adversarial Networks, GAN)は、画像生成分野で著しい進展を遂げ、高品質な画像の生成および編集を可能にしました。特に、StyleGANモデルは、その意味的に解釈可能な潜在空間構造を活用し、従来の画像翻訳手法を超える編集能力を示しています。しかし、GANの実用化において直面する主要な課題は、実画像を編集する際に、画像をGANの潜在空間(GAN反転)に正確に投影し、入力画像を高忠実度で再構築しつつ、高品質な編集を実現することです。 既存の手法では、低ビットレートの潜在空間(例:StyleGANの$W^+...