LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

LaVie: カスケード潜在拡散モデルを用いた高品質ビデオ生成

カスケード潜在拡散モデルに基づく高品質ビデオ生成:LaVie 学術的背景 近年、拡散モデル(Diffusion Models, DMs)が画像生成分野で画期的な進展を遂げる中、テキストから画像(Text-to-Image, T2I)生成技術は大きな成功を収めています。しかし、この技術をテキストからビデオ(Text-to-Video, T2V)生成に拡張することは、依然として多くの課題を抱えています。ビデオ生成では、視覚的にリアルな画像を生成するだけでなく、時間的な一貫性を保ちつつ、事前学習されたT2Iモデルの創造的な生成能力を維持する必要があります。既存のT2V生成手法は、ゼロからシステム全体を訓練することを前提としており、これには膨大な計算リソースが必要であり、ビデオ品質、訓練コスト、モデ...

RADIFF: 電波天文マップ生成のための制御可能な拡散モデル

RaDiff: ラジオ天文学マップ生成のための制御可能な拡散モデルに関するレポート (和訳版) 背景紹介 平方キロメートルアレイ (Square Kilometer Array, SKA) 望遠鏡の建設が終盤を迎え、宇宙研究における革新的な進展が期待されています。SKAはこれまでにない感度と空間分解能を実現する一方で、既存の望遠鏡が生み出す膨大なデータは、効率的に処理可能な手法を必要としています。特に、背景ノイズが顕著で形状が複雑な電波画像 (例えば銀河面) を扱う場合は、効率的な自動化と科学情報抽出が重要です。 ここ数年で、深層学習 (Deep Learning) はラジオ天文学にも多様な形で活用されています。一方で、この手法は大量の高品質なアノテーションデータセットを必要とするため、デー...

拡散モデルに基づく特徴増強を用いた全スライド画像における多インスタンス学習

拡散モデルに基づく特徴拡張:全視野病理画像における多数例学習の新手法 学術的背景と研究の動機 計算病理学(computational pathology)の分野では、全視野スライド画像(Whole Slide Images, WSIs)の効果的な分析方法が現在の研究課題として注目されています。WSIsは超高解像度の画像であり、広範囲な視野を持ち、がん診断に広く利用されています。しかし、ラベル付きデータの不足や巨大な画像データがもつ計算負荷の問題から、WSIの自動解析における深層学習手法、特に多数例学習(Multiple Instance Learning, MIL)には多くの課題があります。 MILは典型的な弱教師あり学習手法であり、WSI全体を「バッグ」に見立て、その中の小領域(パッチ)を...

StyleAdapter:統一されたスタイライズド画像生成モデル

StyleAdapter: 統一的なスタイル化画像生成モデル 近年、テキストから画像生成(Text-to-Image, T2I)技術および深層学習モデルの急速な発展により、人工知能による画像生成分野での研究が大きく進展しました。しかし、参照画像の特定のスタイルをテキスト生成された高品質画像に統合することは、いまだに大きな課題です。この課題に対応するため、Zhouxia Wangらは「StyleAdapter」と呼ばれる統一的なスタイル化画像生成モデルを提案しました。本論文は、International Journal of Computer Vision に発表され、香港大学、Tencent ARC Lab、マカオ大学、および上海人工知能研究所の研究者たちによって共同執筆されました。 研究背...

拡散に基づく深層学習法による超微細構造イメージングと体積電子顕微鏡の拡張

拡散に基づく深層学習法による超微細構造イメージングと体積電子顕微鏡の拡張

拡散モデルベースの深層学習アルゴリズムを用いた超解像度イメージングと体積電子顕微鏡の強化 背景紹介 電子顕微鏡(Electron Microscopy、略してEM)は高解像度のイメージングツールとして、細胞生物学の重大な突破口を開いた。従来のEM技術は主に2次元のイメージングに使用されていたが、ナノスケールの複雑な細胞構造を明らかにしてきた一方で、3次元(3D)構造の研究には一定の限界があった。より高度な技術である体積電子顕微鏡(Volume Electron Microscopy、略してVEM)は、連続切片と断層走査技術(透過電子顕微鏡TEMやスキャニング電子顕微鏡SEMなど)を用いて、細胞や組織の3Dイメージングを実現し、細胞、組織、さらには小型のモデル生物のナノスケールの3D構造を抽出...