デュアルプロンプトを用いたリハーサルベースの継続学習

学術的背景 機械学習とニューラルネットワークの分野において、継続学習(Continual Learning)は重要な研究テーマです。継続学習の目標は、モデルが一連のタスクにおいて新たな知識を継続的に学習しつつ、既に学習した古い知識を忘れないようにすることです。しかし、既存の継続学習手法は主にカタストロフィックフォゲッティング(Catastrophic Forgetting)という課題に直面しています。カタストロフィックフォゲッティングとは、モデルが新しいタスクを学習する際に、以前に学習した知識を急速に忘れてしまい、古いタスクの性能が大幅に低下する現象です。この問題は現実のアプリケーションにおいて特に深刻で、多くのタスクが変化する環境下で継続的に学習し適応する必要があるためです。 この問題を解...

Seaformer++:モバイル視覚認識のためのスクイーズ強化軸変換器

SEAFormer++——モバイルビジョン認識のための効率的なTransformerアーキテクチャ 研究背景と問題提起 近年、コンピュータビジョン分野では、畳み込みニューラルネットワーク(CNN)からTransformerベースの手法への大きな変革が起こりました。しかし、Vision Transformerは多くのタスクで優れたグローバルコンテキストモデリング能力を示す一方で、その高い計算コストとメモリ要件により、特に高解像度画像を扱う場合、モバイルデバイスへの展開が困難です。低遅延と高効率を求めるモバイルデバイスに対応するため、研究者たちは局所注意機構、軸方向注意(Axial Attention)、動的グラフメッセージパッシングなどの軽量化手法を提案してきました。しかし、これらの方法でも高...

Lidarガイドによる視覚中心の3D物体検出のための幾何学的事前学習

Lidarガイドによる視覚中心の3D物体検出のための幾何学的事前学習

LiDARガイドによる幾何学的プレトレーニング法が視覚中心の3D物体検出性能を向上 背景紹介 近年、マルチカメラ3D物体検出は自動運転分野で広く注目を集めています。しかし、視覚ベースの手法はRGB画像から正確に幾何学的情報を抽出する際に依然として課題があります。既存の手法では通常、深さに関連するタスクで事前学習された画像バックボーンを使用して空間情報を取得しますが、これらの方法は視点変換における重要な問題を無視しており、画像バックボーンと視点変換モジュール間での空間知識のミスマッチによりパフォーマンスが低下しています。この問題を解決するために、本論文では新しい幾何学的認識型プレトレーニングフレームワーク「GAPretrain」を提案します。 論文の出典 本論文は、林麟彦、王会杰、曾佳らによっ...

マスク画像モデリング事前学習による強力な軽量ビジョントランスフォーマーの探索に関する実験的研究

軽量級ビジョンTransformerの強力な探索のためのマスク付き画像モデリング事前学習に関する実験的研究 学術的背景 近年、自己教師あり学習(self-supervised learning, SSL)はコンピュータビジョン分野で顕著な進展を遂げています。特に、マスク付き画像モデリング(masked image modeling, MIM)事前学習法は大規模なビジョンTransformer(vision transformers, ViTs)への応用において成功し、これらのモデルに基づく下流タスクのパフォーマンスが大幅に向上しました。しかし、既存の研究は主に大規模ViTsに焦点を当てており、軽量級ViTsに対する事前学習方法とその効果についての研究は比較的少ないです。さらに、多くの研究は複...

カリキュラム予測を備えたメモリ支援型知識転送フレームワークを用いた弱教師ありオンライン活動検出

研究背景と研究意義 近年、ビデオ理解分野における弱教師ありオンライン活動検出(Weakly Supervised Online Activity Detection, WS-OAD)は、高度なビデオ理解の重要な課題として広く注目されています。この課題の主な目標は、安価なビデオレベルのアノテーションのみを利用して、ストリーミングビデオ内で進行中の活動をフレーム単位で検出することです。このタスクは、自動運転、公共安全監視、ロボットナビゲーション、拡張現実など、多くの実用的な応用分野で重要な価値を持っています。 完全教師あり手法(Fully Supervised Methods)はオンライン活動検出(OAD)で顕著な進展を遂げましたが、フレームレベルの密なアノテーション(Frame-level A...