ポリシーコンセンサスベースの分散型決定論的マルチエージェント強化学習

戦略合意に基づく分散型決定性マルチエージェント強化学習研究レポート 強化学習(Reinforcement Learning, RL)は近年、ロボティクス、スマートグリッド、自動運転などの多くの分野で顕著な進展を遂げています。しかし、現実のシナリオでは、マルチエージェント(Multi-Agent Reinforcement Learning, MARL)の協調学習がしばしば要求されます。このような問題の中心的な課題は、通信能力の制約やプライバシー保護の条件下で、効率的なマルチエージェント協調強化学習アルゴリズムを設計することです。現在の多くのMARLアルゴリズムは、広く使用されている集中型訓練-分散型実行(Centralized Training with Decentralized Exec...

SHAPベース誤差補正アプローチによる改善された説明可能な電力価格予測モデル

SHAPに基づく電力価格予測モデルの改良とその説明可能性の分析 背景と研究動機 電力市場における価格予測モデルは近年注目を集めており、市場の価格変動が関係者の財務に与える影響を考える上で重要です。特に、ヨーロッパのエネルギー市場では、エネルギー危機や地政学的要因の影響で、ここ数年燃料価格が急騰し、それに伴い電力市場の価格変動性が著しく増加しています。予測誤差がわずか1%でも、発電会社や需要応答事業者、取引会社などに大きな財務的影響を与える可能性があります。例えば、使用電力量が1GWに達する企業において、予測誤差が1%減少するだけでも、年間約1,200万ドルのコスト削減が可能となります。そのため、市場参加者にとって電力価格予測(Electricity Price Forecasting, EP...

バイアス付き目標を備えた多目的動的柔軟ジョブショップスケジューリングのマルチタスク遺伝プログラミングによる実現

複数目的動的柔軟ジョブショップスケジューリングにおける画期的研究:多タスク学習による目標偏向の最適化を実現した革新的手法 背景紹介 動的柔軟ジョブショップスケジューリング(Dynamic Flexible Job Shop Scheduling, DFJSS)は重要な組合せ最適化問題であり、製造や倉庫管理などの生産プロセスに幅広く応用されています。例えば、製造プロセスのタスク割り当てや倉庫の注文ピッキング作業の最適化に利用されています。この問題の中心点は、動的な環境下で複数の機械やジョブに対する柔軟なタスク割り当てと操作順序の決定を行い、特定の効率指標を最大化したり時間コストを最小化することにあります。しかし、この問題の複雑さは非常に高く、特にタスクが動的に到着したり機械が故障した場合、従来...

NPE-DRL: 非専門家政策誘導強化学習による知覚制約型障害物回避支援

非専門家ポリシー強化学習に基づくドローンの視覚制限環境における障害回避能力の向上に関する研究 近年、ドローン(Unmanned Aerial Vehicle, UAV)はその卓越した機動性と多様な機能性により、荷物の配送、リスク評価、緊急救助といった民間分野で広く利用されています。しかし、ドローンが遂行するミッションの複雑性、範囲、持続時間が増加するにつれて、特に混雑した高い不確実性の環境で障害回避を実現することが大きな課題となっています。しかし、従来のグローバルナビゲーション手法は通常、視覚が制限された条件下での障害シナリオを処理することが難しく、全体的な情報に依存しています。本研究では、このようなシナリオでの障害回避問題に取り組み、ドローンのリアルタイムナビゲーション能力を向上させること...

FPGA上RNN加速用効率的CORDICベース活性化関数手法

RNNの効率的な活性化関数実現:CORDICアルゴリズムとFPGAハードウェア加速の革新 背景と研究の重要性 近年、ディープラーニング技術の急速な発展に伴い、特にリカレントニューラルネットワーク(Recurrent Neural Networks, RNNs)および長短期記憶ネットワーク(Long Short-Term Memory, LSTM)が、自然言語処理(Natural Language Processing, NLP)、音声認識、医療診断などの時間系列タスクにおいて強力な能力を発揮しています。しかし、畳み込みニューラルネットワーク(Convolutional Neural Networks, CNNs)と比較して、RNNモデルはその複雑性および非線形活性化関数の需要が多いため、計算...