← ホームに戻る
最新の arXiv AI 論文要約
arXiv の最新AI論文をAIで日本語要約し、定期更新しています。
arXiv cs.AI Thu, 19 Mar 2026 17:58:11 Z
意味的に根拠付けられた、部品レベルの3D生成フレームワーク「DreamPartGen」
本論文は、意味的・機能的な部品構造を考慮した3Dオブジェクトの生成を目指す「DreamPartGen」というフレームワークを提案しています。
従来のテキストから3D生成手法では、部品の構造や意味的な関連性が十分に扱われていませんでした。DreamPartGenは、部品の形状と外観を同時にモデル化する「Duplex Part Latents (DPLs)」と、言語から導出される部品間の依存関係を捉える「Relational Semantic Latents (RSLs)」を導入します。
同期された共同デノイジングプロセスにより、幾何学的・意味的な一貫性を強制し、テキストに整合した、解釈可能で一貫性のある3D合成を実現します。複数のベンチマークにおいて、幾何学的忠実度とテキスト形状整合性で最先端の性能を示しました。
ソース・引用元
配信元:arXiv cs.AI
著者:Tianjiao Yu, Xinzhuo Li, Muntasir Wahed, Jerry Xiong, Yifan Shen, Ying Shen, Ismini Lourentzou
分類:cs.CV, cs.AI, cs.LG
原文URL:
https://arxiv.org/abs/2603.19216v1
arXiv cs.AI Thu, 19 Mar 2026 17:47:47 Z
汎用GUIエージェントのためのスケーラブルな批評フレームワーク「OS-Themis」
本論文は、GUIエージェントの強化学習(RL)における報酬関数の質に起因する課題に対処するため、スケーラブルで精度の高いマルチエージェント批評フレームワーク「OS-Themis」を提案しています。
OS-Themisは、軌道を検証可能なマイルストーンに分解し、意思決定のための重要な証拠を分離します。さらに、最終的な判定を下す前に証拠連鎖を厳密に監査するレビューメカニズムを採用しています。これにより、既存のアプローチが抱えていたスケーラビリティと性能の両立の難しさを克服します。
評価のために、GUI結果報酬のための包括的なクロスプラットフォームベンチマーク「OmniGUIRewardBench (OGRBench)」も導入されています。OS-Themisは、オンラインRLトレーニングのサポートで10.3%、自己トレーニングループでの軌道検証とフィルタリングで6.9%の性能向上を示し、エージェントの進化を促進する可能性を示唆しています。
ソース・引用元
配信元:arXiv cs.AI
著者:Zehao Li, Zhenyu Wu, Yibo Zhao, Bowen Yang, Jingjing Xie, Zhaoyang Liu, Zhoumianze Liu, Kaiming Jin
分類:cs.AI
原文URL:
https://arxiv.org/abs/2603.19191v1
arXiv cs.AI Thu, 19 Mar 2026 17:25:19 Z
信頼性の高い冠動脈造影解析のための知覚・推論シナジーフレームワーク「ARIADNE」
本論文は、従来のピクセル単位の損失関数ではトポロジー的な制約を課すことができず、血管樹の断片化を引き起こすという問題に対し、知覚と推論を連携させた「ARIADNE」フレームワークを提案しています。
ARIADNEは、Betti数制約を選好信号として使用し、ピクセル単位のオーバーラップ指標よりも幾何学的に完全な血管構造へとポリシーを整合させるために、DPO(Direct Preference Optimization)を用いてSa2VAビジョン・言語基盤モデルをファインチューニングします。さらに、狭窄検出をマルコフ決定過程として定式化し、分岐部や血管交差部のような曖昧な解剖学的候補を自律的に棄却するメカニズムを導入し、信頼性最適化へとシフトします。
1,400件の臨床造影検査で、最先端のセンターラインDiceスコア0.838を達成し、偽陽性を41%削減しました。外部検証でも汎化性能が確認されており、これは医療画像におけるトポロジー整合性のためのDPOの最初の応用であり、構造的制約に対する選好ベース学習が、介入的カーディオロジーワークフローにおける診断感度を維持しながらトポロジー違反を軽減できることを示しています。
ソース・引用元
配信元:arXiv cs.AI
著者:Zhan Jin, Yu Luo, Yizhou Zhang, Ziyang Cui, Yuqing Wei, Xianchao Liu, Xueying Zeng, Qing Zhang
分類:cs.CV, cs.AI
原文URL:
https://arxiv.org/abs/2603.19169v1
arXiv cs.LG Thu, 19 Mar 2026 17:56:32 Z
大規模言語モデルにおけるビジョンエンコーダーとしての状態空間モデルの評価
本論文は、大規模ビジョン言語モデル(VLM)において、従来のTransformerベースのビジョンエンコーダーに代わるものとして、状態空間モデル(SSM)が有効かどうかを検証しています。
実験では、SSMベースのビジョンバックボーンが、Transformerベースのものと比較して、VQA(Visual Question Answering)や物体検出・位置特定タスクにおいて、同等の初期化条件下で優れた性能を示すことが示されました。さらに、SSMはより小さいモデルサイズで競争力のある性能を維持できることが明らかになりました。
研究の結果、ImageNetの精度やバックボーンのサイズが必ずしもVLMの性能向上に直結しないこと、また一部のバックボーンは位置特定において不安定であることが観察されました。これらの知見に基づき、両方のバックボーンファミリーのロバスト性を向上させるための安定化戦略が提案されており、SSMがVLMにおけるTransformerベースのビジョンエンコーダーの有力な代替となりうる可能性が示唆されています。
arXiv cs.LG Thu, 19 Mar 2026 17:42:46 Z
MIDSTチャレンジ:拡散モデルによる合成表形式データに対するメンバーシップ推論
本論文は、合成データがデータ匿名化やプライバシー保護の解決策として期待される一方で、特に表形式データにおける拡散モデルのプライバシー保護能力、とりわけメンバーシップ推論攻撃(MIA)に対する耐性を評価するMIDSTチャレンジについて報告しています。
このチャレンジでは、拡散モデルによって生成された合成表形式データが、元のデータセットの統計的特性を維持しつつ、プライバシー攻撃に対してどの程度耐性があるかを定量的に評価することを目的としました。表形式データの複雑性を考慮し、単一テーブルや多関係テーブルに対する様々なターゲットモデルを用いたMIAが検討されました。
MIDSTチャレンジは、これらのターゲット拡散モデルに特化した新規のブラックボックスおよびホワイトボックスMIAの開発を促進し、そのプライバシー効果を包括的に評価することを可能にしました。GitHubリポジトリも公開されており、研究コミュニティによるさらなる検証と発展が期待されます。
ソース・引用元
配信元:arXiv cs.LG
著者:Masoumeh Shafieinejad, Xi He, Mahshid Alinoori, John Jewell, Sana Ayromlou, Wei Pang, Veronica Chatrath, Garui Sharma
分類:cs.LG
原文URL:
https://arxiv.org/abs/2603.19185v1
arXiv cs.CL Thu, 19 Mar 2026 17:07:05 Z
言語モデルの最適分割:混合データから専門ドメインへの特化
本論文は、大規模言語モデルが多様なデータセットで事前学習されることで高い性能を発揮する現状を踏まえ、複数のモデルを独立して事前学習し、その後の専門ドメインへの特化における計算資源の最適な配分方法を提案しています。
提案手法では、モデルサイズNと事前学習トークン数D、専門化トークン数D'の関係性をスケーリング則を用いて予測し、より大きなモデルサイズやトークン数への外挿を可能にします。これにより、事前学習と専門化の計算資源配分を最適化し、モデルの性能を向上させることを目指しています。
このアプローチを言語モデルの学習に適用した結果、常識推論や知識に関するベンチマークにおいて、様々なモデルサイズと計算予算で一貫して性能が向上することが示されました。これは、汎用的な事前学習済みモデルを効率的に専門ドメインに適応させるための新たな道筋を示唆しています。
ソース・引用元
配信元:arXiv cs.CL
著者:Skyler Seto, Pierre Ablin, Anastasiia Filippova, Jiayuan Ye, Louis Bethune, Angelos Katharopoulos, David Grangier
分類:cs.CL, cs.LG
原文URL:
https://arxiv.org/abs/2603.19149v1
arXiv cs.AI Thu, 19 Mar 2026 17:59:51 Z
具現化ナビゲーションにおける信頼性ベンチマーク「NavTrust」
本論文は、具現化ナビゲーション(ロボットなどが現実世界で指示に従って移動する技術)における信頼性を評価するための新しいベンチマーク「NavTrust」を提案します。
従来の評価は、理想的な条件下での性能に焦点を当てていましたが、現実世界で発生しうるセンサー(RGB、深度)や指示のノイズ・破損に対する耐性は十分に評価されていませんでした。NavTrustは、これらの現実的な問題を統一的なフレームワークでシミュレートし、ナビゲーション性能への影響を体系的に評価します。
7つの最先端モデルの評価により、現実的なノイズ下での性能低下が明らかになり、より信頼性の高い具現化ナビゲーションシステム開発への道筋を示します。さらに、4つの異なる緩和戦略を評価し、実機ロボットでの実験でノイズに対する頑健性の向上が確認されました。
ソース・引用元
配信元:arXiv cs.AI
著者:Huaide Jiang, Yash Chaudhary, Yuping Wang, Zehao Wang, Raghav Sharma, Manan Mehta, Yang Zhou, Lichao Sun
分類:cs.RO, cs.AI, cs.CV, cs.LG, eess.SY
原文URL:
https://arxiv.org/abs/2603.19229v1
arXiv cs.AI Thu, 19 Mar 2026 17:58:52 Z
Nemotron-Cascade 2: Cascade RLとマルチドメイン蒸留によるLLMの後段学習
本論文では、オープンソースの大規模言語モデル(LLM)「Nemotron-Cascade 2」を紹介します。これは300億パラメータを持ちながら、アクティブなパラメータは30億に抑えられたモデルです。
このモデルは、特に推論能力とエージェントとしての能力において、最先端のオープンモデルに匹敵する性能を示します。数学やコーディングの推論能力は、はるかに大規模なモデルに匹敵し、国際数学オリンピックや情報オリンピック、競技プログラミングの世界大会で金メダルレベルの成績を収めています。これは、少ないパラメータ数で高い知能密度を実現していることを示しています。
Nemotron-Cascade 1からの主な技術的進歩は、Cascade RL(強化学習)の適用範囲を推論とエージェント領域に大幅に拡大したこと、および各ドメインの強力な教師モデルからのマルチドメインオンポリシー蒸留を導入したことです。これにより、性能の低下を防ぎつつ、効率的に性能向上を達成しました。モデルチェックポイントと学習データが公開されます。
ソース・引用元
配信元:arXiv cs.AI
著者:Zhuolin Yang, Zihan Liu, Yang Chen, Wenliang Dai, Boxin Wang, Sheng-Chieh Lin, Chankyu Lee, Yangyi Chen
分類:cs.CL, cs.AI, cs.LG
原文URL:
https://arxiv.org/abs/2603.19220v1
arXiv cs.AI Thu, 19 Mar 2026 17:30:02 Z
GPUカーネル最適化のための「SOL-ExecBench」:ハードウェア限界に挑む
本論文は、AIシステムにおけるGPUカーネル(GPUで実行される計算処理)の最適化を評価するための新しいベンチマーク「SOL-ExecBench」を提案します。これは、単に既存のソフトウェア実装を上回る速度を目指すのではなく、ハードウェアの理論的な限界(Speed-of-Light: SOL)にどれだけ近づけるかを測ることを目的としています。
SOL-ExecBenchは、言語、拡散モデル、画像、音声など、様々なAIモデルから抽出された235個のCUDAカーネル最適化問題で構成されており、NVIDIA Blackwell GPUをターゲットとしています。本ベンチマークでは、SOLARというパイプラインを用いてハードウェアに根差したSOL限界を計算し、それを固定目標として最適化の進捗を測る「SOLスコア」を導入しています。
さらに、評価の信頼性を高めるために、GPUクロックの固定、キャッシュのクリア、独立したプロセス実行などの機能を備えたサンドボックス化された実行環境を提供しています。これにより、従来のソフトウェアベースのベンチマークから、ハードウェアの物理的限界に迫る最適化を目指すという、GPUカーネルベンチマークの新たな方向性を示しています。
ソース・引用元
配信元:arXiv cs.AI
著者:Edward Lin, Sahil Modi, Siva Kumar Sastry Hari, Qijing Huang, Zhifan Ye, Nestor Qin, Fengzhe Zhou, Yuan Zhang
分類:cs.LG, cs.AI
原文URL:
https://arxiv.org/abs/2603.19173v1
arXiv cs.CL Thu, 19 Mar 2026 17:10:29 Z
低リソース言語向け可変エントロピー方策最適化モデルVEPO
本論文は、低リソース言語における大規模言語モデルの性能低下問題に対処するため、VEPO(Variable Entropy Policy Optimization)を提案します。
VEPOは、決定論的な構造制約を方策アライメントプロセスに組み込むために、検証可能な報酬を持つ強化学習を活用します。これにより、訓練中に指定されたシーケンス長、形式の一貫性、言語的な正しさが保証されます。特に、エントロピーの可変メカニズムにより、モデルは文字通りの忠実性と意味的な自然さの間の均衡を動的に調整します。
エントロピー緩和型アドバンテージ推定と非対称クリッピングを統合することで、VEPOは方策の崩壊を軽減しつつ、堅牢な探索を維持します。90のFLORES-200、COMET-22、chrF方向での実証評価により、VEPOはトークン化効率と翻訳品質の両方で大幅な改善をもたらし、表現の少ない言語の性能ギャップを埋めることが示されました。
arXiv stat.ML Thu, 19 Mar 2026 17:16:28 Z
PPIは差分推定量:予測駆動推論の調査サンプリングのルーツを認識する
本論文は、予測駆動推論(PPI)の主要な推定量が、1970年代に遡る調査サンプリングの確立された推定量と同等であることを論じます。
具体的には、母集団平均のPPI推定量は、Casselら(1976)の差分推定量と代数的に等価であり、PPIプラスはSarndalら(2003)の一般化回帰(GREG)推定量に対応します。この等価性を認識することで、PPIのどの部分が長年の統計学の文献から受け継がれ、何が真に新しいのか、そして推論の主張にはどのような注意が必要かを考察します。
PPIとモデル支援推定との違い、推論のモード、ラベルなしデータプール、サブグループ推定値への予測誤差の影響などを分析します。PPI研究者は、キャリブレーション、最適配分、デザインベース診断に関する調査サンプリング文献の理論を活用でき、調査サンプリング研究者は、非標準的な推定対象への拡張や、アクセスしやすいソフトウェアエコシステムから恩恵を受けることができます。
arXiv cs.AI Thu, 19 Mar 2026 17:59:21 Z
F2LLM-v2:多言語世界のための包括的で高性能かつ効率的な埋め込み
本論文では、8つの異なるサイズ(80Mから14B)を持つ新しい汎用多言語埋め込みモデルファミリー、F2LLM-v2を発表します。
新たにキュレーションされた6000万件の高品質な公開データサンプルからなる複合データセットで訓練されたF2LLM-v2は、200以上の言語をサポートし、特にこれまで十分に扱われてこなかった中・低リソース言語に重点を置いています。2段階のLLMベース埋め込み訓練パイプラインに、マトゥリョーシュカ学習、モデルプルーニング、知識蒸留技術を統合することで、以前のLLMベース埋め込みモデルよりもはるかに効率的でありながら、競争力のある性能を維持するモデルを実現しました。
広範な評価により、F2LLM-v2-14Bが11のMTEBベンチマークで1位を獲得することが確認されました。また、このファミリーの小規模モデルも、リソース制約のあるアプリケーションにおいて新たな最先端技術を確立しています。オープンソースの埋め込みモデル研究を促進するため、全てのモデル、データ、コード、中間チェックポイントを公開します。
arXiv cs.AI Thu, 19 Mar 2026 17:41:18 Z
Box Maze: LLMの信頼性の高い推論のためのプロセス制御アーキテクチャ
本論文は、AI分野における大規模言語モデル(LLM)の信頼性向上に関する研究です。
LLMは強力な生成能力を持つ一方で、幻覚や敵対的なプロンプトに対する不確かな推論が課題となっています。既存の安全対策は行動レベルに留まり、推論プロセスの整合性を保証するアーキテクチャ上のメカニズムが不足していました。本研究では、LLMの推論を記憶の接地、構造化推論、境界強制の3層に分解する「Box Maze」フレームワークを提案します。
シミュレーションベースの評価では、複数のLLMシステムに対し、境界侵食シナリオを用いて検証が行われました。その結果、明示的な認知制御層が境界維持の一貫性を向上させ、アーキテクチャ上の制約により、敵対的条件下での境界失敗率が約40%から1%未満に低減することが示唆されました。
現在の検証はシミュレーションに基づいた予備的なものですが、プロセスレベルの制御がLLMの推論信頼性向上に有望な方向性を示す可能性が示唆されています。
arXiv cs.AI Thu, 19 Mar 2026 17:59:41 Z
FinTradeBench: LLMのための金融推論ベンチマーク
本論文は、AI分野における金融タスクに特化した大規模言語モデル(LLM)の評価ベンチマークに関する研究です。
現実世界の金融意思決定は、企業財務情報と市場の取引シグナルといった異種信号を横断した推論を必要とします。近年LLMが金融分野で活用され始めていますが、既存のベンチマークは主に財務諸表データに焦点を当てており、市場での取引やファンダメンタルズとの相互作用に関する推論を評価するものが少ないという課題がありました。
この課題に対応するため、本研究では企業ファンダメンタルズと取引シグナルを統合した金融推論ベンチマーク「FinTradeBench」を提案します。このベンチマークは、NASDAQ-100企業を対象とした10年間のデータに基づき、1,400の質問を含みます。質問は、ファンダメンタルズ中心、取引シグナル中心、および両者を横断するハイブリッド推論の3カテゴリに分類されます。
14のLLMをゼロショットおよび検索拡張設定で評価した結果、明確な性能差が確認されました。検索拡張はテキストベースのファンダメンタルズ推論を大幅に改善しましたが、取引シグナル推論への効果は限定的でした。これらの結果は、現在のLLMにおける数値的・時系列推論の根本的な課題を浮き彫りにし、将来の金融知能研究の方向性を示唆しています。
ソース・引用元
配信元:arXiv cs.AI
著者:Yogesh Agrawal, Aniruddha Dutta, Md Mahadi Hasan, Santu Karmaker, Aritra Dutta
分類:cs.CE, cs.AI, cs.CL, cs.IR, q-fin.CP
原文URL:
https://arxiv.org/abs/2603.19225v1
arXiv cs.AI Thu, 19 Mar 2026 17:20:56 Z
意味と測定:Vision-Language Navigationのためのマルチエージェント確率的接地
本論文は、AI分野におけるロボットのナビゲーション能力向上に関する研究です。
人間と協働するロボットは、自然言語の指示を物理的に実現可能な行動に変換する必要があります。例えば、「冷蔵庫の右に2メートル進む」といった指示は、意味的な参照、空間関係、および距離の制約を3D空間内で理解する必要があります。近年のVision-Languageモデル(VLM)は意味的な理解に優れていますが、物理的な空間における距離制約を明示的に推論するようには設計されていません。
この限界に対処するため、本研究では「MAPG(Multi-Agent Probabilistic Grounding)」というエージェントフレームワークを提案します。MAPGは、言語指示を構造化されたサブコンポーネントに分解し、VLMに各コンポーネントの接地を問い合わせます。その後、これらの接地された出力を確率的に合成することで、3D空間内で距離的に整合性の取れた、実行可能な決定を生成します。
HM-EQAベンチマークでの評価により、既存の強力なベースラインと比較して一貫した性能向上が示されました。さらに、距離と意味の言語接地を評価するための新しいベンチマーク「MAPG-Bench」が導入されました。また、シミュレーションを超えて実世界ロボットでの実証も行われ、構造化されたシーン表現が利用可能な場合にMAPGが転移可能であることが示されています。
ソース・引用元
配信元:arXiv cs.AI
著者:Swagat Padhan, Lakshya Jain, Bhavya Minesh Shah, Omkar Patil, Thao Nguyen, Nakul Gopalan
分類:cs.RO, cs.AI, cs.CL, cs.CV, cs.LG
原文URL:
https://arxiv.org/abs/2603.19166v1
arXiv cs.CL Thu, 19 Mar 2026 17:50:07 Z
LLMの聴覚知識がオーディオ言語モデルに与える影響:包括的評価
本論文は、大規模言語モデル(LLM)が大規模オーディオ言語モデル(LALM)の知識基盤として広く利用されている現状に着目し、テキストのみの事前学習を通じてLLMがどの程度の聴覚知識をエンコードしているか、そしてそれが下流タスクのパフォーマンスにどう影響するかを明らかにすることを目的としています。
研究では、テキストのみの2つの設定と、オーディオを考慮した1つの設定で異なるLLMを比較評価しました。具体的には、聴覚知識の広さと深さをテストするベンチマーク「AKB-2000」での直接的なプロービング、オーディオキャプショナーからのテキスト記述に対するLLMの推論能力の評価、そしてオーディオエンコーダーと共にLLMをファインチューニングしたLALMでのオーディオベースの評価を実施しました。
その結果、LLMファミリー間で聴覚知識のエンコード量に大きなばらつきがあること、そしてテキストのみでの評価結果がオーディオベースのパフォーマンスと強く相関することが明らかになりました。本研究は、オーディオ分野におけるLLMの理解を深めるための経験的な基盤を提供するものです。
ソース・引用元
配信元:arXiv cs.CL
著者:Ke-Han Lu, Szu-Wei Fu, Chao-Han Huck Yang, Zhehuai Chen, Sung-Feng Huang, Chih-Kai Yang, Yi-Cheng Lin, Chi-Yuan Hsiao
分類:eess.AS, cs.CL, cs.SD
原文URL:
https://arxiv.org/abs/2603.19195v1
arXiv cs.CL Thu, 19 Mar 2026 17:23:20 Z
大規模言語モデルにおける対事実的戦略的推論の評価
本論文は、大規模言語モデル(LLM)が、戦略的なパフォーマンスにおいて真の推論能力を反映しているのか、それとも記憶されたパターンに依存しているのかを評価することを目的としています。この評価のために、LLMを繰り返しゲーム理論的な設定で検証しました。
研究では、囚人のジレンマ(PD)とじゃんけん(RPS)という2つの代表的なゲームを取り上げ、これらのゲームに payoff 構造や行動ラベルを変更する対事実的なバリエーションを導入しました。これにより、慣れ親しんだ対称性や優位関係が破られる状況を作り出しました。
評価フレームワークでは、デフォルト設定と対事実的な設定でのパフォーマンスを複数の指標で比較しました。その結果、LLMは対事実的な環境において、インセンティブへの感度、構造的汎化、戦略的推論において限界を示すことが示されました。
ソース・引用元
配信元:arXiv cs.CL
著者:Dimitrios Georgousis, Maria Lymperaiou, Angeliki Dimitriou, Giorgos Filandrianos, Giorgos Stamou
分類:cs.CL
原文URL:
https://arxiv.org/abs/2603.19167v1
arXiv cs.CL Thu, 19 Mar 2026 16:59:37 Z
UGID:大規模言語モデルのバイアス除去のための統一グラフ同型性
本論文は、大規模言語モデル(LLM)に顕著に見られる社会的バイアスに着目し、そのバイアスを内部表現レベルで除去するための新しいフレームワーク「UGID」を提案します。従来の出力レベルやデータ最適化に基づく手法ではバイアスを完全に解決できないという課題に対し、UGIDはTransformerを構造化された計算グラフとしてモデル化し、注意機構(attention mechanism)がグラフのルーティングエッジを、隠れ状態がグラフノードを定義すると考えます。
UGIDでは、バイアス除去を、対事実的な入力間でグラフ構造の不変性を強制する問題として定式化します。これにより、バイアスのある属性のみの違いを許容します。このフレームワークは、バイアスに敏感な領域における注意ルーティングと隠れ表現を同時に制約し、バイアスがアーキテクチャのコンポーネント間で移行するのを効果的に防ぎます。
さらに、モデルの汎用的な能力を低下させることなく、効果的な行動アライメントを実現するために、感度ロジットに対する対数空間制約と、定義的意味論を保持するための選択的アンカーベースの目的関数を導入しています。大規模言語モデルを用いた広範な実験により、UGIDは分布内および分布外の両方の設定でバイアスを効果的に低減し、内部構造の不一致を大幅に削減し、モデルの安全性と有用性を維持することが実証されました。
arXiv cs.AI Wed, 18 Mar 2026 17:59:10 Z
Loc3R-VLM: 視覚言語モデルによる言語ベースの3D位置特定と推論
本論文は、2次元の視覚言語モデル(VLM)に単眼ビデオ入力から高度な3D理解能力を付与するフレームワーク「Loc3R-VLM」を提案します。
人間の空間認知に着想を得て、シーン構造の全体的な表現を構築するためのグローバルレイアウト再構築と、自己中心的視点を固定するための明示的な状況モデリングという2つの共同目標に依存します。これらの目標は、知覚と言語の両方を3Dコンテキストに結びつける直接的な空間的監督を提供します。
幾何学的整合性とメトリック尺度アライメントを確保するため、事前学習済みの3D基盤モデルから抽出された軽量なカメラポーズ事前情報を活用します。Loc3R-VLMは、言語ベースの位置特定において最先端の性能を達成し、状況依存および一般的な3D質問応答ベンチマークにおいて、既存の2Dおよびビデオベースのアプローチを上回ります。これは、提案する空間監督フレームワークが強力な3D理解を可能にすることを示しています。
arXiv cs.AI Wed, 18 Mar 2026 16:54:07 Z
IndicSafe: 南アジアにおける多言語LLMの安全性評価ベンチマーク
本論文は、大規模言語モデル(LLM)が多言語環境で展開されるにつれて、文化的に多様でリソースの少ない言語における安全性の挙動が十分に理解されていないという問題に取り組みます。
12億人以上が話す12のインド諸語にわたるLLMの安全性に関する初の体系的な評価を提示します。これらの言語はLLMのトレーニングデータでは過小評価されています。カースト、宗教、ジェンダー、健康、政治を網羅する6,000の文化的に根ざしたプロンプトのデータセットを使用し、10の主要なLLMの安全性を評価します。
分析の結果、言語間で顕著な安全性のドリフトが明らかになりました。言語間の合意はわずか12.8%であり、安全率のばらつきは言語間で17%を超えます。一部のモデルはリソースの少ないスクリプトで無害なプロンプトを過剰に拒否したり、政治的に敏感なトピックを過剰にフラグ付けしたりする一方、安全でない生成をフラグ付けできないモデルも存在します。これらの失敗をプロンプトレベルのエントロピー、カテゴリバイアススコア、多言語一貫性指数を用いて定量化します。本研究の知見は、多言語LLMにおける重大な安全性一般化ギャップを浮き彫りにし、安全性の整合性が言語間で均等に転移しないことを示しています。文化的に情報に基づいたインド諸語展開のための安全性評価を可能にする初のベンチマークであるIndicSafeを公開し、地域的な危害に基づいた言語認識型整合戦略を提唱します。
arXiv cs.AI Wed, 18 Mar 2026 17:59:56 Z
効率的なビデオVLMのための統一的時空間トークン評価
本論文は、特にビデオベースのタスクにおいて計算効率を高めるためのトークン削減の重要性に着目し、効率的なビデオ視覚言語モデル(VLM)のための新しい手法を提案します。
従来のトークン削減アプローチは、単一モダリティの知覚タスクに限定されるか、複雑なテキスト条件付き選択メカニズムを必要とするという課題がありました。本研究では、Spatiotemporal Token Scoring(STTS)というシンプルで軽量なモジュールを導入します。これは、テキスト条件付けやトークンマージなしに、ビジョン・トランスフォーマー(ViT)と大規模言語モデル(LLM)の両方でビジョントークンを削減します。
STTSは、補助的な損失を通じて時間的なスコアリングを学習し、LLMの下流勾配を通じて空間的なスコアリングを行うことで、アーキテクチャ全体でビジョントークンの50%を削減します。これにより、13の短編および長編ビデオQAタスク全体で平均パフォーマンスのわずか0.7%の低下で、トレーニングと推論の両方で62%の効率向上が実現されます。効率の向上は、ビデオあたりのサンプリングフレーム数が増加するにつれて大きくなります。長編ビデオQAに対するテスト時スケーリングを適用すると、ベースラインと比較して0.5〜1%のパフォーマンス向上が得られます。全体として、STTSは、統一されたアーキテクチャ全体にわたるビジョントークン削減のための、シンプルかつ効果的な新しい技術です。
ソース・引用元
配信元:arXiv cs.AI
著者:Jianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee
分類:cs.CV, cs.AI, cs.LG
原文URL:
https://arxiv.org/abs/2603.18004v1
arXiv cs.AI Wed, 18 Mar 2026 16:16:28 Z
RAMP:LLM推論を効率化する強化学習適応型混合精度量子化
本論文は、リソースが制約されたハードウェアへの大規模言語モデル(LLM)展開に不可欠な、学習後量子化に関する研究です。既存手法は層間で一様なビット幅を強制し、精度と効率のトレードオフを最適化できていませんでした。
本研究では、強化学習(オフポリシーSoft Actor-Criticフレームワーク)を用いたRAMP(Reinforcement Adaptive Mixed Precision)を提案します。RAMPは、グローバルなビット予算内でパープレキシティを最小化するために、層ごとのビット幅割り当てを学習します。このポリシーは、活性化統計、重み特性、構造記述子の11次元埋め込みに条件付けられ、モデルファミリーやスケールを超えたゼロショット転送を可能にします。
特に、4ビット未満の安定した量子化を実現するために、スケール折り畳みという前処理技術を導入しています。これは、チャネルごとのスケーリングと正規化層の補償を通じて、活性化の外れ値を重みに移行させるものです。質を重視した報酬関数と予算の急峻性が、迅速な収束を促進します。Llama 2 7Bでは、RAMPは3.68GB(実効3.65ビット)で5.54のパープレキシティを達成し、一様な4ビットAWQ(3.90GBで5.60)を上回り、サイズで6%、品質で1%から3%向上しました。さらに、Llama 2 7Bのみで学習したポリシーが、Llama 2 13BやMistral 7Bにゼロショットで汎化し、ターゲット固有の学習を上回ることが多く、量子化感度は主にアーキテクチャに依存するという仮説を支持しています。HALOパイプラインは、カーネルフリー推論のためにGGUF形式で割り当てをエクスポートし、FP16コモンセンス推論性能の99.5%を維持します。
arXiv cs.CL Wed, 18 Mar 2026 17:31:47 Z
ConGA:機械翻訳における文脈的ジェンダーアノテーションのためのガイドライン
本論文は、機械翻訳(MT)および大規模言語モデル(LLM)におけるジェンダー処理の課題に取り組んでいます。特に、英語のようなジェンダーニュートラルな言語からイタリア語のような文法的にジェンダーを持つ言語への翻訳において、非対称性がしばしば男性形への偏りを引き起こし、バイアスを強化し、翻訳精度を低下させます。
この問題に対処するため、語レベルのジェンダーアノテーションのための言語学的に根拠のあるガイドラインセットであるConGA(Contextual Gender Annotation)フレームワークを提案します。このスキームは、英語における意味的ジェンダーを3つのタグ(男性、女性、曖昧)で区別し、イタリア語における文法的ジェンダーの実現(男性、女性)を、文をまたぐ追跡のためのエンティティレベルの識別子と組み合わせています。
ConGAをgENder-ITデータセットに適用し、翻訳におけるジェンダーバイアスの評価のためのゴールドスタンダードリソースを作成しました。結果は、体系的な男性形の過剰使用と一貫性のない女性形の実現を示しており、現在のMTシステムの持続的な限界を浮き彫りにしています。この研究は、詳細な言語アノテーションと定量的評価を組み合わせることで、よりジェンダーを意識した多言語NLPシステムを構築するための方法論とベンチマークを提供します。
arXiv cs.CL Wed, 18 Mar 2026 15:59:30 Z
ドメイン接地型階層的検索によるLLMのハルシネーション軽減
本論文は、大規模言語モデル(LLM)が生成する事実誤認や根拠のない内容である「ハルシネーション」の問題に対処します。この問題は、信頼性が最重要視される高リスクドメインにおいて特に深刻です。
提案するアーキテクチャは、LLMを確率的パターンマッチングから検証された真実追求へとシフトさせることで、事実誤認を体系的に傍受するように設計された、ドメイン接地型階層的検索および検証パイプラインです。このフレームワークは、LangGraphを介して実装された4段階の自己調整パイプラインを利用します。具体的には、(I)早期終了ロジックによる内在的検証、(II)ドメイン検出器を用いた適応的検索ルーティング、(III)CRAG(Corrective Retrieval-Augmented Generation)による関連性の低いコンテキストのフィルタリング、(IV)外部生成とその後のアトミックな主張レベル検証です。
このシステムは、5つの多様なベンチマーク(TimeQA v2, FreshQA v2, HaluEval General, MMLU Global Facts, TruthfulQA)からの650のクエリで評価されました。経験的結果は、このパイプラインが一貫してゼロショットベースラインを上回ることを示しています。特に、TimeQA v2では83.7%、MMLU Global Factsでは78.0%の勝率を記録し、詳細な時間的および数値的精度を必要とするドメインでの高い有効性を確認しました。根拠性スコアは、事実に基づいた回答行全体で78.8%から86.4%の間で安定して推移しました。このアーキテクチャは誤情報に対する堅牢なフェイルセーフを提供しますが、「誤った前提に基づく過剰な主張」という持続的な失敗モードが特定されました。これらの発見は、多段階RAGの動作に関する詳細な経験的特徴付けを提供し、将来の研究では会話型AIの信頼性のギャップをさらに埋めるために、検索前の「回答可能性」ノードを優先すべきであることを示唆しています。