こんにちはAI Shiftの村田です。3月9日(月)から3月13日(金)にライトキューブ宇都宮で言語処理学会第32回年次大会(NLP2026)が開催されます。
AI Shiftが関わる3件の発表があります。 本記事では各発表の概要と、議論したいポイントについて取り上げたいと思います。
また、会期中にはサイバーエージェントのイベントで弊社CAIOの友松も登壇します。学生の皆様はぜひこちらもチェックしてみてください。
1. AI Shiftからの発表
| 日時 | セッション | タイトル | 著者 |
|---|---|---|---|
| 3月10日 (火) 15:10-16:40 | B3-6 | hallucination可視化における主観的評価と情報取得の正確性のギャップ | 亀井 遼平, 坂田 将樹 (東北大), 邊土名 朝飛, 栗原 健太郎 (サイバーエージェント/AI Shift), 乾 健太郎 (MBZUAI/東北大/理研) |
| 3月10日 (火) 15:10-16:40 | P3-3 | 商談対話における階層的 Dialogue Act スキーマの提案 | 戸田 隆道, 二宮 大空, 天谷 航平, 野崎 文宏, 千飯 啓太 (AI Shift) |
| 3月11日 (水) 9:30-11:00 | P5-5 | Keep Generating and Nobody Explodes💣:カスタマー操作型対話の自動化に向けた課題分析 | 佐藤 志貴, 邊土名 朝飛 (サイバーエージェント), 東 佑樹 (AI Shift), 岩田 伸治 (サイバーエージェント) |
2. 各発表の概要と議論したいポイント
2.1 hallucination可視化における主観的評価と情報取得の正確性のギャップ
予稿:https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/B3-6.pdf
概要
LLM応答のハルシネーションリスク可視化の情報粒度を段階的に細かくした際、主観評価と情報取得の正確性がどのように推移するかを検証しました。粒度を変えた4手法を設計し評価実験を実施した結果、細かくすると有用性などの主観評価は向上しますが、正確性などの客観評価は頭打ちとなり、ギャップが生じることを示しました。
議論したいポイント
- 実運用では“成功”はどのように定義・測定するか
- “分かった気になる”で終わらせないUI設計について
2.2 商談対話における階層的 Dialogue Act スキーマの提案
予稿:https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/P3-3.pdf
概要
B2B商談対話の構造を捉えるため、5種のPhaseと9種のActからなる階層的Dialogue Actスキーマを提案しました。模擬商談データへのアノテーション実験により、高いアノテーター間一致率とLLMによる自動分類の有効性を確認し、合成データ生成基盤としての実用可能性を示しました。
議論したいポイント
- 模擬データを用いた妥当性: 実データではなくロールプレイなので、実際の商談と比較した時にどのような差が出てきそうか
- 合成データ生成への応用: 生成モデルに「構造制約」を入れる最適な方法
- Gongなどの既存のRevenue Intelligenceツールについてざっくばらんに
2.3 Keep Generating and Nobody Explodes💣:カスタマー操作型対話の自動化に向けた課題分析
予稿:https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/P5-5.pdf
概要
コールセンターにおけるテクニカルサポートでは、音声だけで相手の環境を把握し、誤りが許されない操作手順を案内する必要があります。爆弾解除ゲームを題材に、誤解が重大な結果を招き得る状況で、リアルタイム音声対話モデルが文脈保持や前提管理で陥りやすい危険を整理したうえで、社会で安全に活用するための設計等に関して議論します。
議論したいポイント
- より実際のテクニカルサポートに近い対話タスクの設計について
- コールセンターにおけるリアルタイム音声対話APIの活用における課題について
3. おわりに
AI Shiftからは上記3件ですが、サイバーエージェントからは他にも発表があります。また、今年もスポンサーブースがありますのでぜひそちらにもお立ち寄りください!
私は聴講参加ですが、参加される皆さんと議論ができることを心待ちにしています。
