言語処理学会第28回年次大会 発表報告

こんにちは。AIチームの杉山です。
2022年3月14日(月)〜3月18日(金)に行われた言語処理学会第28回年次大会で、弊社からポスター発表で3件(うち東京都立大学 小町研究室との共同研究1件), 併設されたワークショップのLTで1件(東北大学 乾研究室との共同研究)発表を行いました。
ポスター発表ではどの発表にも多くの方に聴講に来ていただき、有意義な議論を行うことができましたのでそれらをまとめて報告します。なお、各発表の概要は前記事をご覧ください。
また、親会社のサイバーエージェントの研究組織であるAI Labからも同学会への参加報告記事が公開されておりますのでこちらも合わせてご覧ください。学会の概要などは重複するためそちらの記事に譲ることとします。

発表へのコメント・質疑

テキスト生成モデルを利用した対話型広告におけるシナリオ設計に有用なキーフレーズの抽出
○戸田隆道, 友松祐太, 杉山雅和, 邊土名朝飛, 東佑樹, 下山翔 (AI Shift)

  • キーフレーズの定義が曖昧なので、なにかはっきりさせたほうが良いのではないか
  • キーフレーズのポジネガも判断できるとストーリー作成の指針になるかもしれない
  • さっぱりとかしっとりみたいな形容詞が化粧品では重要そう
  • 入力をもっと頑張ってみては(今年人気の{ターゲットワード}はXXX、{芸能人}も使っている{ターゲットワード}のXXX、など)
  • インスタグラムのハッシュタグと比較してみたい

単語の分散表現および音素列の類似性を考慮した単語アラインメントに基づく教師なしEntity Linking
○邊土名朝飛, 友松祐太, 杉山雅和, 戸田隆道, 東佑樹, 下山翔 (AI Shift)

  • 音声認識結果のテキストの単語分割はどうやっているのか
    • GiNZA(SudachiPy)の分割モードAで単語分割している
  • 音声認識エンジンは何を使っているのか
    • Google STT.今後は内製のASRも作っていきたい
  • ユーザ発話を入力として用いた実験よりも,同義語を入力として用いた実験の方が性能が悪いのはなぜか?
    • 同義語辞書には基本的にEntity Linkingに失敗したフレーズしか登録されていないので,発話ログよりも紐付けるのが難しかった可能性がある
  • ハイパーパラメータλはどうやって決めている?
    • 実験ではλ=0.5に決め打ちで設定している.この設定では意味と音声の両方の類似度を同程度考慮することになる
  • BERTを使った方がうまくいくのでは?
    • 予備実験ではうまくいかなかった.音声認識誤りやドメイン特有の固有名詞などに対処できなかったことが性能が低くなった原因と考えられる

事前学習モデルを用いた音声認識結果からの固有表現抽出
○今藤誠一郎, 上田直生也, 岡照晃 (都立大), 杉山雅和 ( AI Shift), 邊土名朝飛 (AI Shift), 小町守 (都立大)

  • BERTやT5を使っているが、音声認識結果で学習した事前学習モデルはあるか?
    • 見つけられていない
  • 対象としているのは音声認識結果か、それとも真の意図を組んだ修正後のテキストか
    • 音声認識結果
  • 昔似た研究を行っていたが、音声認識結果だけを使うと表記に引っ張られすぎる
  • 事前学習モデルとの対応付どうするか、音声認識結果とのずれなど考慮する必要がありそう
  • 音の情報を使うのも面白いけど、NLP側に蓄積された仕組みとどう仲良くするか
  • データにはどれくらい誤りが含まれるか?
    • 付録の通り
  • 道路交通情報は一般的な情報、→化学分野とか固有のドメインでも同じ枠組みで精度向上が見込めるのか?
    • そのドメインの音声認識結果がないので試すことができていない
  • 人だとイントネーションで判断できるかも?音声認識結果だけを使っていますか?
    • 音声認識結果のみ
  • ASRの誤り率ってどれくらい?
    • 具体的な数値は確認できていないが、体感fallbackに含まれないものの3割くらい
  • ドメインとしての範囲が狭いけど理由は?
    • 使えるデータとしての制限
  • ”低い”がT5でエンティティになってるのはなぜ?
    • 福井の音声認識誤りと考えられる。
  • 音声認識誤りと表記揺れなどの難しさがあるが、それぞれのモデルがどう効いているか分析した?
    • できていないが、どちらも含むものは難しさがある
  • fallback多くない?辞書に追加しないのか
    • 辞書をメンテしていない状態で評価している。実運用を考えると多数の導入先で全て辞書をメンテし続けるのはコストが高いので今回の設定で自動化をしたいというモチベーションで取り組んでいる。
  • 学習データ数はどれくらいか
    • 付録の通り
  • T5をfine-tuningしているが入力にないもの固有表現として出したりしそうだがどうか
    • 今回確認した中にはなかった

気になった発表の紹介

AI Shiftのメンバーが聴講した発表から特に興味深かったものを紹介します。

知識グラフに基づく応答文生成におけるエンティティ名制約付きデコーディング
○佐良和孝, 滝口哲也, 有木康雄 (神戸大)

外部知識を参照した応答を生成する際に、事実と反する内容を含む応答を生成するhallucination errorという問題に対し、参照したknowledge tripletに含まれるエンティティのみを生成するよう制限することでそのエラー率が低減する可能性を示唆した研究。
外部知識を参照する必要のある自動応答システムの実応用にはhallucination errorがネックになるが、学習データとDecoderへの工夫のみでその低減ができる可能性が示されており、音声自動応答プロダクトを開発・運用する観点から興味深いと感じました。

問い合わせログの集約におけるクラスタリングを用いた重要回答抽出
○竹中一秀, 林岳晴, 大段秀顕, 湯浅晃 (NTTデータ)

集約した問い合わせログからFAQ型チャットボットを作成するために重要な質問と、それに該当する複数の回答候補を抽出する研究。
論文中に引用していただいている通り、以前我々も問い合わせログから重要な質問を抽出する研究を行っていましたが、そこから発展させて質問だけでなく回答を抽出し、そのクラスタサイズが回答の重要性を表す指標となる可能性が示唆されており大変参考になりました。

確信度を考慮した言語モデルの関係知識評価
○吉川和 (東工大/富士通), 岡崎直観 (東工大)

大量のテキストで学習した言語モデルには、事前学習の過程でナレッジベースのような”関係知識”を獲得していると考えられています。しかし、言語モデルから関係知識を抽出する場合、ナレッジベースとは異なり誤った知識が出力されるリスクがあります。
この研究では、言語モデルが出力する知識の誤りリスク(確信度)を定量化するための評価方法を検討しています。言語モデルから抽出した知識の確信度を算出することで、実際に予測結果を出力するか否かを決定できるようになります(選択的予測)。
弊社で運用している対話システムにおいては、誤って抽出された知識に基づいてユーザに応答するとサービス満足度に悪影響を及ぼすため、知識の確信度を定量化したこの研究は大変興味深いと感じました。

終わりに

新型コロナウイルス感染拡大初期からオンライン開催に取り組んでいる言語処理学会ですが、毎年ブラッシュアップされオンライン開催3年目となる本年では招待講演などは現地+中継、ポスター発表はGatherを用いたオンライン開催というハイブリッド形式となっており、大変体験の良い学会参加体験ができました。このような状況で尽力された運営の方に感謝申し上げます。
弊社はこれからも自然言語処理、音声言語処理に取り組んでいきますので、また来年も発表できるよう研究開発を進めていきます。この領域のプロダクト開発に興味のある方はぜひお声がけください。