日本音響学会 第151回(2024年春季)研究発表会 参加報告

こんにちは。AIチームの東です。

本記事では、2024年3月6日(水)~8日(金)で行われた日本音響学会第151回(2024年春季)研究発表会の参加報告をさせていただきます。

イベント、セッション

今年の春季研究会はオフライン形式で開催されました。春季研究会としては2020年以来、4年振りのオフライン形式となりました。
2020年以前の春季研究会は例年関東地方で開催されることが通例らしく、今年は拓殖大学(東京都)での開催となりました。

拓殖大学の正門の様子
正門の様子。会期中は雷雨・雪など天候不良が続いていましたが、2日目は晴天となりました。

今回の研究会では以下の件数の講演・発表等がありました。

  • 一般講演(口頭発表) :235件(全10会場)
  • 招待講演:40件
  • ポスターセッション:210件
  • 選奨行事:1件
  • 特別講演:1件

開催された全てのイベントやセッションに参加することはできませんでしたが、その中からいくつかを選んでご紹介します。

学生・若手フォーラム主催イベント

今年は研究発表会の前日(3/5)に「Student Day」、研究発表会初日(3/6)に「学生コーヒーブレイク」「学生・若手飲み」が日本音響学会 学生・若手フォーラムの主催で開催されました。

「Student Day」ではこれまで学会期間中に開催されていた「会場・デモ見学」「ビギナーズセミナー」、「インタラクティブセッション」を1つのプログラムとしてまとめたもので、ハイブリッド形式(現地参加は学生のみ)で開催されました(弊社の親会社であるサイバーエージェントからも1件発表がありました)。
「学生コーヒーブレイク」では関連分野の学生同士、「学生・若手飲み」では関連分野の研究者と学生の交流を目的に開催されたそうなので、私も機会が合えば次回以降で参加させていただければと思います。

また、これらの情報は日本音響学会(ASJ)学生・若手フォーラムのHPXFacebookで発信されておりますので、今後のイベントについてはそちらをご参照ください。

口頭発表・ポスターセッション

今回の研究発表会では口頭発表・招待講演・ポスターセッション合わせて約500件の発表がありました。かなりの件数の発表が3日間で並行して行われるので大部分は見て回ることができず残念でしたが、弊社のプロダクトが抱える課題に関連する研究も多く、今後の参考にさせていただければと感じました。
また、今回は親会社のサイバーエージェントから3件の発表と賛助会員ポスター展示があり、選奨行事ではAI Labの李莉による研究が『独創研究奨励賞 板倉記念』に選ばれました。

以下、聴講させていただいた中で弊社のプロダクトにも関連のある研究をいくつか抜粋して紹介させていただきます。

[1-Q-31] 日本語日常会話の潜在的な発話スタイルに基づく対話シーンに応じた音声合成

☆嶋崎 純一(名古屋工業大・工),上乃 聖,李 晃伸(名古屋工業大・工学研)

こちらは対話中のインタラクションを考慮した音声を再現(音声合成)する研究についての発表でした。
こちらの発表では会話形式と話者関係性をIDで表現した情報、書き起こしテキストに因子分析を行って得られた特徴をそれぞれモデルの入力に加えた際の結果の評価、分析を行っていました。
弊社の電話応対サービス(AI Messenger Voicebot)ではより良い顧客体験にするための戦略の一つに音声合成が議題に上ることがあり、このような対話的な文脈を考慮した音声合成という研究は今後も注視していきたいと思います。

[2-P-15] 大規模言語モデルを用いた自由記述型音声感情認識の検討

〇安藤 厚志,増村 亮,田中 智大,牧島 直輝,庵 愛,山﨑 善啓,河田 尚孝,折橋 翔太(NTT)

こちらは自由記述型のテキスト形式で音声感情を予測させるタスクの提案とその実現性に関する検証を行った研究です。従来の音声認識では事前に定義されたカテゴリを推定するタスクや2次元以上の感情次元を定義して空間上の値を予測するタスクが一般的ですが、この研究では音声感情を自由記述文で説明させるというタスクを提案しています。
その実現のためのアーキテクチャとして学習済みのLLMと音声エンコーダを組み合わせた構成を提案しているのですが、モデルを統合する部分のみのパラメータを学習時に更新させることで、比較的低コストで当該タスクを実行できる点が面白いと感じました。
同様のアーキテクチャを拡張して認識スタイルを制御できる音声認識モデルを構成する、等周辺タスクへの応用も考えられそうです。

[3-2-10] 過去の発話を考慮した文単位音声要約技術の検討

◎松浦 孝平,芦原 孝典,森谷 崇史,三村 正人,叶 高朋,小川 厚徳,デルクロア マーク,浅見 太一(NTT)

こちらは音声認識と音声要約の中間の粒度の出力を行う文単位の音声要約タスクを提案し、その実現性の検証を行った研究です。
論文では過去の発話情報を入力に考慮すると精度の向上が見込めるが、各文を独立に要約させてもほとんど同等の結果が得られた、と報告されていました。
弊社が提供している音声対話要約サービス(AI Messenger Summary)でも類似しているタスクを扱っており、音声データに対して要約を行う適切な粒度や技術構成については今後も検討を重ねていければと思います。

おわりに

今回、春季研究発表会としては初めてオフラインで参加させていただきました。前回の研究発表会に引き続き多くの最先端の研究成果に触れることができ、非常に多くの学びを得ることができました。今後も継続的に参加・発表を行っていければと思います。
このような機会を作ってくださった運営や発表者の皆様に感謝申し上げます。

最後までお読みいただきありがとうございました。

PICK UP

TAG