日本音響学会2022年春季研究発表会で発表します

こんにちは、AIチームの東です。

本日3月9日(水)から3月11日(金)まで日本音響学会の春季研究発表会が開催されています。本研究発表会では現在AI Shiftと共同研究を行なっている名古屋工業大学 李研究室から1件、ポスターセッションにて発表があります。

本記事では発表内容の簡単な紹介をしていきます。発表をお聞きになる際の参考になれば幸いです。

発表内容

以下の発表は明日3月10日(木)の15:00〜16:00、第3P会場(音声A・音声B)にて行われます。

[2-3P-2] 自動音声対話における音素情報を用いたリアルタイム End-of-Turn 判定

著者:池口弘尚、李晃伸(名工大)、東佑樹、下山翔、戸田隆道 (AI Shift)

AI Messenger Voicebotなどの自動音声対話サービスでは、ユーザ発話とシステム発話の話者交代のタイミングの制御が、自然な応答のためには非常に重要となります。

音声対話におけるユーザー発話の終話(End-of-Turn; EOT)判定は音声認識モデルと併用して研究されており、ユーザー発話の認識結果などの言語的特徴量を利用した研究[1]や、ユーザ発話の認識結果に加え韻律、ボトルネック特徴量も考慮した研究[2]が行われています。

本研究は、ユーザー発話が途切れるまでの音声に、その後の無音が発話中、発話終了であるかの情報が含まれていることを仮定し、発話区間検出(Voice Activity Detection; VAD)により検出したユーザ発話の音声特徴を利用することで、低遅延で高精度のEOT判定を行うことを目標としています。

本発表では、実際に自動音声対話サービスで収集された電話音声を用いて転移学習を行い、提案手法の遅延・精度の両面での有用性を検証し、その結果を発表します。

おわりに

以上の内容で当日は発表があります。少しでも興味を持った方はぜひセッションに参加していただき、様々な議論ができればと思います。

最後までお読みいただきありがとうございました!

参考文献

[1] Ryo Sato et al., “Learning decision trees to determine turn-taking by spoken dialogue systems”, ICSLP, 2002, 861-864

[2] R. Masumura, T. Asami, R. Masataki, and R. Higashinaka, “Online end-of-turn detection from speech based on stacked timeasynchronous sequential networks,” in INTERSPEECH, 2017, pp. 1661–1665