NTT(日本電信電話)<9432>(東証プライム)は6月17日、話者の声をリアルタイムで別の話者の声に変換する技術を開発したと発表。同技術は、深層学習に基づき、高音質と低遅延を両立。音声の特徴量を抽出する新たな処理により、未来の音声信号のバッファが不要となり、低遅延処理が可能になった。これにより、Web会議やライブ配信での使用が見込まれ、コミュニケーションの自由度が大きく向上する。

特徴量変換器は、EncoderとDecoderの2つのモジュールで構成され、話者の特徴を別の話者の特徴に変換。新たに導入された制約により、話者情報の残留が大幅に低減され、高品質な変換が実現した。未来の音声フレームを使用せず、現在と過去の音声フレームのみで変換を行うことで、低遅延を保証している。
聴取実験では、音質と話者類似性において従来法を上回る結果が得られた。今後、発声機能障がいへの活用や、実環境での使用を想定した対雑音性向上、安定性向上などに取り組む予定で、安心して好みの音声でコミュニケーションできる未来が期待される。
◎日刊株式投資情報新聞(無料)登録受付中!