谷歌开源LiveTranscribe语音引擎:为长对话提供字幕

2019-08-18 17:20:57 阅读：2315+ 作者：责任编辑NO。魏云龙0298

　　原标题：Google开源Live Transcribe的语音引擎，为长篇对话供给字幕

　　8月18日，谷歌宣告开源Android语音辨认转录东西Live Transcribe的语音引擎。

　　这家公司期望这样做能够让任何开发人员为长篇对话供给字幕，削减因网络推迟、断网等问题导致的沟通妨碍。源代码现在能够在GitHub上取得。这意味着不管你是出国或是与新朋友碰头，Live Transcribe都能够协助你进行沟通。

沟通时能够实时疏通（只需有网络）

　　谷歌于本年2月发布了Live Transcribe。该东西运用机器学习算法将音频转换为实时字幕，与Android行将推出的Live Caption功用不同，Live Transcribe是一种全屏体会，运用智能手机的麦克风（或外接麦克风），并依靠于Google Cloud Speech API。Live Transcribe能够用70多种语言和方言标题实时白话。另一个首要区别是Live Transcribe可在18亿台Android设备上运用（当Live Caption在本年晚些时候推出时，它只适用于部分Android Q设备）。

　　在云上作业

　　谷歌的Cloud Speech API现在不支撑发送无限长的音频流。此外，依靠云意味着网络衔接、数据本钱和推迟方面都有潜在问题。

　　成果，语音引擎在到达超时之前封闭并从头启动流恳求，包括在长期静默期间从头开始会话而且每逢语音中检测到暂停时封闭。在会话之间，语音引擎还在本地缓冲音频，然后在从头衔接时发送它。因而，谷歌避免了切断的语句或单词，并削减了会话中丢掉的文本量。

70多种语言和方言中选择自己适宜的

　　为了下降带宽需求和本钱，谷歌还评价了不同的音频编解码器：FLAC，AMR-WB和Opus。FLAC（无损编解码器）能够坚持准确性，不会节约太大都据，而且具有显着的编解码器推迟。AMR-WB能够节约很大都据，但在喧闹的环境中准确度较低。

　　与此一起，Opus答应数据速率比大大都音乐流媒体服务低许多倍，一起仍保存音频信号的重要细节。谷歌还会在长期的静音期间运用语音检测来封闭网络衔接。

　　整体而言，该团队能够完成“在不影响准确性的情况下，将数据运用量削减10倍”。

　　为了比Cloud Speech API更进一步削减推迟，Live Transcribe运用自定义Opus编码器。编码器刚好提高了比特率，使“推迟在视觉上无法区别发送未紧缩的音频”。

　　Live Transcribe语音引擎功用

　　谷歌列出了语音引擎的以下功用（不包括说话人辨认）：

　　无限流媒体。

　　支撑70多种语言。