谷歌开源LiveTranscribe语音引擎:为长对话提供字幕

2019-08-18 17:20:57  阅读:2315+ 作者:责任编辑NO。魏云龙0298

  原标题:Google开源Live Transcribe的语音引擎,为长篇对话供给字幕

  8月18日,谷歌宣告开源Android语音辨认转录东西Live Transcribe的语音引擎。

  这家公司期望这样做能够让任何开发人员为长篇对话供给字幕,削减因网络推迟、断网等问题导致的沟通妨碍。源代码现在能够在GitHub上取得。这意味着不管你是出国或是与新朋友碰头,Live Transcribe都能够协助你进行沟通。

沟通时能够实时疏通(只需有网络)

  谷歌于本年2月发布了Live Transcribe。该东西运用机器学习算法将音频转换为实时字幕,与Android行将推出的Live Caption功用不同,Live Transcribe是一种全屏体会,运用智能手机的麦克风(或外接麦克风),并依靠于Google Cloud Speech API。Live Transcribe能够用70多种语言和方言标题实时白话。另一个首要区别是Live Transcribe可在18亿台Android设备上运用(当Live Caption在本年晚些时候推出时,它只适用于部分Android Q设备)。

  在云上作业

  谷歌的Cloud Speech API现在不支撑发送无限长的音频流。此外,依靠云意味着网络衔接、数据本钱和推迟方面都有潜在问题。

  成果,语音引擎在到达超时之前封闭并从头启动流恳求,包括在长期静默期间从头开始会话而且每逢语音中检测到暂停时封闭。在会话之间,语音引擎还在本地缓冲音频,然后在从头衔接时发送它。因而,谷歌避免了切断的语句或单词,并削减了会话中丢掉的文本量。

70多种语言和方言中选择自己适宜的

  为了下降带宽需求和本钱,谷歌还评价了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)能够坚持准确性,不会节约太大都据,而且具有显着的编解码器推迟。AMR-WB能够节约很大都据,但在喧闹的环境中准确度较低。

  与此一起,Opus答应数据速率比大大都音乐流媒体服务低许多倍,一起仍保存音频信号的重要细节。谷歌还会在长期的静音期间运用语音检测来封闭网络衔接。

  整体而言,该团队能够完成“在不影响准确性的情况下,将数据运用量削减10倍”。

  为了比Cloud Speech API更进一步削减推迟,Live Transcribe运用自定义Opus编码器。编码器刚好提高了比特率,使“推迟在视觉上无法区别发送未紧缩的音频”。

  Live Transcribe语音引擎功用

  谷歌列出了语音引擎的以下功用(不包括说话人辨认):

  无限流媒体。

  支撑70多种语言。

  能够简化网络丢掉(在网络和Wi-Fi之间切换时)。文字不会丢掉,只会推迟。

  强壮的扩展网络损耗。即便网络现已停电数小时,也会从头衔接。当然,没有衔接就不能进行语音辨认。

  能够轻松启用和装备Opus,AMR-WB和FLAC编码。

  包括文本格式库,用于可视化ASR置信度、发言人ID等。

  可离线模型扩展。

  内置支撑语音检测器,可在延伸静音期间用于中止ASR,以节约资金和数据。

  内置支撑扬声器辨认,可根据扬声器编号符号或上色文本。

字幕会跟着对话的深化而调整

  该文档指出这些库与出产应用程序Live Transcribe中运转的库“简直相同”。谷歌已对其进行了“广泛的现场测验和单元测验”,但测验自身并非开源。但谷歌的确供给了APK,因而开发者能够在不构建任何代码的情况下试用该库。(雷锋网(大众号:雷锋网)雷锋网雷锋网)

  via:android.comventurebeat

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!