AI开源平台

FunASR 基础语音识别工具包

Funasr是基于Paraformer模型的语音识别转写工具,支持离线和实时处理。

标签:

Funasr是什么
Funasr是一个集成了Paraformer非自回归端到端语音识别模型的强大工具,主要用于语音识别和转写任务。Paraformer作为首个在工业大数据上性能可与自回归端到端模型媲美的非自回归模型,其最大的优势在于能够并行处理整条句子的目标文字输出,这一特性使其特别适合利用GPU进行高效的并行推理。通过配合GPU推理,Funasr能够将推理效率提升高达10倍,进而显著降低语音识别云服务的机器成本,降幅接近10倍。Funasr提供了离线文件转写和实时语音听写两大核心软件包,为用户带来全面而灵活的语音处理解决方案。离线文件转写软件包具备完整的语音识别链路,集成了语音端点检测、语音识别以及标点预测等先进模型。它不仅能够高效处理长达几十个小时的长音频与视频文件,将其精准转换为带有标点的文字,还支持上百路请求同时进行转写,极大提升了处理效率。输出结果包含带标点的文字以及字级别时间戳,同时支持ITN(反向文本规范化)与用户自定义热词等功能,满足多样化的应用需求。服务端集成的ffmpeg确保了对各种音视频格式输入的广泛兼容性。该软件包还提供了html、python、c++、java与c#等多种编程语言的客户端,方便用户直接使用或进行进一步的开发定制。实时语音听写软件包则集成了实时版本的语音端点检测、语音识别以及标点预测模型,采用多模型协同工作的方式,既可以实现实时的语音转文字功能,又能在说话句尾通过高精度转写对文字进行修正输出,确保输出的文字带有准确的标点符号,并支持多路请求。根据不同的使用场景,该软件包提供了实时语音听写服务(online)、非实时一句话转写(offline)以及实时与非实时一体化协同(2pass)三种灵活的服务模式,充分满足用户在各种场景下的需求。此外,它同样提供了html、python、c++、java与c#等多种编程语言的客户端,便于用户直接使用并根据自身需求进行进一步的开发拓展,是一款功能强大且极具实用价值的语音识别与转写工具。

Funasr使用示例
以离线文件转写为例,首先选择合适的编程语言客户端,如python。安装FunASR离线文件转写软件包后,导入相关模块。准备需要转写的音频或视频文件,确保其格式被服务端集成的ffmpeg所支持。调用转写功能,传入文件路径等必要参数,启动转写过程。系统将自动进行语音端点检测、语音识别和标点预测等操作,处理完成后,即可获取带有标点的文字结果以及字级别时间戳。若使用实时语音听写软件包,同样先选择客户端语言,如python。安装软件包后,根据需求选择实时语音听写服务(online)、非实时一句话转写(offline)或实时与非实时一体化协同(2pass)模式。初始化相关模型和功能,连接麦克风等音频输入设备。在实时模式下,语音将实时转换为文字并输出;在非实时模式下,可对录制好的一句话进行转写;在一体化协同模式下,兼顾实时与非实时的优势。根据不同模式,获取相应的转写结果,满足实时交流、内容记录等不同场景的需求。

相关导航

暂无评论

暂无评论...