WhisperFusion

WhisperFusion是什么
WhisperFusion是一款基于先进语音识别与大型语言模型技术构建的AI工具，旨在实现与人工智能之间的无缝、超低延迟对话体验。它整合了WhisperLive和WhisperSpeech的强大功能，并在其实时语音转文字管道之上引入了Mistral这一大型语言模型（LLM），从而不仅能够高效地将语音实时转换为文本，还能进一步理解和处理对话上下文，提升交互的自然度与智能性。WhisperFusion的核心优势在于其对性能的极致优化：其中LLM和Whisper模块均被优化为TensorRT引擎运行，确保了高处理性能和极低的延迟，满足实时交互的需求；同时，WhisperSpeech还采用torch.compile技术对推理过程进行加速，通过将PyTorch代码即时编译为优化的内核，大幅提升运行效率。该工具面向需要高实时性、高精度语音交互的场景，例如智能客服、实时翻译、语音助手、会议记录与分析等，能够显著提升人机交互体验，节省时间成本，提高沟通效率，为企业和开发者带来更智能、更流畅的语音交互解决方案，推动智能化应用的创新与发展。

WhisperFusion使用示例
使用WhisperFusion非常简便，官方提供了基于Docker Compose的预配置部署方案，用户无需复杂的环境搭建即可快速启动并体验其功能。具体步骤如下：
首先，创建一个用于存放临时文件的目录，例如docker/scratch-space，并将官方提供的构建和运行脚本复制到该目录中。执行命令：mkdir docker/scratch-space，然后复制相关脚本文件到该目录。
接着，使用Docker Compose构建镜像，运行命令：docker compose build，此步骤会自动构建包含Whisper和Phi模型（已转换为TensorRT引擎）的预配置容器，并预先下载WhisperSpeech模型，以便快速启动交互。
在构建完成后，通过设置环境变量MODEL（可选，默认为phi-2，也支持Phi-3-mini-4k-instruct或phi-2等模型），启动服务：export MODEL=Phi-3-mini-4k-instruct，然后运行docker compose up。
服务启动后，即可在浏览器中访问Web图形界面，地址为http://localhost:8000，即可开始体验WhisperFusion带来的超低延迟语音对话功能。