谷歌DeepMind的AI研究探讨了在线和离线方法在AI对齐-CSDN blink-领先的开发者技术社区

SpeechVerse：一种多模态AI框架，使LLMs能够遵循自然语言指令执行多样的语音处理任务亚马逊研究人员介绍SpeechVerse，这是一个多任务框架，具有用于多样化语音任务的监督指令微调。与SpeechGPT不同，它利用预训练语音模型的连续表示进行仅文本输出任务。与需要分层标记和大规模音频编码器的Qwen-Audio相比，SpeechVerse结合了多任务学习和微调，无需特定任务标记，通过自然语言指令实现对未知任务的泛化。SpeechVerse的多模态模型体系结构包括音频编码器、卷积下采样模块和LLM。音频编码器使用预训练模型从音频中提取语义特征，生成统一表示。下采样模块调整音频特征以与LLM令牌序列兼容。LLM处理文本和音频输入，将下采样音频特征与令牌嵌入结合起来。通过参数高效微调的课程学习优化训练，冻结预训练组件以有效处理多样的语音任务。快速阅读：

https://www.marktechpost.com/2024/05/17/speechverse-a-multimodal-ai-framework-that-enables-llms-to-follow-natural-language-instructions-for-performing-diverse-speech-processing-tasks/

https://arxiv.org/abs/2405.08295@