微软文本转语音虚拟数字人上线 支持GPT-4o的集成
可以创建实时互动的数字人
但是目前语音使用的还是微软自己的
1.自然声音视频:将文本转换为自然声音说话的数字人视频。
2. 预生成虚拟形象:提供预生成虚拟形象的集合,用户可选择使用。
3.多种语言支持:支持与文本转语音相同的多种语言和声音,包括英语、中文、西班牙语等。
4. 批量和实时合成:支持1920×1080分辦率、每秒25帧的视频合成,批量合成支持h264/h265/vp9编解码器,实时合成支持h264编解码器。
5.自定义虚拟形象:用户可以创建自定义的文本转语音虚拟形象,只需录制10分钟的视频,并可选择自定义神经网络声音。
6.实时互动:在Speech Studio中提供的实时聊天虚拟形象工具,可以实现实时虚拟形象对话。
7.高质量视频输出:支持高清分辨率和多种编解码器,用户可以配置视频比特率以满足不同需求。
8.无代码创建工具:Speech Studio提供内容创建工具,无需编码即可创建视频内容。
可以接入大语言模型直接和自己的服务集成
提供实时互动的数字人服务,比如在线客服、导游、讲解员等。