《【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战》本文在音频转文本的基础上,引入了视频转音频,这样可以采用二阶段法:先提取音频,再音频转文字的方法完成视频内容理解。之后可以配上LLM对视频内提取的文本进行一系列应用。 ——来自博客 https://blog.csdn.net/weixin_48007632/article/details/140106912