核心逻辑是先分割出视频的关键片段，再去用文字来搜索对应片段。-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

1 年前

trueylong52

核心逻辑是先分割出视频的关键片段，再去用文字来搜索对应片段。首先通过这个感知哈希的算法，比较两个帧的哈希值的相似度，也就是算出两个帧的哈希值之后，比较它们的相似度。如果相似度是大于 0.6 的，那么就认为这两张图片是相似的。如果小于 0.6 的话，就认为那一帧是一个关键帧，抽出关键帧之后，我们就可以将以每个关键帧作为分隔，分割出一段段视频。接着就可以根据关键帧，把文字视频搜索的任务转化成为图片搜索的任务。因为关键帧之后的那些帧都会跟它长得一样，否则它就不会是关键帧了，所以只需要搜索关键帧就可以了。那么我们就直接调用这个 CLIP-as-service 的 Client，它有一个 Python 的 SDK，用 Client 连接 Server，传入 Jina 的 DocumentArray 数据结构，再进行排序，就可以把排序后的结果直接返回给前端

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

加入北汇信息CSDN社区，做任务，赢好礼！点击链接进入社区即可参与页面右侧“好礼抽不停”https://polelink.csdn.net/