热门

最新

红包

立Flag

投票

同城

我的

发布
ylong52
黑金IT
1 年前
trueylong52

核心逻辑是先分割出视频的关键片段,再去用文字来搜索对应片段。首先通过这个感知哈希的算法,比较两个帧的哈希值的相似度,也就是算出两个帧的哈希值之后,比较它们的相似度。如果相似度是大于 0.6 的,那么就认为这两张图片是相似的。如果小于 0.6 的话,就认为那一帧是一个关键帧,抽出关键帧之后,我们就可以将以每个关键帧作为分隔,分割出一段段视频。接着就可以根据关键帧,把文字视频搜索的任务转化成为图片搜索的任务。因为关键帧之后的那些帧都会跟它长得一样,否则它就不会是关键帧了,所以只需要搜索关键帧就可以了。那么我们就直接调用这个 CLIP-as-service 的 Client,它有一个 Python 的 SDK,用 Client 连接 Server,传入 Jina 的 DocumentArray 数据结构,再进行排序,就可以把排序后的结果直接返回给前端

CSDN App 扫码分享
分享
评论
1
打赏
  • 复制链接
  • 举报
下一条:
加入北汇信息CSDN社区,做任务,赢好礼!点击链接进入社区即可参与页面右侧“好礼抽不停”https://polelink.csdn.net/
立即登录