利用DeepSeek进行PDF文字识别 | 看论文时,发现一般都是PDF的内容,而且是两栏,手工转化再复制粘贴,格式容易错乱,内容还有可能识别错误。如果PDF的内容不多,就可以使用DeepSeek的OCR识别功能,如果页面多的话可能要切分成2-3部分来识别。我现在有一页的PDF,所以我直接上传给DeepSeek,并使用下面的提示词:
完整提取文章的题目、作者和文章的内容,不要修改、删除、添加不必要的内容,修正识别过程中的格式错误。
很快我们就可以得到PDF文件里的完整内容,并且可以轻松复制粘贴,还不用担心格式的错乱了。经过对比发现识别内容准确、完整。