Jina Al宣布其Reader工具现在能够从任意URL读取PDF文件,并快速解析成文本,供下游的语言模型(LLM)使用。
只需将PDF的URL添加到 http : //r .jina.ai前缀,如这个例子,(https://r.jina.ai/https://www.nasa.gov/wp-
content/uploads/2023/01/55583main_vision_space_exploration2.pdf)
即可获得已解析好的文本,供下游的语言模型(LLM)使用。Reader原生支持PDF读取,兼容大多数PDF文件,包括含有大量图片的文件,而且解析速度非常快!
Jina Al Reader读取任意PDF的详细步骤
1.准备PDF URL:
找到你想要读取的PDF文件的URL。例如: https://example.com/sample.pdf
2.添加URL 到Jina Reader:
将PDF的URL添加到Jina Reader中。只需将URL粘贴到指定的输入框中。.或者http://r.jina.ai后+https://example.com/sample.pdf
3.解析PDF:
Jina Reader 会自动解析你提供的URL,并将其中的内容提取出来。这包括处理图像、文本和表格等内容。
由于无法仅通过URL判断其是否为PDF,Jina Reader使用pdf.js来渲染页面,从而准确解析内容。
4.查看解析结果:
一旦解析完成,你可以查看提取出来的文本内容。这些文本已经过处理,适合下游的语言模型(LLM)使用。
5.处理嵌入PDF的特殊情况:
如果网页中嵌入了多个PDF或PDF嵌入在HTML 中,Jina Reader 也能正确处理并解析这些内容。
6.应对复杂的PDF格式:
对于包含大量图片或复杂布局的PDF,Jina Reader使用OCR技术来识别图像中的文本,确保内容的完整性和准确性。
7.使用解析好的文本:
解析好的文本可以用于你的语言模型、数据分析或其他下游应用。这些文本是经过优化的,便于进—步处理和使用。
Jina Al Reader: https:/ljina.ai/reader/
- 复制链接
- 举报