JinaAl宣布其Reader工具现在能够从任意URL读取P-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

程序员的店小二

2 年前

truem0_46163918

Jina Al宣布其Reader工具现在能够从任意URL读取PDF文件，并快速解析成文本，供下游的语言模型(LLM)使用。

只需将PDF的URL添加到 http : //r .jina.ai前缀，如这个例子，(https://r.jina.ai/https://www.nasa.gov/wp-
content/uploads/2023/01/55583main_vision_space_exploration2.pdf)

即可获得已解析好的文本，供下游的语言模型(LLM)使用。Reader原生支持PDF读取，兼容大多数PDF文件，包括含有大量图片的文件，而且解析速度非常快!

Jina Al Reader读取任意PDF的详细步骤
1.准备PDF URL：
找到你想要读取的PDF文件的URL。例如: https://example.com/sample.pdf

2.添加URL 到Jina Reader：
将PDF的URL添加到Jina Reader中。只需将URL粘贴到指定的输入框中。.或者http://r.jina.ai后+https://example.com/sample.pdf

3.解析PDF：
Jina Reader 会自动解析你提供的URL，并将其中的内容提取出来。这包括处理图像、文本和表格等内容。

由于无法仅通过URL判断其是否为PDF，Jina Reader使用pdf.js来渲染页面，从而准确解析内容。

4.查看解析结果：
一旦解析完成，你可以查看提取出来的文本内容。这些文本已经过处理，适合下游的语言模型(LLM)使用。

5.处理嵌入PDF的特殊情况：
如果网页中嵌入了多个PDF或PDF嵌入在HTML 中，Jina Reader 也能正确处理并解析这些内容。

6.应对复杂的PDF格式：
对于包含大量图片或复杂布局的PDF，Jina Reader使用OCR技术来识别图像中的文本，确保内容的完整性和准确性。

7.使用解析好的文本：
解析好的文本可以用于你的语言模型、数据分析或其他下游应用。这些文本是经过优化的，便于进—步处理和使用。

Jina Al Reader: https:/ljina.ai/reader/

AI资讯

CSDN App 扫码分享

分享

评论

1

打赏

复制链接
举报

下一条：

原来变压器在对齐数字时表现不佳，比如它们无法辨别3487中的“8”与1923中的“2”是对齐的。因此，我们添加了一个特殊的嵌入（除了标准嵌入），对应于每个数字的位值。超级简单！2/n