GoForum🌐 V2EX

有了这个解析插件,大模型能读取 3000 多项 PDF 文档,并根据提问回答问题。

cxd8190102 · 2026-04-24 17:05 · 0 次点赞 · 1 条回复

现在的大模型虽然上下文窗口大,但理解的范围不大,如果全部丢给它,估计会被塞爆。

如果 PDF 里面还包含了图片、表格等等的话,那就更不用说了。

https://imgur.com/a/Guu8GR2

所以,我做了一个专治非结构化数据的文件解析插件 Knowhere ,它能够识别复杂的 PDF 、Excel 、PPT 等格式,然后把文件按照思维导图的逻辑进行解析,最大程度地保留文档的层级和结构,最后按照格式分门别类,方便大模型的调用和读取。这时候你再向大模型提问,它的回答就靠谱多了。

我测试了一下,对比传统简单粗暴的 RAG ,这种树形结构的拆分法更符合 AI 的学习逻辑,出来的结果也更准确了,大大减少了大模型的幻觉。

有需要的老哥可以试用一下: https://knowhereto.ai/?utm_source=V2EX

1 条回复
facat · 2026-04-24 17:26
#1

能透露一下后台用的是什么服务吗?

添加回复
你还需要 登录 后发表回复

登录后可发帖和回复

登录 注册
主题信息
作者: cxd8190102
发布: 2026-04-24
点赞: 0
回复: 0