Docling 简介
Docling[1] 是一个文档解析工具,它能够轻松快速地将文档导出为所需的格式。可以帮助用户从各种文档中提取信息,并将其转换为更易于处理的数据格式。

项目特点
主要特点
-
🗂️ 支持读取多种流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown),并支持导出为Markdown和JSON格式。 -
📑 先进的PDF文档理解能力,包括页面布局、阅读顺序和表格结构。 -
🧩 统一且富有表现力的DoclingDocument[2]表示格式。 -
📝 元数据提取,包括标题、作者、参考文献和语言。 -
🤖 与LlamaIndex和LangChain的无缝集成,为RAG/QA应用提供强大的支持。 -
🔍 支持扫描PDF的OCR功能。 -
💻 提供简单方便的命令行界面(CLI)。
使用场景
Docling适用于需要从文档中提取信息并进行进一步处理的场景,例如文档数字化、信息检索、自动化文档处理等。
项目使用
安装
可以通过包管理器(如pip)安装docling
:
pip install docling
-
Docling支持macOS、Linux和Windows环境,以及x86_64和arm64架构。 -
更详细的步骤可以查看安装说明[3]。
使用示例
要转换单个文档,可以使用convert()
函数,例如:
from docling.document_converter import DocumentConverter
source = "https://arxiv.org/pdf/2408.09869" # 可以通过本地路径或URL指定文档
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出:"## Docling Technical Report[...]"
参考文档
-
官方文档[4] -
Docling技术报告[5]

注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。
欢迎关注&点赞&在看,感谢你的阅读~
Github地址: https://github.com/DS4SD/docling
[2]
DoclingDocument: https://ds4sd.github.io/docling/concepts/docling_document/
[3]
安装说明: https://ds4sd.github.io/docling/installation/
[4]
官方文档: https://ds4sd.github.io/docling/
[5]
Docling技术报告: https://arxiv.org/abs/2408.09869
原文始发于微信公众号(AIGC创想者):3.1K+ Star!Docling:一个文档解析工具
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/314942.html