3.1K+ Star!Docling:一个文档解析工具

欢迎关注我,持续获取更多内容,感谢&在看~

Docling 简介

Docling[1] 是一个文档解析工具,它能够轻松快速地将文档导出为所需的格式。可以帮助用户从各种文档中提取信息,并将其转换为更易于处理的数据格式。

3.1K+ Star!Docling:一个文档解析工具

项目特点

主要特点

  • 🗂️ 支持读取多种流行的文档格式(PDF、DOCX、PPTX、图像、HTML、AsciiDoc、Markdown),并支持导出为Markdown和JSON格式。
  • 📑 先进的PDF文档理解能力,包括页面布局、阅读顺序和表格结构。
  • 🧩 统一且富有表现力的DoclingDocument[2]表示格式。
  • 📝 元数据提取,包括标题、作者、参考文献和语言。
  • 🤖 与LlamaIndex和LangChain的无缝集成,为RAG/QA应用提供强大的支持。
  • 🔍 支持扫描PDF的OCR功能。
  • 💻 提供简单方便的命令行界面(CLI)。

使用场景

Docling适用于需要从文档中提取信息并进行进一步处理的场景,例如文档数字化、信息检索、自动化文档处理等。

项目使用

安装

可以通过包管理器(如pip)安装docling

pip install docling
  • Docling支持macOS、Linux和Windows环境,以及x86_64和arm64架构。
  • 更详细的步骤可以查看安装说明[3]

使用示例

要转换单个文档,可以使用convert()函数,例如:

from docling.document_converter import DocumentConverter

source = "https://arxiv.org/pdf/2408.09869"  # 可以通过本地路径或URL指定文档
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown())  # 输出:"## Docling Technical Report[...]"

参考文档

  • 官方文档[4]
  • Docling技术报告[5]
3.1K+ Star!Docling:一个文档解析工具

注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。

欢迎关注&点赞&在看,感谢你的阅读~


资源列表
[1]

Github地址: https://github.com/DS4SD/docling

[2]

DoclingDocument: https://ds4sd.github.io/docling/concepts/docling_document/

[3]

安装说明: https://ds4sd.github.io/docling/installation/

[4]

官方文档: https://ds4sd.github.io/docling/

[5]

Docling技术报告: https://arxiv.org/abs/2408.09869

原文始发于微信公众号(AIGC创想者):3.1K+ Star!Docling:一个文档解析工具

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/314942.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!