← 回總覽

开源 OCR 模型 Chandra OCR 2:支持复杂文档结构化转换

📅 2026-03-28 21:30 GitHubDaily 软件编程 3 分鐘 3112 字 評分: 80
OCR 开源 Chandra OCR 文档处理 GitHub
📌 一句话摘要 介绍一款名为 Chandra OCR 2 的开源 OCR 模型,支持将 PDF 和图片转换为结构化的 Markdown、HTML 或 JSON,并能保留原始排版。 📝 详细摘要 该推文推荐了开源项目 Chandra OCR 2,这是一款针对复杂文档(包含表格、公式、手写体)的 OCR 模型。它支持 90 多种语言,在多语言 OCR 基准测试中表现优异,能够将文档转换为结构化的 Markdown、HTML 或 JSON 格式,并保留原始排版和表单结构。对于需要处理扫描件、论文等文档的开发者来说,是一个实用的工具。 📊 文章信息 AI 评分:80 来源:GitHubDaily
Skip to main content ![Image 1: LogoBestBlogs](https://www.bestblogs.dev/ "BestBlogs.dev")Toggle navigation menu Toggle navigation menuArticlesPodcastsVideosTweetsSourcesNewsletters

⌘K

Change language Switch ThemeSign In

Narrow Mode

Open-source OCR Model Chandra OCR 2: Structured Conversion for Complex Documents

Open-source OCR Model Chandra OCR 2: Structured Conversion for Complex Documents

![Image 2: GitHubDaily](https://www.bestblogs.dev/en/tweets?sourceId=SOURCE_2f8e5816) ### GitHubDaily

@GitHub_Daily

处理 PDF 和图片里的文字,尤其碰到表格、公式、手写体混在一起的文档,传统 OCR 识别出来的结果经常乱成一团,排版全丢了。

今天又刷到一个新开源 OCR 模型:Chandra OCR 2,能把图片和PDF直接转成结构化的Markdown、HTML或JSON,还能保留原始排版。

支持 90 多种语言,在多语言 OCR 基准测试中跑到了综合第一,对数学公式、复杂表格和手写内容的识别效果都很强。

GitHub:github.com/datalab-to/cha…

比较实用的是它能准确还原表单结构,包括复选框这种细节,还能提取文档中的图表并自动生成描述。一条命令就能处理单个文件或整个目录。

如果你经常要把扫描件、论文、多语言文档转成可编辑的格式,这个工具值得试试,中文识别准确率接近 89%。Show More

!Image 3: Tweet image

Mar 28, 2026, 1:30 PM View on X

0 Replies

19 Retweets

62 Likes

3,394 Views ![Image 4: GitHubDaily](https://www.bestblogs.dev/en/tweets?sourceid=2f8e5816) GitHubDaily @GitHub_Daily

One Sentence Summary

Introducing Chandra OCR 2, an open-source OCR model that converts PDFs and images into structured Markdown, HTML, or JSON while preserving original formatting.

Summary

This tweet recommends the open-source project Chandra OCR 2, an OCR model designed for complex documents containing tables, formulas, and handwriting. Supporting over 90 languages and performing exceptionally in multilingual OCR benchmarks, it can convert documents into structured Markdown, HTML, or JSON formats while maintaining original layouts and form structures. It is a highly practical tool for developers who frequently handle scanned files, research papers, and other complex documents.

AI Score

80

Influence Score 27

Published At Today

Language

Chinese

Tags

OCR

Open Source

Chandra OCR

Document Processing

GitHub HomeArticlesPodcastsVideosTweets

Open-source OCR Model Chandra OCR 2: Structured Conversio...

查看原文 → 發佈: 2026-03-28 21:30:54 收錄: 2026-03-29 00:00:43

🤖 問 AI

針對這篇文章提問,AI 會根據文章內容回答。按 Ctrl+Enter 送出。