dots.ocr - 小红书hi lab开源的文档解析模型

发现1周前发布 up博主
73 0

dots.ocr 是小红书 hi lab 开源的多语言文档解析模型,能高效地进行文档布局检测和内容识别,保持良好的阅读顺序。dots.ocr 在 OmniDocBench 上表现出色,文本、表格和阅读顺序的解析能力达到行业领先水平,公式识别结果也与更大模型相当。支持多语言,对低资源语言有强大解析能力,内部测试中布局检测和内容识别优势显著。

af192a2ed5db8c828c73d1fc2916150edots.ocr是什么

dots.ocr 是小红书 hi lab 开源的多语言文档布局解析模型。模型基于 17 亿参数的视觉语言模型(VLM),能统一进行布局检测和内容识别,保持良好的阅读顺序。模型规模虽小,但性能达到业界领先水平(SOTA),在 OmniDocBench 等基准测试中表现优异,公式识别效果能与Doubao-1.5和 gemini2.5-pro 等更大规模模型相媲美,在小语种解析方面优势显著。dots.ocr 提供简洁高效的架构,任务切换仅需更改输入提示词,推理速度快,适用多种文档解析场景。

dots.ocr的主要功能

  • 多语言文档解析:支持多种语言的文档解析,涵盖文本、表格、公式和图片等元素。
  • 布局检测与内容识别:在单一视觉语言模型中统一布局检测和内容识别,保持良好的阅读顺序。
  • 高效推理:基于17亿参数的视觉语言模型,推理速度快,适合大规模文档处理。
  • 任务切换灵活:通过更改输入提示词,能轻松切换不同任务,如布局检测、内容识别等。
  • 输出格式多样化:支持JSON、Markdown等多种输出格式,并提供布局可视化图像。
  • 文档布局检测:能精准识别文档中的不同元素,如文本块、表格、图片等,确定它们在页面上的位置和排列顺序,为后续的内容提取和解析提供基础框架。
  • 文本内容识别:可以高效地将文档中的文本内容转换为可编辑的文本格式,支持多种语言,包括一些低资源语言,满足不同语言环境下的文档处理需求。
  • 表格解析:具备强大的表格解析能力,能准确识别表格的结构,提取表格中的数据,将其转换为结构化的格式,方便用户进行数据分析和进一步处理。
  • 公式识别:在处理包含数学公式的文档时,dots.ocr能准确识别并解析公式,识别结果与一些更大规模的模型相当,为学术和科研文档的处理提供了有力支持。
  • 阅读顺序优化:能根据文档的布局和内容,确定合理的阅读顺序,使文档内容的呈现更加符合人类的阅读习惯,提高文档的可读性和易用性。

dots.ocr的技术原理

  • 视觉语言模型(VLM):dots.ocr 基于17亿参数的视觉语言模型,模型结合视觉编码器和语言模型的优势。视觉编码器负责提取文档图像中的视觉特征,语言模型用于理解和生成文本内容。
  • 三阶段训练过程
    • 视觉编码器预训练:从零开始训练一个12亿参数的视觉编码器,使用大规模图文对数据集。
    • 视觉编码器持续预训练:加入高分辨率输入支持,与语言模型对齐,进一步提升视觉特征提取能力。
    • VLM训练:用纯OCR数据集进行训练,优化模型在文档解析任务上的表现。
  • 监督微调(SFT):用多样化的数据集进行监督微调,包括人工标注数据、合成数据和开源数据集。基于迭代式数据飞轮机制,不断优化模型性能,提升数据质量和多样性。基于“大模型排序+规则后验”的方法修正阅读顺序,确保布局元素的顺序符合人类阅读习惯。
  • 任务切换机制:用输入提示词(prompt)指定模型的任务,例如布局检测、内容识别、公式解析等。提示词引导模型生成相应的输出,使模型能灵活应对不同的文档解析需求。

dots.ocr的应用场景

  • 文档数字化与内容提取:将纸质文档或 PDF 文件高效转换为可编辑的数字格式,精准提取文本、表格和公式等结构化内容,助力文档电子化管理。
  • 学术研究与出版:快速解析学术论文中的公式、图表和文本,辅助研究人员高效获取关键信息,加速学术研究和知识传播。
  • 金融与财务文档处理:自动提取财务报告中的数据和表格,支持金融数据分析和合规检查,提升金融业务处理效率。
  • 教育领域:解析教材、试卷等教育资料,提取题目和答案,辅助教学内容数字化和在线化,支持教育信息化发展。
  • 企业内部文档管理:支持处理企业内部的会议记录、项目报告等文档,提取关键信息,优化企业运营效率。。
© 版权声明

相关文章

暂无评论

none
暂无评论...