腾讯正式推出其全新开源模型 HunyuanOCR,参数量仅为1B。该模型基于腾讯独创的混元多模态架构设计,已在多个行业标准的 OCR 应用中取得了 SOTA(最先进水平)的佳绩。HunyuanOCR 不仅具备高精度的文字识别与定位,还可以直接进行文档解析,自动恢复标题、段落和层级结构,并以 Markdown 等形式输出结果,使扫描文档能够直接进入编辑和二次处理流程。支持100多种语言,无论是单语言还是多语言混合文档都能应对自如,包括文本检测与识别、复杂文档解析、开放字段信息抽取、视频字幕抽取等,支持端到端拍照翻译和文档问答。

HunyuanOCR的主要功能
- 文本检测与识别:能检测并识别图片中的文字,输出文本内容及坐标信息,适用于文档、艺术字、街景、手写等多种场景。
- 复杂文档解析:支持多语种文档的电子化处理,将文档中的文本内容按阅读顺序组织,公式以 LaTeX 格式表示,表格以 HTML 格式表达。
- 开放字段信息抽取:对常见卡证和票据中的感兴趣字段(如姓名、地址、单位等)进行标准 JSON 格式解析,方便信息提取和后续处理。
- 视频字幕抽取:可自动化抽取视频中的字幕,包括单语和双语字幕,适用于视频内容处理和翻译场景。
- 图像文本翻译:支持14种小语种(如德语、西班牙语、日语等)翻译成中文或英文,以及中英互译,适用于跨语言文档处理和交流。
HunyuanOCR的技术原理
- 端到端架构:采用全端到端的训练和推理范式,模型直接从输入图像到输出结果,无需复杂的级联处理,提高了效率和准确性。
- 多模态融合:基于混元原生多模态架构,将视觉信息和语言信息深度融合,使模型能更好地理解和解析图像中的文本内容。
- 高质量数据训练:使用大规模高质量的应用导向数据进行训练,结合在线强化学习,使模型在多种场景下表现出色,具有很强的泛化能力。
- 轻量化设计:仅1B参数量,通过高效的模型结构设计,在保持高性能的同时降低了计算成本和部署难度,适合多种硬件环境。
- 多语言支持:通过优化模型的语言理解和生成能力,支持100多种语言,能处理多语言混合的复杂文档,适应全球化的应用场景。
HunyuanOCR官网地址
- 官网:https://hunyuan.tencent.com/vision/zh?tabIndex=0
HunyuanOCR的应用场景
- 文档处理:用于扫描或拍摄的多语种文档电子化,支持复杂文档解析,包括文本、公式(LaTeX格式)和表格(HTML格式)的提取与组织。
- 票据字段抽取:对常见票据(如发票、收据)中的关键字段(如金额、日期、编号等)进行快速准确的提取和解析。
- 视频字幕提取:自动化提取视频中的字幕,支持单语和双语字幕,适用于视频内容制作和翻译。
- 拍照翻译:支持多种小语种的拍照翻译功能,可将图片中的文字翻译成中文或英文,适用于旅行、学习等场景。
- 信息抽取:从图像中提取特定字段或信息,如从身份证、名片中提取姓名、地址等,支持多种格式输出。
- 视频内容创作:帮助视频创作者快速提取视频中的文字内容,用于字幕制作、内容分析等。
- 教育与学习:辅助学生和研究人员快速提取文献、教材中的关键信息,支持多语言学习和研究。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



