dots.ocr - 小红书hi lab开源的文档解析模型dots.ocr 是小红书 hi lab 开源的多语言文档解析模型,能高效地进行文档布局检测和内容识别,保持良好的阅读顺序。dots.ocr 在 OmniDocBench 上表现出色,文本、表格和阅读...发现资讯3个月前03300
Genie Envisioner——智元机器人发布了业内首个开源的机器人世界模型平台智元机器人发布了业内首个开源的机器人世界模型平台——Genie Envisioner(GE),这一平台的推出标志着机器人学习技术迈出了重要一步。该平台的核心在于其高度集成的闭环架构。其中,GE-Bas...发现资讯3个月前03270
MoE-TTS - 昆仑万维推出的先进语音合成框架,增强语音生成能力MoE-TTS 是昆仑万维语音团队推出的先进语音合成框架,专门用在提升开放域文本描述的语音生成能力。MoE-TTS 基于混合专家(MoE)架构,将预训练的大型语言模型(LLM)与语音专家模块相结合。在...发现资讯3个月前03170
WeKnora – 腾讯开源的基于大语言模型文档理解与语义检索框架WeKnora 是腾讯开源的一款基于大语言模型的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而打造。支持 PDF、Word、图片等多种格式,能精准解析图文混排内容,提取文本、表格及图像语义...发现资讯3个月前03110
Macaron – 首个Personal AI Agent,你的贴心AI伙伴,个性化生成实用工具—Macaron 是首个 Personal AI Agent,你的贴心AI伙伴。,Macaron不去和 Productivity Agent 争夺办公场景,也不止步于情绪陪伴,而是把自己做成一个长期在...发现资讯3个月前03240
gpt-oss – OpenAI开源的推理模型系列,支持本地微调和定制,满足特定任务需求OpenAI终于放出其传闻已久的开源模型:gpt-oss-120b和gpt-oss-20b。这两款模型均采用MoE架构,与DeepSeek的多款模型类似。这两款模型已经与OpenAI的Response...发现资讯3个月前02880
CosyVoice 2.0 – 阿里开源的升级版语音生成大模型CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,旨在通过有限标量量化技术和块感知因果流匹配模型,提升语音合成的质量。在多语言语音生成、零样本语音生成、跨语言语音生成、富文本...发现资讯3个月前03060
Looka-人工智能在线Logo设计与生成工具。Looka是一个利用人工智能技术帮助创业者和企业设计标志和品牌识别元素的平台,提供易用的解决方案,可以在几分钟内设计出美观的商标。虽然它在自定义和设计选项上有一定的限制,但其预设的设计选项通常被认为是...发现资讯3个月前03950
GLM-4.5V - 智谱推出的新一代多模态开源视觉推理模型智谱宣布推出新一代开源视觉推理模型GLM-4.5V,并同步在魔搭社区与Hugging Face平台开源。GLM-4.5V基于智谱发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用了GLM-4.1...发现资讯3个月前03080
Qwen-Flash - 通义千问推出的高性能、推理速度快低成本语言模型Qwen-Flash是什么 Qwen-Flash 是阿里巴巴通义千问系列推出的高性能、低成本的语言模型,专为快速响应和高效处理简单任务设计。基于先进的 Mixture-of-Experts (MoE...发现资讯3个月前02890