up博主

帅气的我简直无法用语言描述!
dots.ocr – 小红书hi lab开源的文档解析模型

dots.ocr – 小红书hi lab开源的文档解析模型

dots.ocr 是小红书 hi lab 开源的多语言文档解析模型,能高效地进行文档布局检测和内容识别,保持良好的阅读顺序。dots.ocr 在 OmniDocBench 上表现出色,文本、表格和阅读...
6个月前
06010
Genie Envisioner——智元机器人发布了业内首个开源的机器人世界模型平台

Genie Envisioner——智元机器人发布了业内首个开源的机器人世界模型平台

智元机器人发布了业内首个开源的机器人世界模型平台——Genie Envisioner(GE),这一平台的推出标志着机器人学习技术迈出了重要一步。该平台的核心在于其高度集成的闭环架构。其中,GE-Bas...
6个月前
06250
MoE-TTS – 昆仑万维推出的先进语音合成框架,增强语音生成能力

MoE-TTS – 昆仑万维推出的先进语音合成框架,增强语音生成能力

MoE-TTS 是昆仑万维语音团队推出的先进语音合成框架,专门用在提升开放域文本描述的语音生成能力。MoE-TTS 基于混合专家(MoE)架构,将预训练的大型语言模型(LLM)与语音专家模块相结合。在...
6个月前
07940
WeKnora – 腾讯开源的基于大语言模型文档理解与语义检索框架

WeKnora – 腾讯开源的基于大语言模型文档理解与语义检索框架

WeKnora 是腾讯开源的一款基于大语言模型的文档理解与语义检索框架,专为结构复杂、内容异构的文档场景而打造。支持 PDF、Word、图片等多种格式,能精准解析图文混排内容,提取文本、表格及图像语义...
6个月前
05410
Macaron – 首个Personal AI Agent,你的贴心AI伙伴,个性化生成实用工具

Macaron – 首个Personal AI Agent,你的贴心AI伙伴,个性化生成实用工具

—Macaron 是首个 Personal AI Agent,你的贴心AI伙伴。,Macaron不去和 Productivity Agent 争夺办公场景,也不止步于情绪陪伴,而是把自己做成一个长期在...
6个月前
05150
gpt-oss – OpenAI开源的推理模型系列,支持本地微调和定制,满足特定任务需求

gpt-oss – OpenAI开源的推理模型系列,支持本地微调和定制,满足特定任务需求

OpenAI终于放出其传闻已久的开源模型:gpt-oss-120b和gpt-oss-20b。这两款模型均采用MoE架构,与DeepSeek的多款模型类似。这两款模型已经与OpenAI的Response...
6个月前
05350
CosyVoice 2.0 – 阿里开源的升级版语音生成大模型

CosyVoice 2.0 – 阿里开源的升级版语音生成大模型

CosyVoice 2.0 是阿里巴巴通义实验室推出的语音生成大模型升级版,旨在通过有限标量量化技术和块感知因果流匹配模型,提升语音合成的质量。在多语言语音生成、零样本语音生成、跨语言语音生成、富文本...
6个月前
05780
Looka-人工智能在线Logo设计与生成工具。

Looka-人工智能在线Logo设计与生成工具。

Looka是一个利用人工智能技术帮助创业者和企业设计标志和品牌识别元素的平台,提供易用的解决方案,可以在几分钟内设计出美观的商标。虽然它在自定义和设计选项上有一定的限制,但其预设的设计选项通常被认为是...
6个月前
06680
GLM-4.5V – 智谱推出的新一代多模态开源视觉推理模型

GLM-4.5V – 智谱推出的新一代多模态开源视觉推理模型

智谱宣布推出新一代开源视觉推理模型GLM-4.5V,并同步在魔搭社区与Hugging Face平台开源。GLM-4.5V基于智谱发布的新一代旗舰文本基座模型GLM-4.5-Air,沿用了GLM-4.1...
6个月前
05680
Qwen-Flash – 通义千问推出的高性能、推理速度快低成本语言模型

Qwen-Flash – 通义千问推出的高性能、推理速度快低成本语言模型

Qwen-Flash是什么 Qwen-Flash 是阿里巴巴通义千问系列推出的高性能、低成本的语言模型,专为快速响应和高效处理简单任务设计。基于先进的 Mixture-of-Experts (MoE...
6个月前
05500