发现 | 第9页 | up导航

发现科技资讯

排序

发布更新浏览点赞

NEO – 商汤联合南洋理工开源的全新多模态模型架构，训练仅需1/10数据量，达到顶尖的视觉感知能力

商汤科技联合南洋理工大学S-Lab发布并开源全新多模态模型架构NEO。该架构号称是行业首个实现深层次融合的原生视觉语言模型，通过原生图块嵌入、三维旋转位置编码和多头注意力机制创新，实现视觉与语言在底层...

发现资讯

2个月前

03250

HunyuanOCR – 腾讯混元推出的端到端OCR视觉语言模型，仅1B参数，

腾讯正式推出其全新开源模型 HunyuanOCR，参数量仅为1B。该模型基于腾讯独创的混元多模态架构设计，已在多个行业标准的 OCR 应用中取得了 SOTA（最先进水平）的佳绩。HunyuanOCR ...

发现

2个月前

03850

Claude Opus 4.5 – Anthropic推出的最新AI编程模型，编程测试中表现卓越

Anthropic正式推出其最新研发的AI模型Claude Opus4.5。该模型不仅能帮助用户提升工作效率，还能激发创造力，拓展职业能力边界。在编码、智能代理及计算机应用等多个领域展现出卓越性能，尤...

发现

2个月前

03260

NemoVideo – AI视频编辑工具，快速生成爆款视频，支持多种流行风格及动态字幕效果

NemoVideo 是一款为视频创作者提供基于 AI 的“爆款仿剪Agent工具”，工具通过 AI 技术实现自动剪辑，如消除静音、加字幕等，能根据用户需求生成创意简报和脚本，帮助快速制作爆款视频。帮助...

发现

2个月前

04440

MindVideo AI – 免费AI视频生成器，支持文本或图像转化为高质量视频

MindVideo AI是一款先进的在线AI视频生成器，利用人工智能算法快速将文本或图像转化为高质量视频。用户只需输入文字描述或上传图片，就能在几秒钟内生成高质量视频，支持高达4K分辨率。特色包括丰富...

发现

2个月前

06610

Olmo 3 – AI2最新开源的大语言模型系列，支持从编程到推理等多种任务

Ai2发布了新一代语言模型家族Olmo3，从训练数据、程序代码、评测流程，到各阶段检查点与用来回溯推理过程的工具都公开，让外部团队可以完整重现与延伸这套模型。模型包括多个版本，Olmo 3-Base...

发现

2个月前

04690

WorldGen – Meta推出的3D世界生成端到端系统，几分钟内生成完整的 3D 世界。

Meta 推出了 WorldGen，这是一种端到端系统，可仅凭单条文本提示词，自动生成可交互、可导航的三维世界，不仅具备高度沉浸感，更支持用户真正步入其中、自由探索。WorldGen 融合了程序化逻辑...

发现

2个月前

03600

Supertonic – 开源的AI文本转语音系统，最快的TTS系统，实现零延迟响应

Supertonic开源了AI端侧离线文本转语音系统，支持本地高性能语音合成，无需云端依赖，确保隐私和零延迟。Supertonic 具有高度可配置性，用户可根据需求调整推理步骤、批量处理等参数，并支持...

发现

2个月前

05800

小米推出首个跨领域具身大模型–MiMo-Embodied ，支持复杂动态环境中的多模态交互

，小米集团正式发布具身大模型MiMo-Embodied，并宣布该模型全面开源。该模型的创新之处在于构建了一个统一的技术架构，首次实现了两大领域核心任务的协同处理。整合了自动驾驶和具身智能两大领域的任务...

发现

2个月前

05140

Elser.AI – AI动漫创作平台，支持从静态图片到动态视频的转换

Elser AI 正式宣布推出全球首个整合全流程的 AI 动漫创作平台，通过先进的技术将用户的简单创意转化为高质量的动漫内容，涵盖漫画、视频和短剧等多种形式。ELSER.AI的核心突破，在于用AI智能...

发现

2个月前

05280

加载更多