Molmo 2 – Ai2开源的AI视频分析模型,提供灵活的多模态处理能力艾伦人工智能研究所(Ai2)发布了全新的 Molmo2开源视频语言模型,支持多图像.视频输入,能推理事件、生成字幕并追踪物体。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视...发现资讯1个月前04230
MiMo-V2-Flash – 小米开源的高性能语言模型,生成速度提升2倍mimo-v2-flash 是小米推出的开源高性能大语言模型,整体参数量达3090亿,其中每轮推理激活参数为150亿。仅用了309B的参数规模,该模型就展现出了极高的效能密度,在多项权威综合评测中均取...发现资讯1个月前04320
LongCat-Video-Avatar – 美团开源的数字人视频生成模型,支持音频文本生成视频LongCat-Video-Avatar 是由美团开源的一个基于深度学习的视频生成模型,旨在生成高质量的数字人视频。支持音频、文本或图像输入生成拟真视频,通过创新技术提升动作自然度、长视频稳定性及角色...发现资讯1个月前03270
GPT Image 1.5 – OpenAI最新推出的图像生成模型,指令精准修改图像GPT-image-1.5 是 OpenAI 的最新前沿图像生成模型。 它改进了性能、质量、编辑控制和面部保存。能够更好地遵循指令、以特定方式编辑照片,并且生成结果的速度比之前的图像生成模型提升了四倍...发现资讯1个月前03400
Wan-Move – 阿里联合清华等开源的运动可控视频生成框架wan-move 是由阿里巴巴通义实验室等单位联合推出的开源运动可控视频生成框架,依托潜在空间中的轨迹引导机制,实现高精度、高保真的视频运动调控。该框架能够生成长达5秒、分辨率为480p的视频,并且其...发现2个月前03600
Disco – Google Labs推出的实验性AI浏览器,用户能实时操作和调整内容谷歌推出实验性AI浏览器Disco,该浏览器利用Gemini技术,其GenTabs功能可将多个标签页转化为定制化的Web应用,旨在提升浏览器的生产力工具功能。GenTabs 能生成包含交互地图和行程构...发现资讯2个月前03300
Claude-Mem – 开源Claude Code记忆插件,开启长期记忆功能Claude-Mem是一款智能插件,旨在为 Claude AI 提供长期记忆功能。该插件能够自动捕获在编码会话期间Claude的所有操作,通过AI进行压缩,并将相关的上下文信息注入未来的会话中,实现持...发现资讯2个月前03180
LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型,比同级自回归模型快 2.1 倍蚂蚁技术研究院正式推出LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开技术报告。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,打破...发现资讯2个月前03430
Genstory – 免费AI故事生成平台,轻松创建睡前故事,Genstory 是基于 Gemini Storybook 技术的免费 AI 故事生成平台,能将用户的简单想法瞬间转化为精美的绘本故事。轻松创建睡前故事,让亲子时光更加温馨。用户可从海量故事库中选择...发现资讯2个月前03420
Mulan – AI视频创作平台,实现视频批量生成,小白也能轻松上手在这个AI视频生成技术日新月异的时代,一个国产新平台——Mulan AI,以其独特的差异化突围。Mulan AI不仅仅是一个简单的文生视频模型,更是一个智能聚合的神奇工具,它彻底打破了传统的工作流程...发现资讯2个月前03130