Step-GUI – 阶跃星辰推出的AI Agent系列模型,10分钟就能在手机端部署step-gui 是阶跃星辰推出的ai agent系列模型,包含云侧模型 step-gui 和端侧模型 step-gui edge(原名:gelab-zero)。用户只需10分钟就能在手机端部署AI助...发现资讯1周前0780
Seedance 1.5 Pro – 字节推出的音画同步多模态视频模型,整体效果自然流畅。字节跳动推出的Seedance 1.5 Pro模型,具备原生音画同步能力的多模态视频生成模型。该模型可实现精准音画同步,实现较高的视听一致性,且支持多种语言和地方方言口音,能够捕捉其独有的语音韵律与情...发现资讯1周前01290
万相2.6 – 阿里通义推出的新一代视频生成系列模型,首个支持角色扮演模型阿里通义推出万相2.6系列模型,支持音画同步、多镜头生成及声音驱动等功能。旨在实现生成视频在画面与声音上的整体一致性。其分镜控制功能可依据语义理解,将原始素材构建为包含多镜头切换的专业叙事段落。该版本...发现资讯1周前0670
Molmo 2 – Ai2开源的AI视频分析模型,提供灵活的多模态处理能力艾伦人工智能研究所(Ai2)发布了全新的 Molmo2开源视频语言模型,支持多图像.视频输入,能推理事件、生成字幕并追踪物体。模型基于 Qwen 3 和 Olmo 架构,具备强大的视频分析能力,能在视...发现资讯1周前01250
MiMo-V2-Flash – 小米开源的高性能语言模型,生成速度提升2倍mimo-v2-flash 是小米推出的开源高性能大语言模型,整体参数量达3090亿,其中每轮推理激活参数为150亿。仅用了309B的参数规模,该模型就展现出了极高的效能密度,在多项权威综合评测中均取...发现资讯1周前01040
LongCat-Video-Avatar – 美团开源的数字人视频生成模型,支持音频文本生成视频LongCat-Video-Avatar 是由美团开源的一个基于深度学习的视频生成模型,旨在生成高质量的数字人视频。支持音频、文本或图像输入生成拟真视频,通过创新技术提升动作自然度、长视频稳定性及角色...发现资讯1周前0740
GPT Image 1.5 – OpenAI最新推出的图像生成模型,指令精准修改图像GPT-image-1.5 是 OpenAI 的最新前沿图像生成模型。 它改进了性能、质量、编辑控制和面部保存。能够更好地遵循指令、以特定方式编辑照片,并且生成结果的速度比之前的图像生成模型提升了四倍...发现资讯1周前0860
Disco – Google Labs推出的实验性AI浏览器,用户能实时操作和调整内容谷歌推出实验性AI浏览器Disco,该浏览器利用Gemini技术,其GenTabs功能可将多个标签页转化为定制化的Web应用,旨在提升浏览器的生产力工具功能。GenTabs 能生成包含交互地图和行程构...发现资讯2周前0690
Claude-Mem – 开源Claude Code记忆插件,开启长期记忆功能Claude-Mem是一款智能插件,旨在为 Claude AI 提供长期记忆功能。该插件能够自动捕获在编码会话期间Claude的所有操作,通过AI进行压缩,并将相关的上下文信息注入未来的会话中,实现持...发现资讯2周前0710
LLaDA 2.0 – 蚂蚁集团开源的离散扩散大语言模型,比同级自回归模型快 2.1 倍蚂蚁技术研究院正式推出LLaDA2.0系列离散扩散大语言模型(dLLM),并同步公开技术报告。LLaDA2.0 包含 MoE 架构的 16B (mini) 和 100B (flash) 两个版本,打破...发现资讯2周前0970