Qwen3-Max – 阿里通义推出的超大规模模型,支持灵活调用外部工具完成复杂任务阿里通义旗舰模型Qwen3 - Max重磅登场,性能超过GPT5、Claude Opus4等,位居全球前三,Qwen3-Max 能在几秒内完成成熟程序员大半天才能实现的编程任务,展现出卓越的指令理解和...发现资讯1个月前01610
Ming-UniAudio – 蚂蚁集团开源的音频多模态模型,支持语音理解和生成任务随着大语言模型(LLM)的快速发展,语音语言模型在语音理解、生成和编辑等方面取得了显著进展。Ming-UniAudio 是蚂蚁集团开源的一个创新语音处理项目,这是一个基于统一连续分词器的语音大模型,能...发现资讯3周前01580
Lynx : 字节跳动推出的高保真个性化视频生成模型,仅需一张人物照片Lynx是字节跳动推出的高保真个性化视频生成模型,仅需输入一张人像照片,即可生成身份高度一致的动态视频。该模型通过单张人物图像即可生成身份一致、动作自然、场景多样的动态视频,在身份保真度、动作连贯性...发现资讯3周前01560
Rocket.new – AI编程平台,快速构建和部署全功能的 Web 和移动应用Rocket.new致力于通过自然语言指令直接生成可投入实际使用的生产级应用。这一战略定位使其在AI驱动开发的激烈赛道中脱颖而出,展现出独特的竞争力。Rocket.new首次生成应用平均耗时约25分钟...发现资讯4周前01550
Mixboard – 谷歌推出的AI画板工具,快速将想法可视化谷歌推出实验性 AI 工具 Mixboard,该工具由Banana提供支持,号称能把任何想法都即时可视化。主打“开放画布”与生成式 AI 创意,可从文本提示或预制板开始,生成包括家居装饰、产品设计等多...发现资讯1个月前01520
NeuTTS Air – Neuphonic开源的语音合成模型,提升语音合成的自然度和准确性NeuTTS Air是由Neuphonic开发的一款超拟真、可离线运行的文本到语音(TTS)模型,支持多种操作系统和设备平台,包括移动设备、个人电脑、树莓派等,易于集成到各种应用中。NeuTTS Ai...发现资讯2周前01510
FLM-Audio – 智源研究院开源的全双工音频对话模型,支持本地部署与二次开发flm-audio 是由北京智源人工智能研究院联合 spin matrix 与新加坡南洋理工大学共同推出的原生全双工音频对话大模型,支持中文和英文双语交互。该模型采用创新的原生全双工架构,能够在每一个...发现资讯4周前01500
Meta Ray-Ban Display – Meta推出的首款带显示屏的AI眼镜,为用户提供便捷的智能交互体验Meta Ray-Ban Display是Meta首款搭载高解析度显示屏的消费级设备,其主要设计特点是在右镜片内嵌半透明抬头显示屏(HUD),亮度达5000尼特,可在户外强光环境下清晰显示信息,且从外...发现资讯1个月前01500
Imagine v0.9 – xAI推出的视频生成模型,通过语音指令能快速创建内容imagine v0.9 是由 xai 团队开发的全新一代视频生成模型。该模型能够在20秒内快速生成约6秒的高质量视频,具备精准的运动控制、动态镜头变换以及自然语音对话合成等先进功能。支持语音交互、动...发现资讯2周前01480
SceneGen – 上海交大推出的3D场景生成框架,单图到3D场景一步生成上海交通大学的研究团队推出了一种名为 SceneGen 的新颖框架,在这一领域取得了突破性进展。它以一张场景图像和图中物体的分割掩码作为输入,能够在一次前向传播中,同时生成场景内多个3D资产的几何、纹...发现资讯2周前01480