微软推出的首款自研图像生成式AI模型–MAI-Image-1 ,能处理复杂的图像生成任务微软正式发布了其首款自主研发的图像生成 AI 模型 ——MAI-Image-1。这一创新模型不仅在生成逼真图像方面表现优异,还能模拟自然光照效果,为用户带来更为生动的视觉体验。该模型在保证生成质量的同...发现资讯1周前0760
DeepSeek-OCR – DeepSeek团队开源的视觉语言模型,实现7-20倍的压缩比。DeepSeek 开源了新模型 OCR 。支持对任意图像进行自由式文字识别,能够快速提取图片中的全部文本信息,不依赖版面结构。能够自动识别并重建文档中的排版结构,包括段落、标题、页眉页脚等,实现“结构...发现资讯3天前0670
Manus 1.5 – Manus最新AI Agent版本,速度提升近四倍,支持Web全栈开发Manus 今日宣布推出全新的 Manus 1.5,这是该公司迄今功能最强的 AI 智能体,在任务执行速度、可靠性与输出质量方面均实现显著提升。Manus 1.5 建立在重新架构的引擎之上,使一切变得...发现资讯3天前0670
清华联合巨人网络开源的多方言语音合成大模型框架DiaMoE-TTS巨人网络AI Lab与清华大学电子工程系SAT Lab的研究团队联合首创多方言语音合成大模型框架DiaMoE-TTS,并宣布将数据、代码、方法全方位开源,旨在推动方言语音合成的公平与普惠。该框架基于国...发现资讯5天前0650
Local-NotebookLM – 开源PDF转播客AI工具,支持多种音频输出格式Local-NotebookLM是一款开源的AI工具,能够将PDF文档转换为多种风格和格式的音频内容,如播客、访谈、辩论等。它支持自定义音频长度和风格,具备智能PDF解析、多语言支持、灵活模型选择和逼...发现资讯6天前0650
Netflix官网入口(奈飞/网飞网页版网址)Netflix(奈飞/网飞)是美国的一个影视资源平台,在Netflix平台上,用户可通过该链接注册账户、管理订阅,并在多设备上流畅观看含中文字幕的海量影视内容。我们可以观看来自于全世界的优秀电影、电视...发现资讯2天前0640
FS-DFM – 苹果联合俄亥俄州立大学推出的扩散语言模型,速度提升128倍苹果提出 FS-DFM 扩散模型,仅需 8 轮快速迭代,即可生成与传统模型上千轮迭代质量相媲美的文本,且写入速度比同类模型最多可提高 128 倍。FS-DFM 在扩散模型的基础上进行了进一步简化,目标...发现资讯7天前0640
SAIL-VL2 – 字节抖音联合国立大学开源的视觉语言模型,突破传统密集型模型的限制抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。它能高效地将视觉输入对齐到语言模型的表示空间。整个系统由三个核心部分组成:视觉编码器SAIL-ViT、视觉-语言适配器和大...发现资讯1周前0510
Veo 3.1 – 谷歌推出的AI视频生成模型,能快速生成高质量的视频谷歌正式发布最新一代AI视频生成模型 Veo 3.1,该模型支持生成4秒、6秒或8秒的720P或1080P视频片段并自带音轨,可通过文本提示、图像或视频片段输入生成内容,提供首尾帧插值、场景延展及多图...发现资讯6天前0490
Coral NPU – 谷歌推出的全栈开源AI平台,高效执行机器学习(ML)模型的推理任务谷歌正式推出 Coral NPU,一个面向边缘人工智能(Edge AI)的开源全栈平台。旨在解决性能、碎片化和隐私这三大核心挑战,而这些挑战限制了功能强大、始终在线的 AI 技术在低功耗边缘设备和可穿...发现资讯3天前0480