up博主

帅气的我简直无法用语言描述!
阶跃星辰推出的端到端语音大模型 – Step-Audio 2 mini,能精准理解各种音频内容

阶跃星辰推出的端到端语音大模型 – Step-Audio 2 mini,能精准理解各种音频内容

近日,阶跃星辰正式推出了最新的开源端到端语音大模型 ——Step-Audio2mini。采用了真正的端到端多模态架构,并将语音理解、音频推理与生成统一建模,不仅时延更低、输出更快,还能更加精准地理解副...
18小时前
0260
MobileCLIP2 – 苹果开源的端侧多模态模型,提高模型对不同模态数据的适应性

MobileCLIP2 – 苹果开源的端侧多模态模型,提高模型对不同模态数据的适应性

苹果公司的研究人员最近推出了 MobileCLIP2,该模型在GitHub和Hugging Face上进行了开源,提供了预训练权重和数据生成代码,以供开发者使用。MobileCLIP2通过改进多模态增...
18小时前
0170
MAI-Voice-1 – 微软推出的极速语音生成模型,生成高度自然和富有表现力的语音

MAI-Voice-1 – 微软推出的极速语音生成模型,生成高度自然和富有表现力的语音

微软人工智能部门正式推出其首批两款自研 AI 模型 ——MAI-Voice-1 语音模型与 MAI-1-preview 通用模型。MAI-Voice-1是一个语音模型,能够在不到一秒的时间内生成一分种...
2天前
0230
ReadyBase – AI PDF生成平台,几秒钟即可生成精美个性化文档

ReadyBase – AI PDF生成平台,几秒钟即可生成精美个性化文档

ReadyBase AI PDF生成平台是一款利用人工智能技术自动布局生成个性化文档的强大工具。它可以帮助用户快速创建专业、美观的PDF文档,无需手动调整格式或设计,大大提高了文档制作的效率和质量。 ...
2天前
0330
美团开源的– Meeseeks模型指令遵循能力评测集,为模型开发者提供优化方向

美团开源的– Meeseeks模型指令遵循能力评测集,为模型开发者提供优化方向

美团M17团队推出全新评测基准Meeseeks,专注于大模型指令遵循能力的系统化研究与精准评估。该评测基准基于真实业务数据构建,采用精细化的三级评测框架,全面衡量模型的指令遵循能力。 Meeseeks...
3天前
0370
Quick BI – 阿里旗下瓴羊推出的AI商业分析Agent,高效获取精准数据结果

Quick BI – 阿里旗下瓴羊推出的AI商业分析Agent,高效获取精准数据结果

阿里巴巴旗下的瓴羊发布首个数据分析Agent,Quick BI里的“智能小Q”升级为一名由问数、解读和报告三大核心Agent组成的“超级数据分析师”,可以帮助用户快速获取数据、解读数据和输出洞察报告...
3天前
0300
Grok Code Fast 1 – xAI推出的AI编程模型,快速生成代码

Grok Code Fast 1 – xAI推出的AI编程模型,快速生成代码

grok-code-fast-1是马斯克旗下xAI公司发布的专门用于编程的AI模型,被称为"快速且经济的推理模型"。它属于智能体类型,能够在无需大量人工监督的情况下处理编程任务,主打高速开发体验。Gr...
3天前
0630
最新推出的语音模型一GPT-realtime,支持多种语言和语音风格

最新推出的语音模型一GPT-realtime,支持多种语言和语音风格

GPT-realtime是一个专用于语音AI Agent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,而且这个模型是...
3天前
0470
FramePackLoop – AI视频生成工具,无限生成符合特定要求的循环视频

FramePackLoop – AI视频生成工具,无限生成符合特定要求的循环视频

FramePackLoop是一个基于 FramePack 的开源工具,旨在简化视频制作工作流程。专门用于生成无缝循环视频。该工具利用模块化架构实现帧序列打包、时间对齐和无缝循环合成。具体而言,它将光流...
5天前
0360
PaperScope – AI论文解读平台,用户能与论文内容的直接对话

PaperScope – AI论文解读平台,用户能与论文内容的直接对话

PaperScope是一款 AI 驱动的学术论文探索与解读平台,支持按标签、时间、热度智能筛选。内置 Intern‑S1、GLM4.5、Intern‑S1‑Image 等多模型协作,自动生成论文摘要...
5天前
0390