up博主

帅气的我简直无法用语言描述!
Game-TARS -字节跳动推出的通用型游戏智能体,提升任务完成率和交互智能

Game-TARS -字节跳动推出的通用型游戏智能体,提升任务完成率和交互智能

字节跳动Seed团队打造的通用型游戏智能体Game-TARS,打破了传统游戏AI的局限。Game-TARS的核心创新,就是彻底抛弃了这种定制化思路,让AI像人一样通过最底层的键盘和鼠标动作与游戏交互...
1周前
0540
LTX-2 – Lightricks推出的AI视频生成模型,推理效率比前代模型快2 – 3倍

LTX-2 – Lightricks推出的AI视频生成模型,推理效率比前代模型快2 – 3倍

Lightricks推出开源AI视频模型LTX-2,支持原生4K分辨率与同步音频生成。LTX-2模型采用原生4K生成技术,无需后期放大即可输出50fps高帧率视频,生成速度超越播放速度,实现"6秒视频...
1周前
0760
Popi.art – AI动画短片制作平台,提供动态帧布局与实时效果

Popi.art – AI动画短片制作平台,提供动态帧布局与实时效果

Pika Art是一个使用AI技术生成和编辑视频的平台,用户只需输入一句话描述,系统就会自动完成从分镜生成、角色场景创建、画面渲染到配音配乐的全流程,输出最长可达1000秒的连贯动漫视频。 Popi...
1周前
0700
TLDW – AI视频摘要工具,支持YouTube视频URL输入或视频文件上传。

TLDW – AI视频摘要工具,支持YouTube视频URL输入或视频文件上传。

TLDW是一款专门为优化视频观看体验而设计的AI工具,它可以分析YouTube视频并提取其中的关键时刻,让你用最短的时间获得最有价值的信息。该工具旨在帮助用户将冗长的YouTube视频转化为简洁、易于...
2周前
0730
Emu3.5 – 智源研究院推出的多模态世界大模型,速度提升了近20倍

Emu3.5 – 智源研究院推出的多模态世界大模型,速度提升了近20倍

智源研究院正式发布了“悟界 EMU3.5”多模态世界大模型,标志着人工智能从“语言学习”向“多模态世界学习”演进的新纪元。Emu3.5 在图像生成和编辑任务上取得了与Gemini 2.5 Flash ...
2周前
0990
Music 2.0 – MiniMax推出的新一代音乐创作模型,支持多种唱法与风格切换

Music 2.0 – MiniMax推出的新一代音乐创作模型,支持多种唱法与风格切换

MiniMax正式发布新一代音乐生成模型MiniMax Music 2.0。这一模型在音乐理解与声学表现能力上实现升级,能够精准捕捉人声情绪与器乐动态,为用户提供专业级音乐创作体验。在人声表现上接近真...
2周前
0480
Firefly Image 5 – Adobe推出的最新图像生成模型,支持400万像素原生输出

Firefly Image 5 – Adobe推出的最新图像生成模型,支持400万像素原生输出

Adobe上线其最新一代图像生成与编辑模型Firefly Image 5,新模型支持400万像素原生输出,提供图像分层编辑等图像功能,还新增视频和音频生成工具。其细节锐度与色彩表现大幅提升,特别是在人...
2周前
0500
Gambo – AI游戏开发Agent,支持创作者自定义游戏场景和关卡设计,增强游戏的可定制性。

Gambo – AI游戏开发Agent,支持创作者自定义游戏场景和关卡设计,增强游戏的可定制性。

Gambo,自称为“全球首个Game Vibe Coding Agent”,用户只需通过简单的文字描述,能快速生成完整的游戏,包括场景、角色、音效和交互逻辑。为用户提供了一种全新的游戏创作方式。Gam...
2周前
01150
Sonic-3 – Cartesia推出的实时语音对话模型,支持多种语言的自然语音输出

Sonic-3 – Cartesia推出的实时语音对话模型,支持多种语言的自然语音输出

Cartesia 公司推出新一代实时对话文本转语音模型 Sonic-3,该模型基于 State Space Model(SSM)架构打造,推理延迟低至 90 毫秒,端到端响应仅需 190 毫秒,是最快...
2周前
0890
FlowithOS – Flowith推出的全球首个智能体操作系统,自动执行复杂任务

FlowithOS – Flowith推出的全球首个智能体操作系统,自动执行复杂任务

flowithOS 是全球首个为 Agent 原生设计的智能体操作系统,可以根据用户们发出的任务指令,进行多网页搜索,通过“代码+视觉”的方式来理解用户屏幕画面,并进行自主地思考与执行,完成各种操作...
2周前
0940