up博主

帅气的我简直无法用语言描述！

文章4821 网址175 书籍25 软件0 评论0

已发布4821

Netflix官网入口（奈飞/网飞网页版网址）

Netflix（奈飞/网飞）是美国的一个影视资源平台，在Netflix平台上，用户可通过该链接注册账户、管理订阅，并在多设备上流畅观看含中文字幕的海量影视内容。我们可以观看来自于全世界的优秀电影、电视...

发现资讯

4个月前

01.1K0

DeepSeek-OCR – DeepSeek团队开源的视觉语言模型，实现7-20倍的压缩比。

DeepSeek 开源了新模型 OCR 。支持对任意图像进行自由式文字识别，能够快速提取图片中的全部文本信息，不依赖版面结构。能够自动识别并重建文档中的排版结构，包括段落、标题、页眉页脚等，实现“结构...

发现资讯

4个月前

07730

Coral NPU – 谷歌推出的全栈开源AI平台，高效执行机器学习（ML）模型的推理任务

谷歌正式推出 Coral NPU，一个面向边缘人工智能（Edge AI）的开源全栈平台。旨在解决性能、碎片化和隐私这三大核心挑战，而这些挑战限制了功能强大、始终在线的 AI 技术在低功耗边缘设备和可穿...

发现资讯

4个月前

06020

Manus 1.5 – Manus最新AI Agent版本，速度提升近四倍，支持Web全栈开发

Manus 今日宣布推出全新的 Manus 1.5，这是该公司迄今功能最强的 AI 智能体，在任务执行速度、可靠性与输出质量方面均实现显著提升。Manus 1.5 建立在重新架构的引擎之上，使一切变得...

发现资讯

4个月前

07150

RTFM – 李飞飞团队推出的实时生成式世界模型，仅需单块H100 GPU可实现交互式体验

RTFM是一款基于大规模视频数据进行端到端训练、效率极高的自回归扩散Transformer模型。仅需一块H100 GPU，RTFM模型就能实时渲染出持久且3D一致的场景，无论是真实空间还是虚拟想象场景...

发现资讯

4个月前

07210

UniPixel – 香港理工联合腾讯推出的像素级多模态大模型，实现语言与视觉的深度融合

香港理工大学和腾讯ARC Lab的研究团队推出了首个统一的像素级多模态大模型——UniPixel。一个能够无缝集成像素级感知与通用视觉推理能力的大型多模态模型。该模型首次实现了视频理解与精确物体标注的...

发现资讯

4个月前

05870

八爪鱼RPA是一款基于机器人流程自动化平台

八爪鱼RPA是一款基于机器人流程自动化（Robotic Process Automation, RPA）技术的办公流程自动化工具，旨在通过模拟人类操作，如鼠标点击、键盘输入、数据读取等，实现自动化任务...

发现资讯

4个月前

06800

清华联合巨人网络开源的多方言语音合成大模型框架DiaMoE-TTS

巨人网络AI Lab与清华大学电子工程系SAT Lab的研究团队联合首创多方言语音合成大模型框架DiaMoE-TTS，并宣布将数据、代码、方法全方位开源，旨在推动方言语音合成的公平与普惠。该框架基于国...

发现资讯

4个月前

05550

Veo 3.1 – 谷歌推出的AI视频生成模型，能快速生成高质量的视频

谷歌正式发布最新一代AI视频生成模型 Veo 3.1，该模型支持生成4秒、6秒或8秒的720P或1080P视频片段并自带音轨，可通过文本提示、图像或视频片段输入生成内容，提供首尾帧插值、场景延展及多图...

发现资讯

4个月前

05710

Local-NotebookLM – 开源PDF转播客AI工具，支持多种音频输出格式

Local-NotebookLM是一款开源的AI工具，能够将PDF文档转换为多种风格和格式的音频内容，如播客、访谈、辩论等。它支持自定义音频长度和风格，具备智能PDF解析、多语言支持、灵活模型选择和逼...

发现资讯

4个月前

06540

加载更多