资讯 | 第23页

发现科技资讯

排序

发布更新浏览点赞

Qwen3-Next – 阿里通义推出的新一代混合架构大模型，实现高效自动化操作

Qwen3-Next是什么 Qwen3-Next是阿里通义推出的新一代混合架构大模型，具有强大的长文本处理能力和高效的推理速度。模型融合Gated DeltaNet和Gated Attention技术...

发现资讯

6个月前

08030

Wan2.2-S2V – 阿里通义开源的多模态视频生成模型，支持不同分辨率场景的视频生成需求

阿里通义万相正式开源全新多模态视频生成模型通义万相Wan2.2-S2V，用户仅需一张静态图片和一段音频，即可通过该模型生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。不仅限于口型动作，还能...

发现资讯

6个月前

08020

VibePPT – AI PPT制作工具，能快速生成具有专业设计感的演示文稿

VibePPT是一款AI驱动的在线智能PPT生成平台，支持通过自然语言 Prompt 一键生成结构完整、视觉专业的演示文稿，内置多种商务、教育、科技、营销等主题模板，自动匹配配色与排版，并可智能配图...

发现资讯

6个月前

06650

WhisperLiveKit – 开源AI语音识别工具，支持多种语言，能将语音实时转录为文字

WhisperLiveKit是一款本地部署的AI会议工具，能够实现语音实时转录并识别不同说话人，解决了传统语音转写工具的非实时性、隐私风险和说话人混淆问题。支持实时语音转文字和说话人识别功能，适用于会...

发现资讯

6个月前

05440

SpatialLM 1.5 – 群核科技发布空间大语言模型，助力解决机器人训练数据难题。

SpatialLM 1.5是一款基于大语言模型训练的空间语言模型，支持用户通过对话交互系统SpatialLM-Chat进行可交互场景的端到端生成。可根据文字描述、参考图像和3D空间布局，生成具有时空一...

发现资讯

6个月前

06530

Jetson Thor – 英伟达推出的机器人AI计算平台，兼容多种生成式AI框架，能构建丰富生态系统。

英伟达正式发布机器人专用计算平台Jetson Thor，其AI算力达到前代产品的7.5倍（即提升6.5倍），能效提高3.5倍。开发者套件售价3499美元，量产模组批量采购价低至2999美元。Jets...

发现资讯

6个月前

06640

SpatialGen – 群核科技开源的3D场景生成模型，生成具有时空一致性的多视角图像

SpatialGen是一款基于扩散模型架构的多视角图像生成模型，可根据文字、参考图和3D空间布局，生成具有时空一致性的多视角图像。SpatialGen 可根据文字描述、参考图像和3D空间布局，生成具有...

发现资讯

6个月前

08330

Wav2Lip – 开源的高保真唇形同步工具，自动生成与语音同步的口型动画

Wav2Lip 是一个口型同步技术开源项目，可以在任意语音对任意说话的脸部视频进行口型同步。旨在提升视频中唇部同步的保真度。此项目通过 Wav2Lip 实现精确的唇动匹配，再利用 Real-ESRG...

发现资讯

6个月前

08150

Hunyuan-MT-7B – 腾讯开源的轻量级翻译模型，能快速准确地完成翻译任务

Hunyuan-MT-7B是什么 Hunyuan-MT-7B 是腾讯混元发布的轻量级翻译模型，参数量为70亿，支持33个语种及5种民汉语言/方言的互译，包括粤语、维吾尔语、藏语等。模型采用完整的训练范...

发现资讯

6个月前

05190

EchoMimicV3 – 蚂蚁集团推出的多模态数字人视频生成框架，实现高效的模型训练和快速的动画生成。

EchoMimicV3 是由蚂蚁集团研发的一款高效、多模态、多任务的数字人视频生成框架。该模型拥有 13 亿参数，采用任务混合与模态混合的创新范式，结合独特的训练与推理策略，能够在多种输入条件下实现快...

发现资讯

6个月前

05450

加载更多