up导航
  • blog
  • 网站提交
  • 2fa工具
  • 全球地址生成
  • ui工具
      • 未登录
        登录后即可体验更多功能
    • ai工具
    • blog
    • 网站提交
    未登录
    登录后即可体验更多功能

    发现

    共 433 篇文章
    发现科技资讯
    排序
    发布更新浏览点赞
    SSVAE – 智谱AI开源的频谱结构化变分自编码器,提供快速生成视频的能力

    SSVAE – 智谱AI开源的频谱结构化变分自编码器,提供快速生成视频的能力

    ssvae(spectral-structured vae)是智谱ai研发的一种面向视频生成任务优化的新型变分自编码器。SSVAE 在相同生成质量下,收敛速度提升3倍,仅用1.3B参数量就超越了4B参...
    发现资讯
    2个月前
    03110
    RealVideo -智谱AI开源的实时流式视频生成系统,增强交互的自然性和沉浸感

    RealVideo -智谱AI开源的实时流式视频生成系统,增强交互的自然性和沉浸感

    RealVideo是一种流行的视频压缩和传输格式,用于在互联网上传输视频内容。核心功能覆盖文本输入交互、AI语音响应、唇形同步、WebSocket实时双向通信等。该技术能够根据网络带宽和用户设备性能的...
    发现资讯
    2个月前
    02850
    Kaleido – 智谱AI开源的多主体视频生成框架,支持多张参考图像和文本提示进行视频生成

    Kaleido – 智谱AI开源的多主体视频生成框架,支持多张参考图像和文本提示进行视频生成

    智谱开源团队联合合肥工业大学和清华大学提出了一种名为Kaleido的开源多主体参考视频生成框架,旨在解决现有开源S2V模型在多主体场景中保持一致性及背景解耦的难题。利用深度学习和计算机视觉技术,能够生...
    发现资讯
    2个月前
    02950
    DeepSearchQA – 谷歌开源的AI研究Agent测试基准,精准衡量智能体在真实研究场景中的综合能力

    DeepSearchQA – 谷歌开源的AI研究Agent测试基准,精准衡量智能体在真实研究场景中的综合能力

    谷歌开源全新网络研究智能体基准DeepSearchQA,成为AI界对抗GPT-5.2的爆款工具。涵盖17个领域的900项人工设计的因果链任务,其中每个步骤都依赖于先前的分析。首次引入过程性评估指标,通...
    发现资讯
    2个月前
    02990
    GWM-1 – Runway推出的首个通用世界模型,实时生成和模拟虚拟世界

    GWM-1 – Runway推出的首个通用世界模型,实时生成和模拟虚拟世界

    Runway推出首个通用世界模型GWM-1,采用自回归式建模方式,按帧顺序预测视频内容,具备实时响应与交互能力。其核心理念在于让AI系统在内部构建一套对现实世界运行机制的完整模拟。这就好比让计算机拥有...
    发现资讯
    2个月前
    03270
    Gemini Deep Research – 谷歌推出的深度研究Agent,能深入复杂信息环境中获取精准数据

    Gemini Deep Research – 谷歌推出的深度研究Agent,能深入复杂信息环境中获取精准数据

    谷歌推出Gemini Deep Research深度研究智能体,基于Gemini 3 Pro构建,专为长周期内容收集与综合任务优化打造,其幻觉率较此前模型降低40%,是谷歌迄今“最具事实性”的智能模型...
    发现资讯
    2个月前
    03400
    GPT-5.2 – OpenAI最新推出的通用AI模型系列,能高效处理长文档,支持端到端工作流

    GPT-5.2 – OpenAI最新推出的通用AI模型系列,能高效处理长文档,支持端到端工作流

    OpenAI正式推出其迄今最强模型GPT-5.2,专为专业工作和复杂任务设计。在通用智能、长文本处理、智能体工具调用和视觉等方面得到显著提升。在制作电子表格、制作演示文稿、图像感知、编写代码以及理解长...
    发现资讯
    2个月前
    03480
    Qwen3-Omni-Flash – 阿里通义推出的全模态大模型,支持119种文本语言、19种语音识别语言和10种语音合成语言

    Qwen3-Omni-Flash – 阿里通义推出的全模态大模型,支持119种文本语言、19种语音识别语言和10种语音合成语言

    qwen3-omni-flash(qwen3-omni-flash-2025-12-01)是阿里巴巴qwen团队全新发布的全模态大语言模型。可实现文本、图像、音频和视频的无缝输入与同步输出。模型支持1...
    发现资讯
    2个月前
    03470
    GLM-TTS – 智谱开源的AI文本转语音模型,支持多种方言和特殊语音的合成

    GLM-TTS – 智谱开源的AI文本转语音模型,支持多种方言和特殊语音的合成

    智谱正式发布工业级语音合成系统 GLM-TTS,只需录音3秒,或者上传3秒-10秒的录音文件,即可快速克隆你自己的声音。在通用朗读、情感配音、教育评测、电子书、有声客服等场景中,实现自然流畅、贴近真人...
    发现资讯
    2个月前
    03930
    GLM-ASR – 智谱开源的语音识别系列模型,模型能将语音实时转换为文字

    GLM-ASR – 智谱开源的语音识别系列模型,模型能将语音实时转换为文字

    GLM-ASR是由智谱AI开发的开源语音识别模型系列,结合了自然语言处理(NLP)和语音识别(ASR)的先进技术。不仅可以实现精准的语音转文字,还可以在输入法中直接调用大模型能力,完成翻译、改写、情绪...
    发现资讯
    2个月前
    03860
    加载更多
    Copyright © 2026 up导航 浙ICP备2024076937号 
    网址
    网址文章软件书籍