GLM-OCR – 智谱开源的轻量级多模态OCR模型,仅 0.9B 参数智谱正式发布并开源 GLM-OCR。据介绍,该模型仅 0.9B 参数规模,支持 vLLM、SGLang 和 Ollama 部署,模型基于GLM-V架构,集成自研CogViT视觉编码器与轻量跨模态连接层...发现资讯1个月前04720
Seed3D 1.0 – 字节推出的3D生成大模型,支持单图生成高质量仿真级3D模型字节跳动Seed团队推出3D生成大模型——Seed3D 1.0,实现从单张图像到高质量仿真级3D模型的端到端生成。仅需一张任意视角的二维图像,即可生成一个包含精细几何结构、高保真纹理贴图以及基于物理渲...发现资讯5个月前04650
AI Research Foundations – 谷歌与UCL联合推出的AI研究基础课程,手把手教你如何构建和微调技巧。谷歌与伦敦大学学院(UCL)合作推出的“AI研究基础”(AI Research Foundations)课程是一套免费的、面向大学水平的学习资源,旨在通过实用的、专门构建的内容,赋予学习者进行高影响力...发现资讯4个月前04510
RealVideo -智谱AI开源的实时流式视频生成系统,增强交互的自然性和沉浸感RealVideo是一种流行的视频压缩和传输格式,用于在互联网上传输视频内容。核心功能覆盖文本输入交互、AI语音响应、唇形同步、WebSocket实时双向通信等。该技术能够根据网络带宽和用户设备性能的...发现资讯3个月前04460
TRELLIS.2 – 微软开源的40亿参数3D生成模型,支持透明度和逼真渲染微软开源了新一代AI工具TRELLIS.2,一个具备40亿参数的大型3D生成模型。专注于从单张图片高效生成高质量3D资产。该模型解决了如何生成具有复杂拓扑结构和锐利特征的3D物体,以及如何还原逼真的物...发现资讯3个月前04010