Dolphin – 清华联合海天瑞声推出的语音识别大模型,支持多种语言和方言的识别
清华大学和海天瑞声联手开源了 Dolphin 语音识别模型,这款新模型, 是专门为东方语言设计的 ASR 模型,不仅支持 40 种东方语言 和 22 种汉语方言,以轻量级的设计和极高的精准度 ,支持多...
EasyControl Ghibli – 免费快速生成吉卜力风格图像的 AI 神器,能生成高质量且多样化的图像
EasyControl Ghibli,一个开源的、能将你照片瞬间变成吉卜力风格治愈画面的魔法工具。无需付费,即可轻松生成带有吉卜力风格的图像。用户只需上传照片或输入简单指令,模型便能迅速生成带有吉卜力...
斯坦福大学推出的世界生成模型统一评估基准– WorldScore ,支持多模态内容生成任务
近日,斯坦福大学视觉与学习实验室团队发布全球首个世界生成模型统一评估基准 WorldScore。涵盖了三大类评估指标,动态静态都有涉及,其数据集中包含了3000个测试样例。WorldScore将3D场...
DeepSite – 基于 DeepSeek 开源的 AI 前端开发工具,一键生成游戏/网页代码
DeepSite是基于DeepSeek-V3模型的在线开发工具,用户无需配置环境或安装软件,在网页上直接输入需求即可快速生成游戏、应用或网页的代码。通过自然语言描述自动生成游戏/网页代码并实时预览,采...
SWEET-RL – Meta 推出的多轮强化学习新框架,解决大型语言模型复杂难题
随着大语言模型的发展,科技界迎来了一项新的突破,Meta AI 公司携手加州大学伯克利分校,合作推出名为 SWEET-RL 的强化学习框架,旨在解决大型语言模型(LLM)在多轮人机协作任务中的信用分配...
OPPO联合港科大推出的多模态语言模型优化框架 –OThink-MR1,能应对各种复杂任务和新场
OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。OThink-MR1是一个基于动态强化学习的框架和模型...
Translate Image – 免费 AI 图片翻译工具,支持超过 130 种语言的翻译
TranslateImage 是一款基于人工智能的在线图片翻译工具,能够将图片中的文字翻译成超过 130 种语言,同时保留原始文本的格式和布局。 利用先进的光学字符识别(OCR)技术,准确提取图片中...
Amodal3R – 南洋理工与牛津联合研发的条件式 3D 生成模型
Amodal3R是由南洋理工大学与牛津大学联合研发的条件式3D生成模型,专门针对物体遮挡场景设计。能从部分可见的2D物体图像中推测并重建完整的3D形态和外观,在3D 物体生成和编辑上取得了令人满意的效...
Higgsfield – AI视频生成平台,提供图片快速生成好莱坞电影镜头
Higgsfield AI是一家由前Snap公司高管Alex Mashrabov创立的公司,专注于生成式视频技术的研发与应用的平台。用户只需提供一张图片和简单的文字提示,就能指导复杂的摄像机运动效果...
Ai2 PaperFinder – Ai2 推出的 AI 深度文献搜索神器,搜索必备工具
Ai2 PaperFinder搜索工具横空出世,可算是给科研人员带来了福音,它是Ai2这个非营利机构搞出来的一款超厉害的文献检索工具。Ai2PaperFinder 汇聚了超过800万篇全文论文和1.0...