SnapGen – 由Snap携手香港科技大学等多个机构开发的手机端文本转图像模型
SnapGen指的是什么 由Snap Inc、香港科技大学及墨尔本大学等多个机构共同研发的文本到图像(T2I)扩散模型——SnapGen,能够在移动设备上迅速创建1024×1024像素...
阿里开放源代码的语音生成大型模型——CozyVoice 2.0
CosyVoice 2.0指的是什么 CosyVoice 2.0 是由阿里巴巴通义实验室研发的升级版语音生成大模型。该版本采用了有限标量量化技术来增强码本的利用效率,并简化了...
影视智能工坊——全程AI驱动的视频制作平台,涵盖剧本编写、镜头脚本设计及后期剪辑
ShowBiz AI指的是什么 当虹科技研发的ShowBiz AI是一款专注于视频制作的专业级人工智能平台,它基于BlackEye多模态视听大模型构建而成,特别适用于视频内容创...
您思维 – 基于AI的内容管理和创意服务平台,迅速自网页、视频及播客等多种渠道汇总资讯
您所询问的YouMind是指什么? YouMind是一个由人工智能驱动的内容管理和创意生成平台,它允许用户从网页、视频及播客等不同渠道提取并保存资料,并将这些资料...
Veo 2 —— 源自谷歌 DeepMind 的人工智能视频创作工具,最高可实现 4K 清晰度
Veo 2指的是什么? Veo 2 是由 Google DeepMind 开发的一款人工智能视频创作工具,它能够依据文本或图像提示创造出高清晰度的视频内容。此模型具备制作高达4K...
双智AI – 智能浏览伴侣,即时解析网页信息、给出建议及自动生成电子邮件等服务
TwinMind指的是什么 TwinMind是一款智能AI侧边栏助手软件,通过解析用户的视觉与听觉信息来增强工作效能。它能够轻松整合到用户偏好的平台上,并具备实时转录...
Megrez-3B-Omni – 开源的全方位端侧多模态解析模型,无所不包
Megrez-3B-Omni指的是什么 无问芯穹近期发布了全球首款端侧全模态理解开源模型——Megrez-3B-Omni,该模型能够对图像、音频及文本三种数据类型进行处理。在多个...
清华开发的双臂机器人扩展基础模型 —— RDT
RDT代表的是什么? RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队开发的一款全球规模最大的双臂机器人执行任务扩散基础架构。该系统...
考研必备的AI指南 —— 由百度文库打造的智能化学习伙伴
AI考研指南是关于什么的 智能考研助手是由百度文库开发的一款专为准备研究生入学考试的学生设计的学习工具。这款名为AI考研宝典的应用整合了多项功能,包括AI...
谷歌发布的AI图像创作软件——Whisk
Whisk指的是什么 Whisk 是由谷歌开发的一款 AI 图像生成软件,允许用户上传图片并选定所需的图像主题、背景及样式,并且不需要提供冗长的文本描述。使用者可...