AI工具
Sa2VA —— 由字节跳动等多个机构开放源代码的多功能大型语言模型
Sa2VA代表的是什么? Sa2VA是由字节跳动携手加州大学默塞德分校、武汉大学及北京大学共同研发的一款多模态大语言模型,它是SAM2与LLaVA的结合体,能够实现对...
Meetily —— 智能会议助理,即时生成会议概要与重点自动记录
Meetily指的是什么 Meetily 是由 Zackriya Solutions 开发的一款注重隐私保护的人工智能会议辅助工具,它能够即时记录并转录会议中的对话,并自动整理出会议...
Google DeepMind 发布的含1000亿规模视听说数据集合 WebLI-100B
WebLI-100B代表什么 Google DeepMind发布了WebLI-100B这一超大规模数据集,它包含了1,000亿个图像与文本配对样本,并专门用于视觉语言模型(VLMs)的预训练工...
流文 —— 智能AI文档创作工具,精准分析核心资料自动生成文本内容
涌墨指的是什么? 涌墨是一款智能化的文档创作平台,致力于为用户提供从开始到结束、高度自动化且高质量的文件制作方案。它通过一个综合的工作流程来管理以项...
港中文与腾讯合作开发的三维可穿戴设备生成技术BAG
BAG代表的是什么? BAG(Body-Aligned 三维可穿戴物品生成)是由香港中文大学与腾讯合作研发的一项创新技术,旨在根据多视角图像扩散模型及控制网络(ControlN...
华南理工大学研发的古代文献大型语言模型 – 通古
通古大模型指的是一个涵盖广泛知识领域的大型预训练模型。 华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)开发了通古大模型,这是一个专门处理古代文...
上海AI实验室ENEL —— 一款创新的无需编码器的三维大规模多模态模型
ENEL指的是什么? ENEL(探索无编码器架构在3D大型多模态模型中的潜力)是一款创新性的不依赖于编码器的3D大型多模态系统,旨在克服传统带有编码器结构的方法...
PIKE-RAG —— 检索加强的生成框架由微软亚洲研究院开发
PIKE-RAG指的是什么? Pike-Rag(专业化知识与理由增强生成)是微软亚洲研究院开发的一款改进型检索加强生成框架,旨在克服传统RAG系统在实际复杂工业应用中...
无人之境 – 基于AI的游戏引擎扩展,利用本地LLM技术促进交互式故事创作
NobodyWho指的是什么 NobodyWho是一款专为Godot游戏引擎设计的插件,它利用本地部署的大规模语言模型(LLM)来支持互动小说的创作过程。该插件兼容Windows、Lin...
港中文与清华等机构共同研发的可控制角色视频生成系统AnyCharV
AnyCharV指的是什么 AnyCharV是由香港中文大学、清华大学深圳国际研究生院以及香港大学共同研发的一款角色可控的视频合成系统,该系统能够将任意参考人物图像...