AI工具

MidJourney V7新功能:图像参考

Omni Reference是什么 Omni Reference是MidJourney最新推出的全能参考工具,支持用户将特定人物、物体或场景从参考图像中精准嵌入到生成的图像中。作为Midjou...

Text2CAD – AI辅助设计平台:文字生成CAD模型

Text2CAD:重新定义设计与制造 Text2CAD 是一款革命性的在线设计平台,它利用先进的人工智能技术,将自然语言描述转化为专业的 CAD 模型。通过简单的文本输入...

3DV-TON:阿里达摩院视频虚拟试穿框架助力在线购物体验

3DV-TON技术解析 在现代计算机视觉领域,虚拟试穿技术一直是研究热点。近期,由阿里巴巴达摩院、湖畔实验室与浙江大学共同研发的3DV-TON系统取得了重要突破。...

ACE-Step:ACE Studio与阶跃星辰联合开发的开源音乐生成基础模型

ACE-Step是什么 ACE-Step是由ACE Studio与StepFun联合开发的一款开源音乐生成基础模型。该模型采用创新的架构设计,能够高效、连贯且可控地进行音乐创作。ACE...

Meta AI推出ReasonIR-8B推理密集型检索模型

ReasonIR-8B是什么 ReasonIR-8B是Meta AI最新推出的专注于复杂推理任务的检索模型。该模型基于LLaMA3.1-8B基础架构打造,采用先进的双编码器设计,能够将查询...

开源端到端语音大模型:低延迟对话解决方案

什么是Voila? Voila是一款开源的端到端语音大模型,专为优化语音交互体验而设计。它具备高保真、低延迟的实时流式音频处理能力,可以直接接收语音输入并生成...

Kimi:月之暗面推出的多模态思考模型

kimi-thinking-preview是什么 kimi-thinking-preview是由月之暗面公司推出的一款先进的多模态思考模型,专为处理复杂推理任务而设计。该模型具备强大的深度分...

字节UniTok:统一视觉分词器

什么是UniTok UniTok是由字节跳动与香港大学、华中科技大学联合开发的一种创新性统一视觉分词器,专为同时支持视觉生成和理解任务而设计。该技术通过多码本量...

D-DiT:由耶鲁大学与字节跳动(Seed)开发的多模态扩散模型

D-DiT是什么 D-DiT(Dual Diffusion Transformer)是由卡内基梅隆大学、耶鲁大学与字节跳动Seed实验室联合推出的一款创新性多模态扩散模型。该模型在图像生成...

小红书推出NoteLLM:笔记推荐多模态大模型框架

NoteLLM是什么 NoteLLM是小红书推出的一款基于笔记推荐的多模态大型语言模型框架。该系统通过生成笔记的压缩嵌入和自动生成标签类别两大核心功能,结合了大型...
1 34 35 36 37 38 394