AI工具
Baichuan-Audio – 百川智能开源的端到端语音交互模型
Baichuan-Audio是什么 Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Ba...
FLORA – AI画布工具,一键生成故事分镜和角色设计
FLORA是什么 FLORA是AI创意工具平台,专为设计师、创意工作者和内容创作者打造。通过节点式AI画布,将文本、图像和视频生成等多种功能集成在一个无限画布上,...
Fathom – AI会议记录工具,实时生成精准转录和智能总结
Fathom是什么 Fathom是AI会议记录工具,专为提升会议效率设计。Fathom支持自动录制会议,实时生成精准的转录和智能总结,帮助用户在会议中无需手动记录笔记。...
HippoRAG 2 – 俄亥俄州立大学推出的检索增强生成框架
HippoRAG 2是什么 HippoRAG 2是俄亥俄州立大学推出的检索增强生成(RAG)框架,解决现有RAG系统在模拟人类长期记忆动态性和关联性方面的局限性。HippoRAG 2基...
VidSketch – 浙江大学推出的视频动画生成框架
VidSketch是什么 VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示生成高质量的视频动画。Vid...
AIMv2 – 苹果开源的多模态自回归预训练视觉模型
AIMv2是什么 AIMv2是苹果公司开源的多模态自回归预训练视觉模型,通过图像和文本的深度融合提升视觉模型的性能。采用创新的预训练框架,将图像划分为非重叠的...
Phi-4-Mini – 微软推出专注于文本任务的小型语言模型
Phi-4-Mini是什么 Phi-4-Mini 是微软 Phi-4 系列中最新推出的专注于文本任务的小型语言模型,参数量为 38 亿。基于密集的解码器-only Transformer 架构,结合...
All Voice Lab – AI语音创作平台,提供一站式智能语音解决方案
All Voice Lab是什么 All Voice Lab(趣丸千音)是全球领先的AI语音创作平台,提供一站式智能语音解决方案,基于趣丸科技与香港中文大学(深圳)联合研发的Ma...
Scribe – ElevenLabs 推出的高精度语音转文本模型
Scribe是什么 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和...
IndexTTS – B 站推出的文本转语音模型,支持拼音纠正汉字发音
IndexTTS是什么 IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为...