近日,人工智能初创公司Yupp宣布推出一项创新性的”人工评测系统”。该平台邀请全球用户对包括ChatGPT、Claude、Gemini、DeepSeek、Grok、Llama等在内的500多款主流大语言模型进行专业评测和打分。
Yupp由知名社交平台X的前高管Pankaj Gupta和Gilad Mishne联合创立,旨在为用户提供一个便捷的一站式AI模型评测平台。通过用户的实时反馈数据,Yupp将构建一套名为”Yupp AI VIBE”(Vibe Intelligence Benchmark)的权威排行榜,直观呈现各款AI模型的真实性能。
据了解,该平台采用创新的积分激励机制:新用户默认获得5000积分。当用户在平台上提出问题时,系统会智能选择两个相关模型进行回答,并通过对比展示优劣,供用户评判哪款模型的回答更优。完成反馈后,用户将获得相应积分奖励,这些积分可直接用于继续调用其他AI模型。
此外,平台还提供高级自定义评测功能:用户可以选择任意组合的模型进行对比。每个问题最多支持6个模型同时参与回答。但需要特别注意的是,如果用户多次提问却未及时完成反馈评判,系统将逐步限制其使用权限。
这一创新评测系统的推出,在AI领域具有重要意义。它不仅为用户提供了一个客观公正的模型比较平台,还通过大规模的真实用户反馈数据,帮助AI公司更精准地识别产品优势与改进方向。Yupp的这种”用户驱动评测+积分激励”模式,开创了AI模型评估的新思路。
© 版权声明
文章版权归作者所有,未经允许请勿转载。