详细介绍
Arena.ai(原 LMArena)是由 UC Berkeley 研究人员创建的 社区驱动型 AI 模型评测平台,通过真实用户的投票与对比,让全球开发者、研究者与普通用户共同参与 AI 模型的公开评测与排名。平台支持 LLM、图像模型、代码模型 等多类型模型的实时对战(Battle Mode),并以透明、公正的方式构建公开排行榜。
核心功能与特色
模型对战(Battle Mode)
用户输入任意提示词,Arena 会随机匹配两个匿名模型生成回答,用户只需选择更好的一个。投票结果将用于更新公开排行榜。真实世界评测(Real‑World Evaluation)
所有对话、投票与偏好数据均来自真实用户场景,避免传统基准测试的偏差,更贴近模型在实际使用中的表现。公开透明的排行榜(Public Leaderboard)
Arena 提供全球最具影响力的 AI 模型排行榜之一,涵盖开源与闭源模型,包括许多尚未发布的前沿模型。开放研究与数据集(Open Research)
Arena 开源了全球最大规模的生成式模型人类偏好数据集(如 LMSYS-Chat-1M),并持续发布研究论文(ICML、NeurIPS、ICLR 等)。企业级评测服务(AI Evaluations)
为企业、模型实验室与开发者提供专业的模型评测服务,基于真实用户偏好与对比分析。
工作原理(How It Works)
- 输入提示词:用户输入问题或任务,选择文本、图像等对应模式。
- 模型匿名对战:系统随机选取两个模型生成回答。
- 用户投票:选择更优回答,投票将影响排行榜。
- 揭示模型身份:投票后显示模型名称,用户可继续对话或重新开始。
- 数据进入公开评测体系:用于改进模型、更新排行榜,并支持研究。
适用人群
- 想比较不同 AI 模型效果的普通用户
- 研究 AI 模型性能的学者与工程师
- 需要评估模型质量的企业与开发团队
- 关注前沿模型动态的 AI 爱好者
提示:该网站在中国可能无法正常访问。
网站预览
