Arena AI

AI聊天对话

Arena.ai 是一个由真实用户投票驱动的AI 模型对战与排行榜平台，通过匿名比拼评估全球最新大模型的实际表现。

详细介绍

Arena.ai（原 LMArena）是由 UC Berkeley 研究人员创建的 社区驱动型 AI 模型评测平台，通过真实用户的投票与对比，让全球开发者、研究者与普通用户共同参与 AI 模型的公开评测与排名。平台支持 LLM、图像模型、代码模型 等多类型模型的实时对战（Battle Mode），并以透明、公正的方式构建公开排行榜。

核心功能与特色

模型对战（Battle Mode）
用户输入任意提示词，Arena 会随机匹配两个匿名模型生成回答，用户只需选择更好的一个。投票结果将用于更新公开排行榜。
真实世界评测（Real‑World Evaluation）
所有对话、投票与偏好数据均来自真实用户场景，避免传统基准测试的偏差，更贴近模型在实际使用中的表现。
公开透明的排行榜（Public Leaderboard）
Arena 提供全球最具影响力的 AI 模型排行榜之一，涵盖开源与闭源模型，包括许多尚未发布的前沿模型。
开放研究与数据集（Open Research）
Arena 开源了全球最大规模的生成式模型人类偏好数据集（如 LMSYS-Chat-1M），并持续发布研究论文（ICML、NeurIPS、ICLR 等）。
企业级评测服务（AI Evaluations）
为企业、模型实验室与开发者提供专业的模型评测服务，基于真实用户偏好与对比分析。

工作原理（How It Works）

输入提示词：用户输入问题或任务，选择文本、图像等对应模式。
模型匿名对战：系统随机选取两个模型生成回答。
用户投票：选择更优回答，投票将影响排行榜。
揭示模型身份：投票后显示模型名称，用户可继续对话或重新开始。
数据进入公开评测体系：用于改进模型、更新排行榜，并支持研究。

适用人群

想比较不同 AI 模型效果的普通用户
研究 AI 模型性能的学者与工程师
需要评估模型质量的企业与开发团队
关注前沿模型动态的 AI 爱好者

提示：该网站在中国可能无法正常访问。

网站预览