Arena (nguồn gốc từ LMArena) là một nền tảng đánh giá chuẩn cho các mô hình AI mở. Nó chủ yếu cung cấp một 'sàn đấu' để người dùng so sánh ẩn danh câu trả lời của các mô hình AI khác nhau (ví dụ GPT, Claude), và thông qua cơ chế bỏ phiếu để tạo ra bảng xếp hạng tổng hợp phản ánh hiệu suất thực tế của các mô hình.
Trong chế độ Battle Mode, khi người dùng nhập câu hỏi hoặc lệnh, hệ thống sẽ chọn ngẫu nhiên hai mô hình AI ẩn danh cùng lúc để tạo câu trả lời. Người dùng cần bỏ phiếu dựa trên chất lượng câu trả lời để chọn bên tốt hơn; kết quả bỏ phiếu sẽ ảnh hưởng đến điểm ELO của mô hình và thứ hạng bảng xếp hạng.
Theo thông tin công khai, các tính năng cốt lõi đánh giá và đối chiếu của Arena hiện đang mở miễn phí cho người dùng. Người dùng có thể trải nghiệm và thử nghiệm nhiều mô hình AI được tích hợp trên nền tảng.
Nền tảng sử dụng cơ chế đấu ẩn danh, người dùng bỏ phiếu mà không biết danh tính mô hình trước, nhằm giảm sự thiên vị thương hiệu. Đồng thời sử dụng hệ thống xếp hạng ELO để xử lý lượng lớn phiếu và mọi dữ liệu đánh giá và bảng xếp hạng được công khai có thể tra cứu.
Arena cung cấp đánh giá chuyên biệt cho nhiều lĩnh vực, bao gồm đối thoại văn bản, hiểu thị, sinh hình ảnh, sinh video, lập trình, phát triển web, tăng cường tìm kiếm và nhiều khả năng khác.
Theo tuyên bố của nền tảng, nội dung đối thoại của người dùng sẽ được xử lý bởi các mô hình AI bên thứ ba và có thể bị tiết lộ cho nhà cung cấp AI tương ứng và được chia sẻ công khai để hỗ trợ cộng đồng phát triển và nghiên cứu AI. Do đó người dùng nên tránh gửi thông tin nhạy cảm hoặc thông tin cá nhân.
Bảng xếp hạng được cập nhật liên tục dựa trên phiếu bầu của cộng đồng người dùng. Các bảng xếp hạng chuyên môn (như bảng văn bản, bảng thị giác) thường hiển thị thời gian cập nhật gần đây, ví dụ “cập nhật cách đây 1 ngày”, cho thấy dữ liệu xếp hạng có tính cập nhật cao.
Các bài kiểm tra chuẩn truyền thống thường dùng các bài thi chuẩn cố định. Arena nhấn mạnh đánh giá dựa trên nhiệm vụ người dùng thực tế và phán đoán chủ quan, thông qua số lượng lớn phiếu bỏ phiếu ẩn danh và đối chiếu của người dùng, phản ánh hiệu suất của mô hình trong các ngữ cảnh ứng dụng thực tế.

Rebo AI Hỏi đáp là nền tảng tổng hợp nhiều mô hình AI hàng đầu, hoàn toàn miễn phí; người dùng có thể dùng GPT-4, Claude 3 và các mô hình khác ngay trong một giao diện mà không cần đăng ký. Hỗ trợ các nhiệm vụ viết lách, lập trình, phân tích và nhiều tình huống công việc khác.

Arena AI cung cấp chủ yếu hai hướng giải pháp: thứ nhất là nền tảng đánh giá và định tuyến mô hình AI, thông qua bỏ phiếu cộng đồng và định tuyến thông minh giúp người dùng đánh giá và chọn mô hình AI phù hợp; thứ hai là nền tảng tương tác cộng đồng được hỗ trợ bởi AI, giúp doanh nghiệp xây dựng và quản lý cộng đồng tương tác thời gian thực trên trang web của họ để tăng sự tham gia của người dùng và chuyển đổi kinh doanh.