23 个工具
Arena(原LMArena)是一个由社区驱动的AI模型基准测试与对比平台。它通过匿名对战、用户投票和ELO评分系统,帮助用户评估和比较GPT、Claude、Gemini等前沿AI模型在文本、图像、代码等不同任务上的实际表现。
Outlier AI 是一个连接全球专家与AI公司的远程工作平台,通过数据标注、模型评估等任务训练AI模型,让专业人士利用知识获得灵活收入。

ChatHub AI 是一款聚合多款主流大语言模型的平台,支持用户在同一界面并排对比不同模型的回答,旨在提升决策效率、验证信息并降低单一模型的幻觉风险。

Arena AI 主要提供两个方向的解决方案:一是作为AI模型评测与路由平台,通过社区投票和智能路由帮助用户评估和选择适合的AI模型;二是作为AI驱动的社区互动平台,帮助企业在其网站上构建和管理实时互动社区,以提升用户参与度与业务转化。

Arize AI 是一个面向大语言模型与智能体的全生命周期可观测性与评估平台,帮助AI工程团队监控、评估和优化模型性能,确保应用可靠性与业务效果。

Evidently AI 是一个专注于机器学习与大型语言模型评估、测试与监控的开源平台,帮助数据科学家和工程师确保AI系统在生产环境中的质量与可靠性。
Confident AI 是一个专注于大语言模型评估与可观测性的平台,帮助工程师和产品团队系统化地测试、监控和优化其AI应用的性能与可靠性。
Ragas是一个用于自动化评估、监控和提升检索增强生成(RAG)系统性能的开源框架,帮助开发者实现可重复、可扩展的系统化评估。
Nexa AI是一家专注于端侧AI模型部署与优化的平台,提供为本地设备优化的模型库与开发工具。其核心价值在于帮助开发者和企业在设备端高效运行AI模型,支持离线使用并关注数据隐私。

Future AGI 是一个面向企业的 LLM 可观测性与评估优化平台,专注于帮助开发者和企业提升 AI 应用(特别是智能体)的准确性、可靠性与性能。该平台集构建、评估、优化与观测功能于一体,旨在通过自动化工具加速高精度 AI 应用的开发与部署周期。
透光AI(Transluce)是一款专注于提升AI系统可解释性与安全性的开源研究工具,帮助研究人员和开发者理解、调试及监控AI模型内部行为,推动负责任AI的发展。
Humanloop 是一个企业级 AI 开发平台,专注于为基于大型语言模型(LLM)的应用提供构建、评估、优化与部署的全流程工具。它通过整合提示工程、模型评估和可观测性功能,帮助开发团队提升 AI 应用的可靠性与性能,并支持跨职能协作与安全部署。

phospho AI 是一个开源的文本分析平台,专为大型语言模型(LLM)应用程序设计。它能够自动分析用户与AI应用的文本交互,提取关键事件与用户意图,并提供数据可视化工具,帮助开发者优化对话体验与模型性能。
Alle-AI是一个集成多款主流AI模型的一站式聚合平台,支持用户并行调用、对比和整合不同厂商的生成式AI工具,旨在提升创作效率与结果可靠性。

Enigma AI 是一个涵盖多种人工智能应用与研究的统称,主要包括决策生成系统、大语言模型评估基准、脑电图解码模型及智能聊天应用。它为不同领域的用户提供了从内容创作、代码编写到高级推理评估和神经科学研究的多样化AI工具与解决方案。
Captum是一个基于PyTorch的开源模型可解释性库,帮助开发者理解神经网络模型的预测逻辑与特征贡献,适用于模型调试、算法研究与性能优化。

Thisorthis.ai 是一个AI模型对比平台,通过并排测试与多维度分析,帮助用户高效评估和选择最适合其任务需求的生成式AI模型。

Atla AI 是一个专为AI智能体设计的自动化评估与改进平台,通过系统化的分析、监控和优化工具,帮助开发者提升智能体的性能、可靠性与开发效率。

OverallGPT Compare AI 是一个AI大模型性能对比平台,支持用户将不同AI模型的响应结果进行并排可视化对比。该平台旨在帮助用户、开发者与技术选型者通过直观的比较,评估和选择适合其特定需求的AI模型。

Langtrace AI 是一款开源的可观测性与评估平台,帮助开发者监控、调试和优化基于大语言模型的应用,从而将AI原型转化为可靠的企业级产品。
共 23 项