AI 모델 평가

23 도구

Arena

Arena(이전 LMArena)는 커뮤니티가 주도하는 AI 모델 벤치마크 테스트 및 비교 플랫폼입니다. 익명 대전, 사용자 투표, ELO 점수 체계를 통해 GPT, Claude, Gemini 등 최첨단 AI 모델의 텍스트, 이미지, 코드 등 다양한 작업에서의 실제 성능을 평가하고 비교하는 데 도움을 줍니다.

Outlier AI

Outlier AI는 전 세계 전문가와 AI 회사를 연결하는 원격 근무 플랫폼으로, 데이터 라벨링, 모델 평가 등의 작업을 통해 AI 모델을 학습시키고 전문 지식을 활용해 유연한 수입을 얻을 수 있도록 합니다.

ChatHub AI

ChatHub AI는 주요 대형 언어 모델을 한 플랫폼에서 모아 보여주는 서비스로, 사용자가 같은 화면에서 다양한 모델의 답변을 나란히 비교할 수 있도록 지원합니다. 이를 통해 의사 결정의 속도를 높이고 정보를 검증하며 단일 모델의 환각 위험을 줄이는 것을 목표로 합니다.

Arena AI

Arena AI는 두 가지 핵심 솔루션을 제공합니다. 하나는 커뮤니티 투표와 스마트 라우팅을 통해 사용자가 적합한 AI 모델을 평가하고 선택할 수 있도록 돕는 AI 모델 평가·라우팅 플랫폼이고, 다른 하나는 기업이 자사 웹사이트에 실시간 상호작용 커뮤니티를 구축·관리해 사용자 참여와 비즈니스 전환을 높일 수 있는 AI 기반 커뮤니티 플랫폼입니다.

Arize AI

Arize AI는 대형 언어 모델(LLM)과 에이전트의 전체 라이프사이클 관측성 및 평가 플랫폼으로, AI 엔지니어링 팀이 모델 성능을 모니터링·평가·최적화하여 애플리케이션 신뢰성과 비즈니스 성과를 확보할 수 있도록 돕습니다.

Evidently AI

Evidently AI 는 머신러닝과 대형 언어 모델의 평가, 테스트 및 모니터링에 초점을 맞춘 오픈 소스 플랫폼으로, 데이터 사이언티스트와 엔지니어가 생산 환경에서의 AI 시스템 품질과 신뢰성을 확보하는 데 도움을 줍니다.

Confident AI

Confident AI는 대형 언어 모델의 평가와 관측성에 집중하는 플랫폼으로, 엔지니어와 제품 팀이 AI 애플리케이션의 성능과 안정성을 체계적으로 테스트·모니터링·최적화하는 데 도움을 줍니다.

Ragas

Ragas는 검색 강화 생성(RAG) 시스템의 성능을 자동화 평가하고 모니터링하며 향상시키는 오픈 소스 프레임워크로, 개발자가 재현 가능하고 확장 가능한 체계적 평가를 구현하도록 돕습니다.

Nexa AI

Nexa AI는 엣지 디바이스에서의 AI 모델 배포와 최적화에 집중하는 플랫폼으로, 로컬 기기에 최적화된 모델 라이브러리와 개발 도구를 제공합니다. 핵심 가치는 개발자와 기업이 기기 단에서 AI 모델을 효율적으로 실행하고, 오프라인 사용을 지원하며 데이터 프라이버시를 중시한다는 점입니다.

Future AGI

Future AGI는 기업용 LLM 관측성 및 평가 최적화 플랫폼으로, 개발자와 기업이 AI 애플리케이션(특히 에이전트)의 정확성, 신뢰성 및 성능을 향상시키는 데 주력합니다. 이 플랫폼은 구축, 평가, 최적화 및 관측 기능을 한데 모아 자동화 도구로 고정밀 AI 애플리케이션의 개발 및 배포 주기를 가속하는 것을 목표로 합니다.

투광AI

투광AI(Transluce)는 AI 시스템의 해석 가능성과 안전성을 향상시키는 오픈 소스 연구 도구 모음으로, 연구자와 개발자가 AI 모델의 내부 동작을 이해하고 디버그하며 모니터링할 수 있도록 돕고 책임 있는 AI 개발을 촉진합니다.

Humanloop

Humanloop는 기업용 AI 개발 플랫폼으로, 대형 언어 모델(LLM) 기반 애플리케이션의 구축·평가·최적화·배포를 위한 전 과정을 지원합니다. 프롬프트 엔지니어링, 모델 평가, 가시성(모니터링) 기능을 통합해 개발팀이 AI 애플리케이션의 신뢰성과 성능을 높이고, 교차 기능 협업과 안전한 배포를 지원합니다.

phospho AI

phospho AI는 대형 언어 모델(LLM) 애플리케이션을 위해 설계된 오픈 소스 텍스트 분석 플랫폼입니다. 사용자와 AI 애플리케이션 간의 텍스트 상호작용을 자동으로 분석하고 주요 이벤트와 사용자 의도를 추출하며, 데이터 시각화 도구를 제공하여 개발자가 대화 경험과 모델 성능을 최적화하는 데 도움을 줍니다.

Alle-AI

Alle-AI는 주요 AI 모델을 한곳에서 모아 제공하는 원스톱 플랫폼으로, 다양한 공급사의 생성형 AI 도구를 병렬로 호출하고 비교·통합할 수 있게 해 창작 효율성과 결과의 신뢰성을 높여 줍니다.

Enigma AI

Enigma AI는 다양한 AI 응용 및 연구를 포괄하는 총칭으로, 의사결정 생성 시스템, 대형 언어 모델 평가 벤치마크, 뇌파 해독 모델 및 지능형 채팅 애플리케이션을 포함합니다. 이는 콘텐츠 창작, 코드 작성부터 고급 추론 평가 및 신경과학 연구에 이르는 분야별 사용자에게 다양한 AI 도구와 솔루션을 제공합니다.

Captum

Captum은 PyTorch 기반의 오픈 소스 모델 설명 가능성 라이브러리로, 개발자가 신경망 모델의 예측 로직과 특징 기여도를 이해하도록 돕습니다. 모델 디버깅, 알고리즘 연구 및 성능 최적화에 적합합니다.

Thisorthis.ai

Thisorthis.ai는 생성형 AI 모델을 비교하고 평가하는 올인원 플랫폼으로, 나란히 비교와 다각적 분석을 통해 사용자가 작업에 가장 적합한 AI 모델을 효율적으로 평가하고 선택하도록 돕습니다.

Atla AI

Atla AI는 AI 에이전트를 위해 설계된 자동화 평가 및 개선 플랫폼으로, 체계적인 분석·모니터링·최적화 도구를 통해 개발자가 에이전트의 성능, 신뢰성 및 개발 효율을 향상시킬 수 있도록 돕습니다.

OverallGPT Compare AI

OverallGPT Compare AI는 AI 대형 모델의 성능을 비교하는 플랫폼으로, 사용자가 서로 다른 AI 모델의 응답을 나란히 시각화해 비교할 수 있도록 지원합니다. 이 플랫폼은 직관적인 비교를 통해 사용자, 개발자 및 기술 선택자가 특정 요구에 맞는 AI 모델을 평가하고 선택하는 데 도움이 되도록 설계되었습니다.

Langtrace AI

Langtrace AI는 대형 언어 모델 기반 애플리케이션의 모니터링, 디버깅 및 최적화를 통해 AI 프로토타입을 신뢰할 수 있는 엔터프라이즈급 제품으로 전환하는 오픈 소스 관측성/평가 플랫폼입니다.

총 23개

이동페이지