APIEval-20은 실제 API 테스트에서 AI 에이전트를 평가하기 위한 작업 벤치마크입니다. 7개 도메인에 걸친 20개의 시나리오를 포함하며, 스키마와 페이로드만으로 버그 탐지 능력을 측정하고, Hugging Face에 공개 데이터셋을 제공합니다.
Free
사용 방법 APIEval-20?
APIEval-20은 AI 에이전트가 스키마와 페이로드 정보만을 사용하여 API 버그를 탐지하는 능력을 평가하기 위한 구조화된 벤치마크를 제공합니다. 개발자와 연구자는 이를 사용하여 7개 도메인의 20개 시나리오에서 AI 모델의 성능을 테스트하고, 약점을 식별하며 테스트 자동화를 개선할 수 있습니다.
APIEval-20 의 주요 기능
인증부터 데이터 검증까지 실제 API 테스트 과제를 다루는 7개 도메인의 20개 다양한 시나리오.
스키마와 페이로드만을 사용하여 버그 탐지 능력을 측정하며, 실제 테스트 환경을 시뮬레이션합니다.
Hugging Face에서 제공되는 공개 데이터셋으로 쉬운 접근과 재현 가능성 보장.
인간뿐만 아니라 AI 에이전트를 평가하도록 설계되어 AI 기반 엔지니어링 팀에 이상적입니다.