Polarity 是一款面向 AI 智能体的沙盒化评估基础设施,提供隔离的 Docker 环境,并配备 Postgres 和 Redis 等真实后端服务。它根据不变性规则对智能体行为进行评分,检测非确定性行为,并在本地复现故障,确保复杂多步骤智能体的准确性。
如何使用 Polarity?
在部署前使用 Polarity 在生产级沙盒中测试 AI 智能体。定义行为不变性规则,运行评估,并获取故障的种子复现器。它能捕获诸如工具响应缓慢、幻觉 SKU 或遗漏升级等问题,帮助团队大规模调试和优化智能体决策。
Polarity 的核心功能
沙盒化评估运行时:在隔离的 Docker 沙盒中运行每个智能体任务,沙盒预加载 Postgres、Redis 和 S3 等真实服务,确保测试准确性。行为评分:根据不变性规则和禁止规则对智能体运行进行评分,通过副本测量非确定性行为,获得可靠结果。种子复现器:每个故障附带一个种子,通过一条命令在本地重建完全相同的沙盒,简化调试过程。生产级环境:使用真实后端服务而非模拟依赖,捕获提示级工具无法发现的状态性故障。自动化监控:追踪智能体和用户行为,发现性能退化,并向团队发出模型漂移或遗漏升级等问题的警报。AI 智能体群分类:部署智能体群以查找类似故障案例,分析受影响的用例,并缩小根本原因范围。Slack 集成:允许团队直接在 Slack 中调查智能体故障,提供实时响应和分析。
Polarity 的使用场景
AI 开发者:在沙盒中使用真实服务测试复杂的多步骤智能体,在生产部署前捕获状态性故障。DevOps 工程师:使用种子复现器调试智能体故障,在本地重建精确的沙盒环境以快速修复。产品经理:监控智能体决策过程,发现遗漏升级或幻觉数据等性能退化问题。QA 团队:根据不变性规则运行行为评估,确保智能体遵守规则并避免禁止操作。企业团队:在规模化部署智能体时,通过自定义沙盒确保符合 SOC 2、GDPR 和 HIPAA 合规要求。
Polarity 的价格
Starter
$0/month
适用于探索和原型开发。包含 1 GB 已处理数据、20 个并发沙盒、7 天追踪保留、无限项目和评估、标准评估套件、追踪检查、社区及邮件支持。
Pro
$149/month
适用于生产环境智能体。包含 5 GB 已处理数据、1000 个并发沙盒、30 天追踪保留、自定义评估与环境、自动化与警报、SOC 2、GDPR 及 HIPAA 合规、48 小时优先支持。
Enterprise
Custom
适用于规模化团队。提供批量折扣、无限并发沙盒、自定义保留与导出、自带云或本地部署、SSO + SCIM + 审计日志、专属解决方案工程师、99.95% 高级 SLA。
Polarity 的常见问题
最受影响的职业
AI 开发者
DevOps 工程师
产品经理
QA 工程师
数据科学家
软件工程师
机器学习工程师
首席技术官
技术负责人
企业架构师
Polarity 的标签
Polarity 的替代品