准确度测试
- 下载测试脚本。
git clone https://github.com/volcengine/OpenViking.git
下载locomo10_small数据集。
cd OpenViking/benchmark/locomo/openclaw curl -L -O https://raw.githubusercontent.com/ZaynJarvis/openclaw-eval/refs/heads/main/locomo10_small.json
- 将数据集locomo10_small.json的对话记录存入记忆。
python import_to_ov.py --input ./locomo10_small.json --openviking-url --sessions 1-4 --force-ingest
import_to_ov参数说明:
- --openviking-url:OpenViking服务地址,默认http://localhost:1933。
- --sessions:指定会话范围,例如1-4或3,默认所有会话。
- --force-ingest:强制重新导入,即使已导入过。
- --clear-ingest-record:清除所有导入记录。
- 执行eval.py脚本运行QA测试,它会把OpenClaw的回答和预期答案一起记录下来。
python eval.py qa locomo10_small.json --base-url <your_base_url> --token <token> --parallel 15
qa参数说明:
- --base-url:OpenClaw Gateway的URL,默认是http://127.0.0.1:18789。
- --token:OpenClaw Gateway Token(或设置OPENCLAW_GATEWAY_TOKEN环境变量)。
- --parallel:并发数,默认10,最大40。
- 执行judge.py,调用大模型作为裁判,给长期对话的结果进行打分和统计,输入文件为result目录下QA测试生成的结果文件。
python judge.py --input ./result/qa_results.csv --parallel 20
LLM裁判评分结束后,终端将输出QA通过率及Total Tokens消耗统计信息,同时在result目录下生成对应的结果文件,便于后续查看详细测试结果。
父主题: 端到端测试指南