开发者
我要评分
获取效率
正确性
完整性
易理解
在线提单
论坛求助

准确度测试

  1. 下载测试脚本。
    git clone https://github.com/volcengine/OpenViking.git

    下载locomo10_small数据集。

    cd OpenViking/benchmark/locomo/openclaw
    curl -L -O https://raw.githubusercontent.com/ZaynJarvis/openclaw-eval/refs/heads/main/locomo10_small.json 
  2. 将数据集locomo10_small.json的对话记录存入记忆。
    python import_to_ov.py --input ./locomo10_small.json --openviking-url --sessions 1-4 --force-ingest

    import_to_ov参数说明:

    • --openviking-url:OpenViking服务地址,默认http://localhost:1933。
    • --sessions:指定会话范围,例如1-4或3,默认所有会话。
    • --force-ingest:强制重新导入,即使已导入过。
    • --clear-ingest-record:清除所有导入记录。
  3. 执行eval.py脚本运行QA测试,它会把OpenClaw的回答和预期答案一起记录下来。
    python eval.py qa locomo10_small.json --base-url <your_base_url> --token <token> --parallel 15

    qa参数说明:

    • --base-url:OpenClaw Gateway的URL,默认是http://127.0.0.1:18789。
    • --token:OpenClaw Gateway Token(或设置OPENCLAW_GATEWAY_TOKEN环境变量)。
    • --parallel:并发数,默认10,最大40。
  4. 执行judge.py,调用大模型作为裁判,给长期对话的结果进行打分和统计,输入文件为result目录下QA测试生成的结果文件。
    python judge.py --input ./result/qa_results.csv --parallel 20

    LLM裁判评分结束后,终端将输出QA通过率及Total Tokens消耗统计信息,同时在result目录下生成对应的结果文件,便于后续查看详细测试结果。