Skills — OpenJudge | AI Agent 技能库

Arena

auto-arena

全自动多模型竞技场评估。自动生成测试集、收集响应、生成评估标准、进行两两对比，输出胜率排名与可视化报告。支持断点续跑和 judge 模型热替换。

模型对比自动生成测试集 Pairwise 胜率排名

npx skills add agentscope-ai/OpenJudge/skills/auto-arena

Verify

bib-verify

学术参考文献真实性验证。逐条核查 BibTeX 条目，通过 CrossRef、arXiv、PubMed、DBLP 四大数据库交叉比对，检测幻觉引用，输出逐字段准确率报告。

BibTeX CrossRef arXiv 幻觉检测

npx skills add agentscope-ai/OpenJudge/skills/bib-verify

Security

claude-authenticity

验证 API 端点是否提供真正的 Claude 模型。通过 9 项加权检测（签名、Thinking、响应结构、身份一致性等）给出综合真实性评分，识别云代理和仿冒模型。

Claude 验证 9 项检测 API 安全代理识别

npx skills add agentscope-ai/OpenJudge/skills/claude-authenticity

Discovery

find-skills-combo

智能发现并推荐 Agent Skills 组合。将复杂任务拆解为子任务，为每个子任务搜索最优技能，提供「最高质量」和「最少依赖」两种组合策略，帮助你快速搭建多技能工作流。

技能发现任务分解组合推荐工作流编排

npx skills add agentscope-ai/OpenJudge/skills/find-skills-combo

Framework

openjudge

使用 OpenJudge 框架构建自定义 LLM 评估流水线。涵盖评分器选择与配置（LLM / 函数 / Agent 型）、批量评估、聚合器组合评分、评估策略（投票 / 平均）、从数据自动生成评分器，以及结果分析（胜率、统计指标）。

评估流水线 Graders GradingRunner 结果分析

npx skills add agentscope-ai/OpenJudge/skills/openjudge

Review

paper-review

多阶段学术论文智能审稿。覆盖安全检查、正确性评估、质量评分（1–6分）、批判性分析和参考文献核查五大环节。支持 PDF、TeX 源码包及 10+ 学科领域，可输出中英文审稿报告。

论文审稿 PDF / TeX 多模态 10+ 学科

npx skills add agentscope-ai/OpenJudge/skills/paper-review

Benchmark

ref-hallucination-arena

基准测试 LLM 学术引用推荐能力。通过 CrossRef、PubMed、arXiv、DBLP 验证每条引用，度量幻觉率、逐字段准确率和学科分布。支持 ReAct + 网络搜索的工具增强模式。

引用幻觉 Benchmark ReAct 多模型对比

npx skills add agentscope-ai/OpenJudge/skills/ref-hallucination-arena

OpenJudge Skills 技能库