Agent Skills
OpenJudge Skills 技能库
可复用的 AI Agent 技能集合,一条命令安装,为你的 AI 编程助手赋能。
支持 Claude Code、Cursor、GitHub Copilot 等 16+ AI 工具。
安装任意技能:
npx skills add agentscope-ai/OpenJudge/skills/<name>
Arena
auto-arena
全自动多模型竞技场评估。自动生成测试集、收集响应、生成评估标准、进行两两对比,输出胜率排名与可视化报告。支持断点续跑和 judge 模型热替换。
npx skills add agentscope-ai/OpenJudge/skills/auto-arena
Verify
bib-verify
学术参考文献真实性验证。逐条核查 BibTeX 条目,通过 CrossRef、arXiv、PubMed、DBLP 四大数据库交叉比对,检测幻觉引用,输出逐字段准确率报告。
npx skills add agentscope-ai/OpenJudge/skills/bib-verify
Security
claude-authenticity
验证 API 端点是否提供真正的 Claude 模型。通过 9 项加权检测(签名、Thinking、响应结构、身份一致性等)给出综合真实性评分,识别云代理和仿冒模型。
npx skills add agentscope-ai/OpenJudge/skills/claude-authenticity
Discovery
find-skills-combo
智能发现并推荐 Agent Skills 组合。将复杂任务拆解为子任务,为每个子任务搜索最优技能,提供「最高质量」和「最少依赖」两种组合策略,帮助你快速搭建多技能工作流。
npx skills add agentscope-ai/OpenJudge/skills/find-skills-combo
Review
paper-review
多阶段学术论文智能审稿。覆盖安全检查、正确性评估、质量评分(1–6分)、批判性分析和参考文献核查五大环节。支持 PDF、TeX 源码包及 10+ 学科领域,可输出中英文审稿报告。
npx skills add agentscope-ai/OpenJudge/skills/paper-review
Benchmark
ref-hallucination-arena
基准测试 LLM 学术引用推荐能力。通过 CrossRef、PubMed、arXiv、DBLP 验证每条引用,度量幻觉率、逐字段准确率和学科分布。支持 ReAct + 网络搜索的工具增强模式。
npx skills add agentscope-ai/OpenJudge/skills/ref-hallucination-arena