Home Skills
Arena
auto-arena
全自动多模型竞技场评估。自动生成测试集、收集响应、生成评估标准、进行两两对比,输出胜率排名与可视化报告。支持断点续跑和 judge 模型热替换。
模型对比 自动生成测试集 Pairwise 胜率排名
npx skills add agentscope-ai/OpenJudge/skills/auto-arena
Verify
bib-verify
学术参考文献真实性验证。逐条核查 BibTeX 条目,通过 CrossRef、arXiv、PubMed、DBLP 四大数据库交叉比对,检测幻觉引用,输出逐字段准确率报告。
BibTeX CrossRef arXiv 幻觉检测
npx skills add agentscope-ai/OpenJudge/skills/bib-verify
Security
claude-authenticity
验证 API 端点是否提供真正的 Claude 模型。通过 9 项加权检测(签名、Thinking、响应结构、身份一致性等)给出综合真实性评分,识别云代理和仿冒模型。
Claude 验证 9 项检测 API 安全 代理识别
npx skills add agentscope-ai/OpenJudge/skills/claude-authenticity
Discovery
find-skills-combo
智能发现并推荐 Agent Skills 组合。将复杂任务拆解为子任务,为每个子任务搜索最优技能,提供「最高质量」和「最少依赖」两种组合策略,帮助你快速搭建多技能工作流。
技能发现 任务分解 组合推荐 工作流编排
npx skills add agentscope-ai/OpenJudge/skills/find-skills-combo
Review
paper-review
多阶段学术论文智能审稿。覆盖安全检查、正确性评估、质量评分(1–6分)、批判性分析和参考文献核查五大环节。支持 PDF、TeX 源码包及 10+ 学科领域,可输出中英文审稿报告。
论文审稿 PDF / TeX 多模态 10+ 学科
npx skills add agentscope-ai/OpenJudge/skills/paper-review
Benchmark
ref-hallucination-arena
基准测试 LLM 学术引用推荐能力。通过 CrossRef、PubMed、arXiv、DBLP 验证每条引用,度量幻觉率、逐字段准确率和学科分布。支持 ReAct + 网络搜索的工具增强模式。
引用幻觉 Benchmark ReAct 多模型对比
npx skills add agentscope-ai/OpenJudge/skills/ref-hallucination-arena
已复制到剪贴板