跳轉至

評估指標指南 (Evaluation Metrics Guide)

boring-gemini V10.25 新增的 LLM-as-a-Judge 評估系統,提供完整的統計指標來驗證評估品質。


📊 核心指標總覽

指標 測量什麼 適用場景 範圍
Cohen's κ (Kappa) 兩個評審者的一致性 AI 評分 vs 人類評審 -1 ~ 1
Spearman's ρ (Rho) 兩組排名的相關性 分數的排序是否一致 -1 ~ 1
F1 Score 分類的準確度 通過/不通過 等二分類 0 ~ 1
Position Consistency 成對比較的穩定性 A vs B 比較是否有偏見 0 ~ 1

🎯 詳細說明

1️⃣ Cohen's Kappa (一致性指標)

問題:「AI 評分跟人類專家一致嗎?」

from boring.judge.metrics import cohens_kappa

human_scores = [4, 3, 5, 2, 4]
ai_scores = [4, 3, 4, 2, 4]  # 第3個不同 (5 vs 4)

kappa = cohens_kappa(ai_scores, human_scores)
print(f"Kappa: {kappa:.2f}")  # 0.71 - 高度一致

解讀標準

κ 值 解讀
> 0.8 幾乎完美一致
0.6-0.8 高度一致
0.4-0.6 中等一致
0.2-0.4 一般一致
< 0.2 微弱一致

用途:驗證 AI 評估系統是否可以取代人類審查


2️⃣ Spearman's ρ (相關性指標)

問題:「AI 排名順序跟人類一樣嗎?」

from boring.judge.metrics import spearmans_rho

human_ranks = [1, 2, 3, 4, 5]
ai_ranks = [1, 2, 3, 4, 5]  # 排名完全一致

rho, p_value = spearmans_rho(ai_ranks, human_ranks)
print(f"Spearman ρ: {rho:.2f}")  # 1.0 - 完美相關

解讀標準

ρ 值 解讀
> 0.9 強相關
0.7-0.9 中相關
0.5-0.7 弱相關
< 0.5 無顯著相關

用途:即使分數數值不同,驗證排序是否正確

[!TIP] Spearman 適合序數資料(如 1-5 分評分),因為它只看排名順序,不受分數絕對值影響。


3️⃣ F1 Score (分類準確度)

問題:「AI 判斷通過/不通過準確嗎?」

from boring.judge.metrics import f1_score

actual = [1, 1, 0, 1]    # 1=通過, 0=不通過
predicted = [1, 0, 0, 1]  # AI 預測

f1 = f1_score(predicted, actual)
print(f"F1: {f1:.2f}")  # 0.80

公式

F1 = 2 × (Precision × Recall) / (Precision + Recall)

用途:評估二分類判斷的準確性


4️⃣ Position Consistency (位置一致性)

問題:「成對比較有沒有位置偏見?」

from boring.judge.metrics import pairwise_metrics

comparisons = [
    {"winner": "A", "position_consistent": True},
    {"winner": "B", "position_consistent": True},
    {"winner": "A", "position_consistent": False},  # 位置不一致
]

metrics = pairwise_metrics(comparisons)
print(f"Position Consistency: {metrics.position_consistency:.0%}")  # 67%

用途:檢測位置偏見(第一個選項被偏好的傾向)


📈 何時使用哪個指標?

你的評估任務 推薦指標
給程式碼打 1-5 分 Kappa + Spearman
判斷程式碼 好/壞 F1 Score
比較兩段程式碼誰更好 Position Consistency
檢查 AI 評分有沒有偏見 Bias Report

🔧 MCP 工具使用

查看評估指標

boring_evaluation_metrics

查看偏見報告

boring_bias_report

自然語言觸發

boring "show evaluation metrics"
boring "評估指標"
boring "show me the bias report"
boring "查看偏見報告"

📚 進階資源