模型评估指标

分类任务的评估指标

指标名称	别名	计算公式	解释说明	适用场景
准确率（Accuracy）	正确率	`(TP + TN)/(TP + TN + FP + FN)`	总体预测正确的比例	各类别样本均衡时使用（在类别不平衡数据中可能产生误导）
精确率（Precision）	查准率	`TP /(TP + FP)`	预测为正例中实际为正的比例	关注减少假正例（如垃圾邮件检测）
召回率（Recall）	查全率敏感度	`TP /(TP + FN)`	实际为正例中被正确预测的比例	关注减少假负例（如疾病诊断）
F1分数（F1 Score）	F值	`2 ×(Precision × Recall)/(Precision + Recall)`	精确率和召回率的调和平均数	综合衡量模型性能，在类别不平衡时更可靠

其中:

（现在多分类基本不用这部分，多用 MAP 进行评估）

平均策略	精确率公式	召回率公式	F1分数公式	适用场景
宏平均 (Macro-average)	$(P_1 + P_2 + \dots + P_n) / n$	$(R_1 + R_2 + \dots + R_n) / n$	$(F_{11} + F_{12} + \dots + F_{1n}) / n$	各类别权重相同
加权平均 (Weighted-average)	$\sum (P_i \times w_i)$，$w_i = $ 类别 i 样本数/总样本数	$\sum (R_i \times w_i)$	$\sum (F_{1i} \times w_i)$	考虑类别不平衡
微平均 (Micro-average)	$\sum TP / (\sum TP + \sum FFP)$	$\sum TP / (\sum TP + \sum FNP)$	$2 \times (\text{Micro-P} \times \text{Micro-R}) / (\text{Micro-P} + \text{Micro-R})$	整体性能评估

预测\实际	类别1	类别2	…	类别N	行统计
类别1	TP₁	FP₁→₂	…	FP₁→ₙ	预测为1的总数
类别2	FP₂→₁	TP₂	…	FP₂→ₙ	预测为2的总数
…	…	…	…	…	…
类别N	FPₙ→₁	FPₙ→₂	…	TPₙ	预测为N的总数
列统计	实际1的总数	实际2的总数	…	实际N的总数	总样本数

关键分析点:

假设 3 分类问题的混淆矩阵：

预测\实际	类别A	类别B	类别C
类别A	80	5	2
类别B	3	70	10
类别C	1	8	65

各类别指标计算：

整体指标计算：

		预测质量（精确率）
		↑
		│ 			高召回率
		│ 			(低阈值)
高精确率	│        ↗
(高阈值)	│      ↗
		│    ↗  理想平衡点
		│  ↗
		│↗_____________→ 预测覆盖范围（召回率）
		低阈值 		  高阈值

解读: