深度学习Deep learning小白入门笔记—

书接上回

深度学习Deep learning小白入门笔记——在AI平台上训练LLM——PanGu

对训练模型重新认知与评估。

模型评估

在训练过程中或训练完成后，通常使用验证集或测试集来评估模型的性能，其中一些关键的评估指标就包括精度、召回率和F1分数。以下是一般步骤的描述：

预测：使用模型对验证集或测试集进行预测。这将给出模型对每个样本的预测标签。
计算评估指标：基于模型的预测结果和真实标签，计算精度、召回率和F1分数。具体的公式如下：

精度（Precision）：精度是正确预测的阳性样本（TP）与所有预测为阳性的样本（即TP+FP）的比例，即( Precision = \frac{TP}{TP+FP} )。
召回率（Recall）：召回率是正确预测的阳性样本（TP）与所有真实为阳性的样本（即TP+FN）的比例，即( Recall = \frac{TP}{TP+FN} )。
F1分数（F1 Score）：F1分数是精度和召回率的调和平均值，即( F1 = 2 \cdot \frac{Precision \cdot Recall}{Precision + Recall} )。

在Python中，可以使用sklearn.metrics模块中的precision_score，recall_score和f1_score函数来计算这些指标。

这里是一个简单的例子：

from sklearn.metrics import precision_score, recall_score, f1_score# Assuming y_true is the array of true labels and y_pred is the array of predicted labels
y_true = [...]
y_pred = [...]precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
f1 = f1_score(y_true, y_pred)print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")

请注意，这个例子假设你的任务是二分类任务。如果是多分类任务，你可能需要为precision_score，recall_score和f1_score函数设置average参数，例如average='micro'或average='macro'，具体取决于你的需求。

模型分析

这个 DataFrame 包含了以下几个关键字段：

Timestamp：记录了每个步骤的时间戳。
Local_rank：可能是指多设备训练的设备编号。
Epoch：记录了当前的训练周期。
Step：记录了当前的训练步骤。
Loss：记录了当前步骤的损失值。
Overflow：这可能是用于标识是否出现了梯度溢出的布尔值。
Scale：这可能是用于混合精度训练的比例因子。
Learning Rate：记录了当前步骤的学习率。

为了更好地理解这些数据，我们可以对损失和学习率进行可视化，以观察它们如何随训练步骤的进行而变化。通常，如果模型训练得当，我们期望看到损失随着时间的推移逐渐降低，学习率可能会根据选择的学习率策略进行变化。

损失随训练步骤的变化：随着训练步骤的增加，模型的损失值在波动，但总体呈下降趋势。这是预期的，因为随着模型学习，我们期望损失值会下降。
学习率随训练步骤的变化：学习率在初期阶段逐渐增加，之后保持相对稳定。这可能反映了在训练开始时使用的学习率预热策略，这是一种常见的优化策略，目的是避免在训练初期由于过大的学习率导致的不稳定。

综上所述，从这些图表中，我们可以看出模型的训练过程看起来是正常的。损失值的下降表明模型正在从训练数据中学习，学习率的变化也符合预期的优化策略。

写在最后

因为未能获得精度、召回率和F1分数所需要的数据，因此未能从这三个方向上分析模型的精度。