
文本分类
|
113
precision recall f1-score support
Negative review 0.87 0.97 0.92 533
Positive review 0.96 0.86 0.91 533
accuracy 0.91 1066
macro avg 0.92 0.91 0.91 1066
weighted avg 0.92 0.91 0.91 1066
0.91
的
F1
分数让我们得以看到
GPT-3.5
模型性能的冰山一角。就是这个模型让生成式
AI
走向了大众。然而,由于我们不知道模型是用什么数据训练的,因此无法轻易使用这类指
标来评估模型。就我们所知,它可能在我们所用的数据集上训练过!
在第
12
章中,我们将探索如何在更通用的任务上评估开源模型和专有模型。
4.7
小结
在本章中,我们讨论了执行各种分类任务的技术:从对整个模型进行微调,到完全不进行
微调。对文本数据进行分类并不像表面上看起来那么简单,且有大量创新的技术可以应用。
在本章中,我们探索了使用生成模型和表示模型进行文本分类。我们的目标是根据输入文
本分配标签或类别,用于对评论的情感进行分类。
我们探索了两种类型的表示模型:特定任务模型和嵌入模型。特定任务模型是在大型数据
集上专门针对情感分析进行预训练的,它表明预训练模型对文档分类而言是一种很好的技
术。嵌入模型用于生成通用嵌入向量,我们将其作为训练分类器的输入。
同样,我们探索了两种类型的生成模型:开源的编码器
-
解码器模型(
FLAN-T5
)和专有
的仅解码器模型( ...