
使用
Snorkel
标记的数据集进行文本分类
| 131
#
转化为张量
train_input_ids_tensor =
torch.tensor(tokenized_train["input_ids"])
train_attention_mask_tensor =
torch.tensor(tokenized_train["attention_mask"])
train_labels_tensor = torch.tensor(y_train.to_list())
val_input_ids_tensor =
torch.tensor(tokenized_validation ["input_ids"])
val_attention_mask_tensor =
torch.tensor(tokenized_validation ["attention_mask"])
val_labels_tensor = torch.tensor(y_val.to_list())
模型训练
在开始微调
RoBERTa
模型之前,我们将为训练和验证数据创建
DataLoader
。
DataLoader
将在模型的微调过程中使用。要做到这一点,我们首先将
inputs_
ids
、
attention_mask
和
labels
转换为
TensorDataset
。接下来,我们将使
用
TensorDataset
作为输入创建
DataLoader
,并指定
batch_size
的大小。