Kaggle从零到实践：Bert中文多项选择

2024-04-26 22:53:36

机器阅读理解最大的挑战就是回答需要外部先验知识的问题，文本将使用Bert模型来完成C3（中文多项选择题）。

C3数据集一共有13369篇文章和19577个问题，其中的60%用是训练集，20%是开发集，20%是测试集。

步骤1：查看数据样例

C3数据集的案例如下，模型需要对对话和问题进行理解，最后从待选选项中识别出正确的答案。

对话：

男：你今天晚上有时间吗?我们一起去看电影吧?

女：你喜欢恐怖片和爱情片，但是我喜欢喜剧片，科幻片一般。

问题：女的最喜欢哪种电影? 可选择项：['恐怖片', '爱情片', '喜剧片', '科幻片'] 正确答案：喜剧片

步骤2：定义数据读取格式

接下来完成具体的数据读取格式转换，首先读取Bert Tokenizer。

import torchfrom transformers import BertTokenizertokenizer = BertTokenizer.from_pretrained('bert-base-chinese', num_choices=4)

然后定义具体的batch数据处理，需要将问题和待选项进行处理。

def collate_fn(data): #将文章问题选项拼在一起后，得到分词后的数字id，输出的size是(batch, n_choices, max_len)

    input_ids, attention_mask, token_type_ids = [], [], []

    for x in data:

        text = tokenizer(x[1], text_pair=x[0], padding='max_length', truncation=True, 

                         max_length=128, return_tensors='pt')

        input_ids.append(text['input_ids'].tolist())

        attention_mask.append(text['attention_mask'].tolist())

        token_type_ids.append(text['token_type_ids'].tolist())

    input_ids = torch.tensor(input_ids)

    attention_mask = torch.tensor(attention_mask)

    token_type_ids = torch.tensor(token_type_ids)

    label = torch.tensor([x[-1] for x in data])

    return input_ids, attention_mask, token_type_ids, label

最后定义Dataset，需要将多选项转为单个选择和问题的匹配过程。

import torchfrom torch.utils.data import Dataset, DataLoader, TensorDataset

class TextDataset(Dataset):    def __init__(self, data, labels):        self.data = data        self.labels = labels

    def __getitem__(self, idx):        label = self.labels[idx]        question = self.data[idx][1][0]['question']        content = '。'.join(self.data[idx][0])        choice = self.data[idx][1][0]['choice']        if len(choice) < 4: #如果选项不满四个，就补“不知道”            for i in range(4-len(choice)):                choice.append('不知道')

        content = [content for i in range(len(choice))]        pair = [question + ' ' + i for i in choice]

        return content, pair, label

    def __len__(self):        return len(self.labels)

train_dataset = TextDataset(train, train_label)test_dataset = TextDataset(val, val_label)

步骤3：定义Bert模型

这里可以直接使用BertForMultipleChoice来完成Finetune过程。

import torch

from transformers import BertForMultipleChoice, AdamW, get_linear_schedule_with_warmup

model = BertForMultipleChoice.from_pretrained('bert-base-chinese')

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model.to(device)

步骤4：模型训练与验证

当定义好数据集、模型后，接下来是万年不变的模型正向传播和反向传播代码。

from tqdm import tqdm

def train():    model.train()    total_train_loss = 0    iter_num = 0    total_iter = len(train_loader)    for idx, (input_ids, attention_mask, token_type_ids, labels) in enumerate(train_loader):        optim.zero_grad()

        input_ids = input_ids.to(device)        attention_mask = attention_mask.to(device)        labels = labels.to(device)        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)

        loss = outputs.loss

        if idx % 20 == 0:            with torch.no_grad():                print((outputs[1].argmax(1).data == labels.data).float().mean().item(), loss.item())

        total_train_loss += loss.item()        loss.backward()        torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)        optim.step()        scheduler.step()

        iter_num += 1        if(iter_num % 100 ==0):            print('epoth: %d, iter_num: %d, loss: %.4f, %.2f%%' % (epoch, iter_num, loss.item(), iter_num/total_iter*100))

    print('Epoch: %d, Average training loss: %.4f'%(epoch, total_train_loss/len(train_loader)))

def validation():    model.eval()    total_eval_accuracy = 0    total_eval_loss = 0    for (input_ids, attention_mask, token_type_ids, labels) in test_dataloader:        with torch.no_grad():            input_ids = input_ids.to(device)            attention_mask = attention_mask.to(device)            labels = labels.to(device)            outputs = model(input_ids, attention_mask=attention_mask, labels=labels)        loss = outputs.loss        logits = outputs[1]

        total_eval_loss += loss.item()        logits = logits.detach().cpu().numpy()        label_ids = labels.to('cpu').numpy()        total_eval_accuracy += (outputs[1].argmax(1).data == labels.data).float().mean().item()

    avg_val_accuracy = total_eval_accuracy / len(test_dataloader)    print('Accuracy: %.4f' % (avg_val_accuracy))    print('Average testing loss: %.4f'%(total_eval_loss/len(test_dataloader)))    print('-------------------------------')

for epoch in range(4):    print('------------Epoch: %d ----------------' % epoch)    validation()    train()

通过上述代码运行完成，可以在C3数据集上取得60%+的精度，妈妈再也不用担心我不会多项选择了！

AINLP

一个有趣有AI的自然语言处理公众号：关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试自动对联、作诗机、藏头诗生成器，调戏夸夸机器人、彩虹屁生成器，使用中英翻译，查询相似词，测试NLP相关工具包。

331篇原创内容

公众号

【NLP实战】基于ALBERT的文本相似度计算

实战是学习一门技术最好的方式,也是深入了解一门技术唯一的方式.因此,NLP专栏推出了实战专栏,让有兴趣的同学在看文章之余也可以自己动手试一试. ALBERT是一个比BERT要轻量,效果更好的模型,本篇 ...
(12条消息) 一文读懂BERT(原理篇)

一文读懂BERT(原理篇) 2018年的10月11日,Google发布的论文<Pre-training of Deep Bidirectional Transformers for Langua ...
论文解读 | Transformer 原理深入浅出

Attention 机制由 Bengio 团队于 2014 年提出,并广泛应用在深度学习的各个领域.而 Google 提出的用于生成词向量的 Bert 在 NLP 的 11 项任务中取得了效果的大幅提 ...
如何通俗易懂地让女朋友明白什么是语言模型？

深度学习自然语言处理一个热衷于深度学习与NLP前沿技术的平台,期待在知识的殿堂与你相遇~ 154篇原创内容公众号来自:NLP情报局
AAAI 2021最佳论文Runners Up！Transformer的归因探索！

本文转载自:炼丹笔记作者:一元,四品炼丹师 Self-Attention Attribution: Interpreting Information Interactions Inside Tran ...
论文解读：Bert原理深入浅出

Bert 自 Google 于 2018 年发表至今,一直给人们带来惊喜,期间也陆陆续续因为Bert出现的原因多了不少新的岗位,甚至公司 JD 上都明确表明必须懂 Bert. 它在 11 项自然语言处 ...
ICCV 2021 | 最快视觉Transformer！Facebook提出LeViT：快速推理的视...

AI/CV重磅干货,第一时间送达 CVer 一个专注侃侃计算机视觉方向的公众号.计算机视觉.图像处理.机器学习.深度学习.C/C++.Python.诗和远方等. 204篇原创内容公众号本文转载自: ...
【NLP】Kaggle从零到实践：Bert中文文本分类

Bert是非常强化的NLP模型,在文本分类的精度非常高.本文将介绍Bert中文文本分类的基础步骤,文末有代码获取方法. 步骤1:读取数据本文选取了头条新闻分类数据集来完成分类任务,此数据集是根据头条 ...
伴儿行 “2020年新时代文明实践”项目顺利结项

伴儿行青少年服务中心在威海市环翠区鲸园街道的指导下,2020新时代文明实践公益创投项目顺利结项. 3月的春风依然料峭,项目在"不负风华少年时,静待春暖花开日"云植树活动中项目正式启 ...
来自kaggle最佳数据分析实践

翻译: 大邓作者: Bex T 标题: Weekly Awesome Tricks And Best Practices From Kaggle 链接: https://towardsdev.com ...
全球著名儿童国际象棋在线学习平台: 零基础启蒙,中文字幕,父母不会也能学

今天,花生君要给大家推荐的,是一个国际知名的象棋学习平台--ChessKid! 如果花友们想让孩子学习国际象棋,或者孩子正在学习但是你无法进行指导,也发愁给找不到对手让孩子进行对战,或者想知道孩子的水 ...
NCCN丨小细胞肺癌临床实践指南2021.3版(中文)

本文目录更新要点:1.SCL-D 使用保护剂-Trilaciclib可作为一种预防选择,以减少化疗诱导的骨髓抑制发生率:2.SCL-E 2/5 帕博利珠单抗从2A类修订为3类建议. a. 如果确定是 ...
NCCN丨非小细胞肺癌临床实践指南2020.6版②（中文）

长三角肺癌协作组指南解读系列 2020NCCN肺癌系列 NCCN丨非小细胞肺癌临床实践指南2020.6版①(中文) NCCN丨非小细胞肺癌临床实践指南2020.6版②(中文) NCCN丨小细胞肺癌临床 ...
NCCN丨造血生长因子临床实践指南2020.2版（中文）

长三角肺癌协作组指南解读系列本文目录 a. NCCN 造血生长因子指南是参照成人患者制定的. b. 作为临床试验的一部分接受细胞毒化疗的患者,可根据临床指征评价是否接受骨髓生长因子 (MGF) 预防 ...
NCCN丨成人癌痛临床实践指南2020.1版②(中文)

长三角肺癌协作组指南解读系列全文目录 NCCN丨成人癌痛临床实践指南2020.1版①(中文) 4. 可待因.吗啡.氢吗啡酮.氢可酮和羟吗啡酮应慎用于因潜在的肾脏清除代谢产物蓄积而导致肾功能波动的患者 ...
NCCN丨成人癌痛临床实践指南2020.1版①(中文)

长三角肺癌协作组指南解读系列全文目录 a.Merskey H, BogdukN. Classification of Chronic Pain. Descriptions of Chronic Pa ...

Kaggle从零到实践：Bert中文多项选择

步骤1：查看数据样例

步骤2：定义数据读取格式

步骤3：定义Bert模型

步骤4：模型训练与验证

相关推荐