如何用Python和BERT做中文文本二元分类?| 程序员硬核评测
「2019 Python开发者日」全日程揭晓,请扫码咨询 ↑↑↑
作者 | 王树义
来源 | 王树芝兰(ID:nkwangshuyi)
兴奋
去年, Google 的 BERT 模型一发布出来,我就很兴奋。
因为我当时正在用 fast.ai 的 ULMfit 做自然语言分类任务(还专门写了《如何用 Python 和深度迁移学习做文本分类?》一文分享给你)。ULMfit 和 BERT 都属于预训练语言模型(Pre-trained Language Modeling),具有很多的相似性。
所谓语言模型,就是利用深度神经网络结构,在海量语言文本上训练,以抓住一种语言的通用特征。
上述工作,往往只有大机构才能完成。因为花费实在太大了。
这花费包括但不限于:
存数据
买(甚至开发)运算设备
训练模型(以天甚至月计)
聘用专业人员
……
预训练就是指他们训练好之后,把这种结果开放出来。我们普通人或者小型机构,也可以借用其结果,在自己的专门领域文本数据上进行微调,以便让模型对于这个专门领域的文本有非常清晰的认识。
所谓认识,主要是指你遮挡上某些词汇,模型可以较准确地猜出来你藏住了什么。
甚至,你把两句话放在一起,模型可以判断它俩是不是紧密相连的上下文关系。
这种“认识”有用吗?
当然有。
BERT 在多项自然语言任务上测试,不少结果已经超越了人类选手。
BERT 可以辅助解决的任务,当然也包括文本分类(classification),例如情感分类等。这也是我目前研究的问题。
痛点
然而,为了能用上 BERT ,我等了很久。
Google 官方代码早已开放。就连 Pytorch 上的实现,也已经迭代了多少个轮次了。
但是我只要一打开他们提供的样例,就头晕。
单单是那代码的行数,就非常吓人。
而且,一堆的数据处理流程(Data Processor) ,都用数据集名称命名。我的数据不属于上述任何一个,那么我该用哪个?
还有莫名其妙的无数旗标(flags) ,看了也让人头疼不已。
让我们来对比一下,同样是做分类任务,Scikit-learn 里面的语法结构是什么样的。
from sklearn.datasets import load_iris
from sklearn import tree
iris = load_iris()
clf = tree.DecisionTreeClassifier()
clf = clf.fit(iris.data, iris.target)
即便是图像分类这种数据吞吐量大,需要许多步骤的任务,你用 fast.ai ,也能几行代码,就轻轻松松搞定。
!git clone https://github.com/wshuyi/demo-image-classification-fastai.git
from fastai.vision import *
path = Path("demo-image-classification-fastai/imgs/")
data = ImageDataBunch.from_folder(path, test='test', size=224)
learn = cnn_learner(data, models.resnet18, metrics=accuracy)
learn.fit_one_cycle(1)
interp = ClassificationInterpretation.from_learner(learn)
interp.plot_top_losses(9, figsize=(8, 8))
别小瞧这几行代码,不仅帮你训练好一个图像分类器,还能告诉你,那些分类误差最高的图像中,模型到底在关注哪里。
对比一下,你觉得 BERT 样例和 fast.ai 的样例区别在哪儿?
我觉得,后者是给人用的。
教程
我总以为,会有人把代码重构一下,写一个简明的教程。
毕竟,文本分类任务是个常见的机器学习应用。应用场景多,也适合新手学习。
但是,这样的教程,我就是没等来。
当然,这期间,我也看过很多人写的应用和教程。
有的就做到把一段自然语言文本,转换到 BERT 编码。戛然而止。
有的倒是认真介绍怎么在官方提供的数据集上,对 BERT 进行“稍微修改”使用。所有的修改,都在原始的 Python 脚本上完成。那些根本没用到的函数和参数,全部被保留。至于别人如何复用到自己的数据集上?人家根本没提这事儿。
我不是没想过从头啃一遍代码。想当年读研的时候,我也通读过仿真平台上 TCP 和 IP 层的全部 C 代码。我确定眼前的任务,难度更低一些。
但是我真的懒得做。我觉得自己被 Python 机器学习框架,特别是 fast.ai 和 Scikit-learn 宠坏了。
后来, Google 的开发人员把 BERT 弄到了 Tensorflow Hub 上。还专门写了个 Google Colab Notebook 样例。
看到这个消息,我高兴坏了。
我尝试过 Tensorflow Hub 上的不少其他模型。使用起来很方便。而 Google Colab 我已在《如何用 Google Colab 练 Python?》一文中介绍给你,是非常好的 Python 深度学习练习和演示环境。满以为双剑合璧,这次可以几行代码搞定自己的任务了。
且慢。
真正打开一看,还是以样例数据为中心。
普通用户需要什么?需要一个接口。
你告诉我输入的标准规范,然后告诉我结果都能有什么。即插即用,完事儿走人。
一个文本分类任务,原本不就是给你个训练集和测试集,告诉你训练几轮练多快,然后你告诉我准确率等结果吗?
你至于让我为了这么简单的一个任务,去读几百行代码,自己找该在哪里改吗?
好在,有了这个样例做基础,总比没有好。
我耐下心来,把它整理了一番。
声明一下,我并没有对原始代码进行大幅修改。
所以不讲清楚的话,就有剽窃嫌疑,也会被鄙视的。
这种整理,对于会 Python 的人来说,没有任何技术难度。
可正因为如此,我才生气。这事儿难做吗?Google 的 BERT 样例编写者怎么就不肯做?
从 Tensorflow 1.0 到 2.0,为什么变动会这么大?不就是因为 2.0 才是给人用的吗?
你不肯把界面做得清爽简单,你的竞争者(TuriCreate 和 fast.ai)会做,而且做得非常好。实在坐不住了,才肯降尊纡贵,给普通人开发一个好用的界面。
教训啊!为什么就不肯吸取呢?
我给你提供一个 Google Colab 笔记本样例,你可以轻易地替换上自己的数据集来运行。你需要去理解(包括修改)的代码,不超过10行。
我先是测试了一个英文文本分类任务,效果很好。于是写了一篇 Medium 博客,旋即被 Towards Data Science 专栏收录了。
Towards Data Science 专栏编辑给我私信,说:
Very interesting, I like this considering the default implementation is not very developer friendly for sure.
有一个读者,居然连续给这篇文章点了50个赞(Claps),我都看呆了。
看来,这种忍受已久的痛点,不止属于我一个人。
估计你的研究中,中文分类任务可能遇到得更多。所以我干脆又做了一个中文文本分类样例,并且写下这篇教程,一并分享给你。
咱们开始吧。
代码
请点击这个链接(http://t.cn/E6twZEG),查看我在 Github 上为你做好的 IPython Notebook 文件。
Notebook 顶端,有个非常明显的 "Open in Colab" 按钮。点击它,Google Colab 就会自动开启,并且载入这个 Notebook 。
我建议你点一下上图中红色圈出的 “COPY TO DRIVE” 按钮。这样就可以先把它在你自己的 Google Drive 中存好,以便使用和回顾。
这件事做好以后,你实际上只需要执行下面三个步骤:
你的数据,应该以 Pandas 数据框形式组织。如果你对 Pandas 不熟悉,可以参考我的这篇文章。
如有必要,可以调整训练参数。其实主要是训练速率(Learning Rate)和训练轮数(Epochs)。
执行 Notebook 的代码,获取结果。
当你把 Notebook 存好之后。定睛一看,或许会觉得上当了。
老师你骗人!说好了不超过10行代码的!
别急。
在下面这张图红色圈出的这句话之前,你不用修改任何内容。
请你点击这句话所在位置,然后从菜单中如下图选择 Run before
。
下面才都是紧要的环节,集中注意力。
第一步,就是把数据准备好。
!wget https://github.com/wshuyi/demo-chinese-text-binary-classification-with-bert/raw/master/dianping_train_test.pickle
with open("dianping_train_test.pickle", 'rb') as f:
train, test = pickle.load(f)
这里使用的数据,你应该并不陌生。它是餐饮点评情感标注数据,我在《如何用Python和机器学习训练中文文本情感分类模型?》和《如何用 Python 和循环神经网络做中文文本分类?》中使用过它。只不过,为了演示的方便,这次我把它输出为 pickle 格式,一起放在了演示 Github repo 里,便于你下载和使用。
其中的训练集,包含1600条数据;测试集包含400条数据。标注里面1代表正向情感,0代表负向情感。
利用下面这条语句,我们把训练集重新洗牌(shuffling),打乱顺序。以避免过拟合(overfitting)。
train = train.sample(len(train))
这时再来看看我们训练集的头部内容。
train.head()
如果你后面要替换上自己的数据集,请注意格式。训练集和测试集的列名称应该保持一致。
第二步,我们来设置参数。
myparam = {
"DATA_COLUMN": "comment",
"LABEL_COLUMN": "sentiment",
"LEARNING_RATE": 2e-5,
"NUM_TRAIN_EPOCHS":3,
"bert_model_hub":"https://tfhub.dev/google/bert_chinese_L-12_H-768_A-12/1"
}
前两行,是把文本、标记对应的列名,指示清楚。
第三行,指定训练速率。你可以阅读原始论文,来进行超参数调整尝试。或者,你干脆保持默认值不变就可以。
第四行,指定训练轮数。把所有数据跑完,算作一轮。这里使用3轮。
如果你希望学习如何使用这些参数,推荐《Python深度学习》这本教材。
最后一行,是说明你要用的 BERT 预训练模型。咱们要做中文文本分类,所以使用的是这个中文预训练模型地址。如果你希望用英文的,可以参考我的 Medium 博客文章以及对应的英文样例代码。
最后一步,我们依次执行代码就好了。
result, estimator = run_on_dfs(train, test, **myparam)
注意,执行这一句,可能需要花费一段时间。做好心理准备。这跟你的数据量和训练轮数设置有关。
在这个过程中,你可以看到,程序首先帮助你把原先的中文文本,变成了 BERT 可以理解的输入数据格式。
当你看到下图中红色圈出文字时,就意味着训练过程终于结束了。
然后你就可以把测试的结果打印出来了。
pretty_print(result)
跟咱们之前的教程(使用同一数据集)对比一下。
当时自己得写那么多行代码,而且需要跑10个轮次,可结果依然没有超过 80% 。这次,虽然只训练了3个轮次,但准确率已经超过了 88% 。
在这样小规模数据集上,达到这样的准确度,不容易。
BERT 性能之强悍,可见一斑。
小结
讲到这里,你已经学会了如何用 BERT 来做中文文本二元分类任务了。希望你会跟我一样开心。
如果你是个资深 Python 爱好者,请帮我个忙。
还记得这条线之前的代码吗?
能否帮我把它们打个包?这样咱们的演示代码就可以更加短小精悍和清晰易用了。
欢迎在咱们的 Github 项目上提交你的代码。如果你觉得这篇教程对你有帮助,欢迎给这个 Github 项目加颗星。谢谢!
祝深度学习愉快!
(本文为 AI大本营转载文章,转载请联系原作者)
◆
精彩推荐
◆
「2019 Python开发者日」演讲议题全揭晓!这一次我们依然“只讲技术,拒绝空谈”10余位一线Python技术专家共同打造一场硬核技术大会。更有深度培训实操环节,为开发者们带来更多深度实战机会。更多详细信息请咨询13581782348(微信同号)。
推荐阅读:
南大和中大“合体”拯救手残党:基于GAN的PI-REC重构网络,“老婆”画作有救了
技术头条
如何在面试中展示你对Python的coding能力?
10位技术大咖,想和你聊聊Python!
一个月修复20个漏洞获23675美元赏金, 原来是黑客队伍里出了无间道
救救中国 996 程序员!GitHub 近 230,000 Star、Python 之父伸张正义!
“入职 6 年,新人工资高我 2 千”:老板不加钱,不是嫌你老
微服务进阶避坑指南 | 技术头条
刺激!我31岁敲代码10年,明天退休!
❤点击“阅读原文”,了解「2019 Python开发者日」
如何用Python和BERT做中文文本二元分类?| 程序员硬核评测相关推荐
- 使用BERT做中文文本相似度计算与文本分类
转载请注明出处,原文地址: https://terrifyzhao.github.io/2018/11/29/使用BERT做中文文本相似度计算.html 简介 最近Google推出了NLP大杀器BER ...
- python父亲节礼物_父亲节程序员硬核示爱:你能看懂几条
摘要:祝所有的父亲,节日快乐! 父亲节要送什么? 对老爸的爱在心口难开怎么办? 都说父爱如山,山也需要偶尔的温情问候,与其在网上遍寻各种攻略,不如敲起手中的键盘,码出几行代码,用你最熟悉的方式表达对父 ...
- python编写抢座位软件_程序员硬核Python抢票教程”,帮你抢回家车票
盼望着,盼望着,春节的脚步近了,然而,每年到这个时候,最难的,莫过于一张回家的火车票. 据悉,今年春运期间,全国铁路发送旅客人次同比将增长8.0%,达到4.4亿人次,2020年铁路春运自1月10日开始 ...
- 秀动app抢票脚本_程序员硬核quot;Python抢票教程”,帮你抢回家车票
盼望着,盼望着,春节的脚步近了,然而,每年到这个时候,最难的,莫过于一张回家的火车票. 据悉,今年春运期间,全国铁路发送旅客人次同比将增长8.0%,达到4.4亿人次,2020年铁路春运自1月10日开始 ...
- 基于BERT做中文文本分类(情感分析)
Bert: BERT是一种预训练语言表示的方法,这意味着我们在大型文本语料库(例如Wikipedia)上训练通用的"语言理解"模型,然后将该模型用于我们关心的下游NLP任务,BER ...
- 使用python和sklearn的中文文本多分类实战开发
文本分类一般可以分为二分类.多分类.多标签分类三种情况,二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类.电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某 ...
- 程序员硬核“Python抢票教程”,帮你抢回家车票(附源码)
前言 想信大家逢年过节都遇到过有钱买不到车票的烦恼,,今年你不妨自己写一段代码来抢回家的火车票,是不是很Cool.下面话不多说了,来一起看看详细的介绍吧. 先准备好: 12306网站用户名和密码 ch ...
- 如何用 Python 和循环神经网络(RNN)做中文文本分类?
本文为你展示,如何使用 fasttext 词嵌入预训练模型和循环神经网络(RNN), 在 Keras 深度学习框架上对中文评论信息进行情感分类. 疑问 回顾一下,之前咱们讲了很多关于中文文本分类的内容 ...
- Bert中文文本多分类与传统BOW+tfidf+LR中文文本多分类对比
最近在重温bert,对bert的中文文本多分类的效果很好奇,并将其与传统的非pre-train模型进行对比,除此之外,由于选用的是12层的base版的bert,还从第0层开始到12层,对每一层的输出进 ...
最新文章
- 记录git常用操作命令
- wavelet tutorial
- 管理系统中计算机应用第四章重点,管理系统中计算机应用课堂笔记第四章(4)...
- Java中的Set操作
- 从DataTable高效率导出数据到Excel
- Configure a VLAN on top of a team with NetworkManager (nmcli) in RHEL7
- Count on a tree SPOJ - COT
- 计算机自带扫雷游戏玩不了,Win7 32位系统扫雷游戏打不开如何解决【图文教程】...
- 全纯函数导数的几何意义
- 洛谷4234最小差值生成树题解(最小生成树+LCT)
- 从818悟空榜看苏宁全场景零售的数据赋能
- golang 模拟键盘输入
- Canvas入门教学(3)图片与文字的绘制
- 某型发动机整机测试研究
- SIMATIC S7-300 Profibus通讯——(2)EM277与S7-300通讯
- ChatGPT 最好的替代品
- 文件转base64输出
- 【HDU 4773】Problem of Apollonius(圆的反演)
- Widget中的一些基本概念
- 【板栗糖GIS】arcmap如何进行拓扑检查并输出结果
热门文章
- Network | sk_buff
- Elasticsearch环境搭建
- linux查看硬链接的对应文件,linux查看硬链接对应的所有文件
- 怎么用vc采集ni卡数据_智能水表读数怎么看?家用智能水表怎么安装?
- matlab中nchoosek函数的用法
- 一篇简单易懂的原理文章,让你把JVM玩弄与手掌之中
- ibatis的there is no statement named xxx in this SqlMap
- 使用 fcntl 函数 获取,设置文件的状态标志
- HDU 1090 A+B for Input-Output Practice (II)
- Matlab与线性代数--矩阵的正交分解