基于bert模型的文本分类研究:“Predict the Happiness”挑战
1. 前言
在2018年10月,Google发布了新的语言表示模型BERT-“Bidirectional Encoder Representations from Transformers”。根据他们的论文所言,在文本分类、实体识别、问答系统等广泛的自然语言处理任务上取得了最新的成果。
2017年12月,参加了Hackerreath的一个挑战“Predict the Happiness”。在这个挑战中,我为这个文本分类问题(Predict the Happiness)构建了一个多层全连接神经网络通过提交的测试数据,我可以得到87.8%的准确率,排名是66。
在互联网上围绕BERT进行了大量的讨论之后,我选择将BERT应用到同一个Challenge中,以证明调整BERT模型是否能将我带到这个挑战的更好排名。
2. Bert安装与预训练模型
将BERT Github项目Copy到自己的机器上:
git clone https://github.com/google-research/bert.git
- 直接下载预训练的Bert模型
Google提供了四个预训练模型:
BERT-Base, Uncased
: 12-layer, 768-hidden, 12-heads, 110M parametersBERT-Large, Uncased
: 24-layer, 1024-hidden, 16-heads, 340M parametersBERT-Base, Cased
: 12-layer, 768-hidden, 12-heads , 110M parametersBERT-Large, Cased
: 24-layer, 1024-hidden, 16-heads, 340M parameters
本文下载了BERT-Base, Cased第一个进行文本分类实验。
这里,我们需要以符合bert模型的格式准备文本数据。Google规定了数据的格式:
对于train.tsv or dev.tsv:
- 每行需要一个ID
- 每行需要一个整数值作为标签 ( 0,1,2,3 etc)
- 一列完全相同的字母
- 要分类的文本示例
对于test.tsv:
- 每行需要一个ID
- 想要测试的文本示例
下面的python代码片段将读取hackerreath训练数据(train.csv),并根据bert模型机型数据准备:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from pandas import DataFramele = LabelEncoder()df = pd.read_csv("data/train.csv")# Creating train and dev dataframes according to BERT
df_bert = pd.DataFrame({'user_id':df['User_ID'],'label':le.fit_transform(df['Is_Response']),'alpha':['a']*df.shape[0],'text':df['Description'].replace(r'\n',' ',regex=True)})df_bert_train, df_bert_dev = train_test_split(df_bert, test_size=0.01)# Creating test dataframe according to BERT
df_test = pd.read_csv("data/test.csv")
df_bert_test = pd.DataFrame({'User_ID':df_test['User_ID'],'text':df_test['Description'].replace(r'\n',' ',regex=True)})# Saving dataframes to .tsv format as required by BERT
df_bert_train.to_csv('data/train.tsv', sep='\t', index=False, header=False)
df_bert_dev.to_csv('data/dev.tsv', sep='\t', index=False, header=False)
df_bert_test.to_csv('data/test.tsv', sep='\t', index=False, header=True)
原始训练数据格式如下:
符合Bert的训练数据格式如下:
3. 使用BERT预训练模型进行模型训练
进行训练前的检查(太重要了):
- 所有的.tsv文件都在“data”的文件夹中
- 创建文件夹“bert_output”,保存经过微调的模型,并以“test_results.tsv”的名称生成测试结果
检查是否下载了“cased_l-12_h-768_a-12”中的预先训练的bert模型到当前目录
确保命令中的路径是相对路径(以“/”开头)
在终端上运行以下命令:
python run_classifier.py
--task_name=cola
--do_train=true
--do_eval=true
--do_predict=true
--data_dir=./data/
--vocab_file=./cased_L-12_H-768_A-12/vocab.txt
--bert_config_file=./cased_L-12_H-768_A-12/bert_config.json
--init_checkpoint=./cased_L-12_H-768_A-12/bert_model.ckpt
--max_seq_length=400
--train_batch_size=8
--learning_rate=2e-5
--num_train_epochs=3.0
--output_dir=./bert_output/
--do_lower_case=False
在输出目录中生成“test_results.tsv”,作为对测试数据集的预测的结果它包含所有类在列中的预测概率值。
4. 提交结果
下面的python代码将结果从BERT模型转换为.csv格式,以便提交给hackerreath Challenge:
df_results = pd.read_csv("bert_output/test_results.tsv",sep="\t",header=None)
df_results_csv = pd.DataFrame({'User_ID':df_test['User_ID'],'Is_Response':df_results.idxmax(axis=1)})# Replacing index with string as required for submission
df_results_csv['Is_Response'].replace(0, 'happy',inplace=True)
df_results_csv['Is_Response'].replace(1, 'not_happy',inplace=True)# writing into .csv
df_results_csv.to_csv('data/result.csv',sep=",",index=None)
下图显示了将概率值转换为提交结果的过程:
BERT的威力就是可以将排名从66升到第4!!!
5. 总结
- Bert的训练环节:
该模型使用两个新的无监督预测任务进行预训练:
BERT使用了一种简单的方法:MASK输入中15%的单词,通过一个深度Bidirectional Transformer encoder运行整个序列,然后只预测MASK的单词例如:
Input: the man went to the [MASK1] . he bought a [MASK2] of milk.
Labels: [MASK1] = store; [MASK2] = gallon
为了学习句子之间的关系,BERT还训练了一个可以从任何单语语料库生成的简单任务:给定两个句子a和b,预测b是a之后的实际下一个句子,还是只是语料库中的一个随机句子。
Sentence A: the man went to the store.
Sentence B: he bought a gallon of milk.
Label: IsNextSentenceSentence A: the man went to the store.
Sentence B: penguins are flightless.
Label: NotNextSentence
- 根据模型体系结构的规模,有两个预先训练的模型,即BASE和LARGE。
BERT BASE:Number of Layers =12No. of hidden nodes = 768No. of Attention heads =12Total Parameters = 110MBERT LARGE:Number of Layers =24,No. of hidden nodes = 1024No. of Attention heads =16Total Parameters = 340M
基于bert模型的文本分类研究:“Predict the Happiness”挑战相关推荐
- 基于BERT模型的文本分类研究 TensorFlow2实现(内附源码)【自然语言处理NLP-100例】
- r语言 svm 大样本_r语言基于SVM模型的文本分类研究 附数据代码
1 Perceptron 与 SVM 概念介绍 1.1 感知机 (Perceptron) 感知机( perceptron ) 1957 年由 Rosenblatt 提出,是神经网络与支持向 量机的基础 ...
- bert模型可以做文本主题识别吗_GitHub - jkszw2014/TextClassify_with_BERT: 使用BERT模型做文本分类;面向工业用途...
TextClassify_with_BERT 使用BERT模型做文本分类:面向工业用途 自己研究了当前开源的使用BERT做文本分类的许多存储库,各有各的缺点.通病就是面向学术,不考虑实际应用. 使用t ...
- 分类(二):基于向量空间模型的文本分类
2019独角兽企业重金招聘Python工程师标准>>> 利用向量空间模型进行文本分类的思路主要基于邻近假设(contiguity hypothesis). 邻近假设: 同一类的文档会 ...
- [Python人工智能] 三十三.Bert模型 (2)keras-bert库构建Bert模型实现文本分类
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章开启了新的内容--Bert,首先介绍Keras-bert库安装及基础用法,这将为后续文本分类.命名实体识别提供帮助 ...
- 基于BERT的新闻文本分类
2017年Transformer模型横空出世,encoder-decoder的创新效果显著,2018年Google又提出了BERT预训练模型,可谓是大大推动了NLP的进步,关于transformer和 ...
- 基于BERT做中文文本分类(情感分析)
Bert: BERT是一种预训练语言表示的方法,这意味着我们在大型文本语料库(例如Wikipedia)上训练通用的"语言理解"模型,然后将该模型用于我们关心的下游NLP任务,BER ...
- HuggingFace学习2:使用Bert模型训练文本分类任务
数据集如下: 为数据起个名字:bert_example.csv "a stirring , funny and finally transporting re imagining of be ...
- Bert模型进行文本分类
非常详细:https://www.cnblogs.com/jiangxinyang/p/10241243.html
最新文章
- Hadoop集群系列(目录)
- 应用安全与微软SDL-IT流程
- sprintf函数的格式化字符串_尚学堂百战程序员:Python 字符串处理
- 异或方式找到一组数组中不重复的两个数(同班同学方法)
- Python小游戏(贪吃蛇)
- 干得最多最累,工资还不如新人
- 内部服务并行调用_25行以下代码中的并行SOAP调用的Express服务
- Kafka学习之四 Kafka常用命令
- java设计模式 建造模式_理解java设计模式之建造者模式
- halcon测量两条线距离_三角测量算法:过滤可能的错误点
- 苹果Mac AI 智能图像降噪工具:Topaz DeNoise AI
- Expression Blend实例中文教程(5) - 布局控件快速入门StackPanel,ScrollViewer和Border
- PAIP.在程序中设置壁纸墙纸
- 大话西游版《我叫小沈阳》
- (绿色)修正版gooflow流程解决方案(源码分享+在线演示+UI地址下载)
- 史上最全的数字IC后端设计实现培训教程(整理版)
- freeswitch APR库
- LeetCode题解(LCP03):机器人大冒险(Python)
- gii无法访问 yii2_Gii的CURD生成无法访问?
- php函数阅读,[PHP源码阅读]strtolower和strtoupper函数