达观杯文本智能处理(1)

数据说明

比赛官方对数据的说明是数据包含两个文件：train_set.csv和test_set.csv
数据很庞大，数据集和测试集都是1.28G，表示8G的内存很困难，准备再加个8G的内存条。
一.初识数据

train_set.csv:此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：

第一列是文章的索引(id)
第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)
第三列是在“词”级别上的表示, 即词语相隔正文(word_seg)
第四列是这篇文章的标注(class)。
test_set.csv:此数据用于测试。数据格式同train_set.csv，但不包含class。

注：test_set与train_test中文章id的编号是独立的。
数据读取

import pandas as pd
from sklearn.model_selection import train_test_split
#内存不足时，可采用train_data=pd.read_csv("train_set.csv",nrows=5000)来读取
train_data=pd.read_csv("train_set.csv")
test_data=pd.read_csv("test_set.csv")
train_data.head()

看一下标签值的分布情况

print(train_data['class'].describe())

查看数据中类别分布情况

from pyecharts import Bar
attr = train_data['class'].value_counts(ascending = True).index
v1 = train_data['class'].value_counts(ascending = True).values
bar = Bar("数据集按类别划分的分布图")
bar.use_theme('dark')
bar.add("类别", attr, v1,is_label_show=True,is_datazoom_show=True)
bar

print(train_data['class'].value_counts())

可以看到训练集有102277条数据，文本分类共19类，没有严重的类别不均。
类别为5的数据最少，类别为3的数据最多。
看一下训练集有没有缺失值：

train_data.isnull().any()

可以看出没有缺失值

article字段和word_seg字段的字数区间如下：

num = len(train_data['article'])
article_len_list = []
word_seg_len_list = []
for i in range(num):article_len = len(train_data['article'][i].split())article_len_list.append(article_len)word_seg_len = len(train_data['word_seg'][i].split())word_seg_len_list.append(word_seg_len)
print('article中最少的字数为：',min(article_len_list))
print('article中最多的字数为：',max(article_len_list))
print('--------------------')
print('word_seg中最少的字数为：',min(word_seg_len_list))
print('word_seg中最多的字数为：',max(word_seg_len_list))

数据拆分
可以看到其实数据集中的字和词都是脱敏后的,不需要分词,直接对训练集切分

columns=['article','word_seg']
X_train,X_test,y_train,y_test=train_test_split(train_data[columns],train_data['class'],test_size=0.3, random_state=2019)
print(X_train.shape,X_test.shape,y_train.shape,y_test.shape)

article中最少的字数为： 50
article中最多的字数为： 55804
word_seg中最少的字数为： 6
word_seg中最多的字数为： 39759

达观杯文本智能处理(1)相关推荐

第三届“达观杯”文本智能信息抽取挑战赛丰厚奖金，群英集结，等你来战！...
近日,第三届"达观杯"文本智能信息抽取挑战赛正式上线启动(点击阅读原文,跳转报名页面),6月28日至8月31日,面向所有参赛选手开放竞赛结果提交.本届"达观杯" ...
【数据竞赛】“达观杯”文本智能处理挑战赛１
一.数据竞赛简介 "达观杯"文本智能处理挑战赛 1.任务建立模型通过长文本数据正文(article),预测文本对应的类别(class) 2.数据传送门:链接: https:// ...
第三届“达观杯”文本智能算法大赛参赛指南
比赛介绍 2019 年 6 月 28 日,第三届"达观杯"文本智能信息抽取挑战赛正式开赛,同期面向参赛选手开放竞赛结果提交.本届比赛由中国人工智能学会吴文俊人工智能科学技术奖办公室 ...
“达观杯”文本智能处理挑战赛代码示例
达观杯介绍: 类似kaggle的数据科学比赛,任何人可以参加网址:http://www.dcjingsai.com/ 可以用支付宝实名注册项目名称: "达观杯"文本智能处理挑战 ...
达观杯”文本智能处理挑战赛
竞赛信息 1.网址 http://www.dcjingsai.com/common/cmpt/"达观杯"文本智能处理挑战赛_竞赛信息.html 2.任务建立模型通过长文本数据正文 ...
“达观杯”文本智能处理挑战赛，季军带你飞
来自AI小白入门前段时间和朋友何从庆(AI算法之心)等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人.最后我们队伍取得季军(4st/3131),虽有些许遗憾,但是也很荣幸认 ...
“达观杯”文本智能处理挑战赛
(本内容转载自公众号"科技与Python") 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现.而在以理解人类语言为入口的认知智能上,目前 ...
【数据竞赛】“达观杯”文本智能处理挑战赛２
文章目录一.TF_IDF原理 1.TF(item frequency) 2.逆向文件频率IDF(inverse document frequency) 3.TF-IDF 二.TF-IDF算法实现 1 ...
【数据竞赛】“达观杯”文本智能处理挑战赛4
一.逻辑回归逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型. 1.概率估计 LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 log ...
【数据竞赛】“达观杯”文本智能处理挑战赛3
一.语言模型在统计自然语言处理中,语言模型指的是计算一个句子的概率模型. 传统的语言模型词的表示是原始的.面向字符串的. 向量角度:更高维.更稀疏的向量.若词汇表大小为 NNN,每个字符串形式的词 ...

达观杯文本智能处理(1)

数据说明

达观杯文本智能处理(1)相关推荐

最新文章

热门文章