【数据竞赛】“达观杯”文本智能处理挑战赛1
一、数据竞赛简介
“达观杯”文本智能处理挑战赛
1、任务
建立模型通过长文本数据正文(article),预测文本对应的类别(class)
2、数据
传送门:链接: https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw 提取码: 58r9
数据包含2个csv文件:
- train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:
- 第一列是文章的索引(id),
- 第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);
- 第三列是在“词”级别上的表示,即词语相隔正文(word_seg);
- 第四列是这篇文章的标注(class)。
- 注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!
- test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。
- 注:test_set与train_test中文章id的编号是独立的。
3、评分标准
评分算法:binary-classification
采用各个品类F1指标的算术平均值,它是Precision 和 Recall 的调和平均数。
⟨F1⟩=1n∑inF1i=1n∑in2⋅Pi⋅RiPi+Ri\langle F1\rangle=\frac{1}{n}\sum_i^nF1_i=\frac{1}{n}\sum_i^n\frac{2\cdot P_i\cdot R_i}{P_i+ R_i}⟨F1⟩=n1i∑nF1i=n1i∑nPi+Ri2⋅Pi⋅Ri
其中,PiP_iPi 是表示第 iii 个种类对应的Precision, RiR_iRi 是表示第 iii 个种类对应Recall。
二、数据读取
# 导入相关包
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt# 数据预处理
df_train = pd.read_csv("./new_data/train_set.csv") # 使用read_csv方法 导入训练集
df_test = pd.read_csv("./new_data/test_set.csv") # 用read_csv方法 导入测试集
X = df_train.drop(['id','class'], axis=1)
y = df_train['class']print(df_train.head(10))
print('-------------------------')
print(X.head(10))
print('-------------------------')# 划分数据集
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=2019)# 划分后数据集概况
print('Data Servey--Train data: {}'.format(X_train.info()))
print('------------' * 2)
print('Data Servey--Validation data: {}'.format(X_valid.info()))
输出结果
id ... class
0 0 ... 14
1 1 ... 3
2 2 ... 12
3 3 ... 13
4 4 ... 12
5 5 ... 13
6 6 ... 1
7 7 ... 10
8 8 ... 10
9 9 ... 19[10 rows x 4 columns]
-------------------------article word_seg
0 7368 1252069 365865 755561 1044285 129532 1053... 816903 597526 520477 1179558 1033823 758724 63...
1 581131 165432 7368 957317 1197553 570900 33659... 90540 816903 441039 816903 569138 816903 10343...
2 7368 87936 40494 490286 856005 641588 145611 1... 816903 1012629 957974 1033823 328210 947200 65...
3 299237 760651 299237 887082 159592 556634 7489... 563568 1239563 680125 780219 782805 1033823 19...
4 7368 7368 7368 865510 7368 396966 995243 37685... 816903 816903 816903 139132 816903 312320 1103...
5 7368 1160791 299237 1238054 569999 1044285 117... 816903 669476 21577 520477 1004165 4184 616471...
6 893673 7368 836872 674898 231468 856005 105964... 277781 816903 1098157 986174 1033823 780491 10...
7 1122654 125310 907560 1172361 979583 983951 12... 289186 640942 363388 585102 261174 1217680 520...
8 793790 599682 1223643 1030656 569999 178976 45... 1257015 966562 1054308 599826 811205 520477 28...
9 7368 1120647 360394 79747 1140778 472252 7368 ... 816903 266069 1226448 1276450 816903 769051 12...
-------------------------
<class 'pandas.core.frame.DataFrame'>
Int64Index: 81821 entries, 6483 to 40008
Data columns (total 2 columns):
article 81821 non-null object
word_seg 81821 non-null object
dtypes: object(2)
memory usage: 1.9+ MB
Data Servey--Train data: None
------------------------
<class 'pandas.core.frame.DataFrame'>
Int64Index: 20456 entries, 82049 to 68944
Data columns (total 2 columns):
article 20456 non-null object
word_seg 20456 non-null object
dtypes: object(2)
memory usage: 479.4+ KB
Data Servey--Validation data: None
【数据竞赛】“达观杯”文本智能处理挑战赛1相关推荐
- “达观杯”文本智能处理挑战赛代码示例
达观杯介绍: 类似kaggle的数据科学比赛,任何人可以参加 网址:http://www.dcjingsai.com/ 可以用支付宝实名注册 项目名称: "达观杯"文本智能处理挑战 ...
- 达观杯”文本智能处理挑战赛
竞赛信息 1.网址 http://www.dcjingsai.com/common/cmpt/"达观杯"文本智能处理挑战赛_竞赛信息.html 2.任务 建立模型通过长文本数据正文 ...
- “达观杯”文本智能处理挑战赛,季军带你飞
来自AI小白入门 前段时间和朋友何从庆(AI算法之心)等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人.最后我们队伍取得季军(4st/3131),虽有些许遗憾,但是也很荣幸认 ...
- “达观杯”文本智能处理挑战赛
(本内容转载自公众号"科技与Python") 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现.而在以理解人类语言为入口的认知智能上,目前 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛3
一.语言模型 在统计自然语言处理中,语言模型指的是计算一个句子的概率模型. 传统的语言模型 词的表示是原始的.面向字符串的. 向量角度:更高维.更稀疏的向量.若词汇表大小为 NNN,每个字符串形式的词 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛2
文章目录 一.TF_IDF原理 1.TF(item frequency) 2.逆向文件频率IDF(inverse document frequency) 3.TF-IDF 二.TF-IDF算法实现 1 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛5
一.LightGBM模型 1.XGBoost缺点 每轮迭代时,都需要遍历整个训练数据多次.如果把整个训练数据装进内存则会限制训练数据的大小:如果不装进内存,反复地读写训练数据又会消耗非常大的时间. 预 ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛4
一.逻辑回归 逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型. 1.概率估计 LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 log ...
- 【数据竞赛】“达观杯”文本智能处理挑战赛6——模型优化
文章目录 一.超参数 1.网格搜索 2.随机搜索 3.贝叶斯优化 二.Stacking 1.核心图解 (1)构建新的训练集 (2)构建新的测试集 (3)最终的训练与预测 2.示例 (1)构建新的训练集 ...
最新文章
- 用Auto-TensorCore代码生成优化matmul
- 不止临床应用,AI还要帮不懂编程的医生搞科研
- 人工智能与人类智能的竞赛:人机对抗智能技术全梳理
- VSTO进行时––开发日志之二(VSTO Development diary II)
- 滥用static_沉思滥用:“强力使用,破坏滥用”
- java ssdb 操作link遍历map的两种方式
- 机器与人交流的五大法则
- android接口调用超时,RCA:收单设备调用云端接口频繁超时排查总结
- 面试准备每日五题:C++(四)——typedefdefine、指针常量、队列栈、地址赋值、C和C++结构体
- SSAS实践问题记录--OLAP 存储引擎中存在错误: 处理时找到重复的属性键
- Encryption and decryption、Steganography、Decryption Tools
- 【Win32】只此一篇 让你清楚明细模式(DialogBoxParam)与非模式(CreateDialogParam)对话框的区别
- win7系统怎么安装dhcp服务器,笔者研习win7系统安装dhcp服务器的技巧介绍
- 当你一个人扛下所有,你就懂了
- 汇智网mysql_MySQL 入门
- 联邦学习 + 脏数据+Approaches to address the data skew problem in federated learning
- 从水处理速度梯度的公式,复习一下物理学常用公式,擦边爱因斯坦质能方程
- Tp5设置参数全局过滤方法
- 各种博客的代码高亮是如何实现的
- 数据库CAST()函数,格式(CAST AS decimal)
热门文章
- Netty介绍 与第一个Netty实例
- resnet论文_ResNet还是DenseNet?即插即用的DS涨点神器来了!
- mysql maria引擎_MySQL体系结构和存储引擎概述
- 数据分析python有趣分享_Python有趣|数据分析三板斧
- mel表达式_maya 2012 mel 表达式编辑器
- django models索引_Django开发者常犯的7种错误
- visual studio输入法打不了中文_我为什么不用Mac自带输入法
- 电脑显示器不亮主机正常_为什么会突然显示器黑屏但主机正常工作和解决办法。...
- 为什么能通过域成员主机拿下域控服务器的密码呢
- 权重初始化时除以前一层的神经元个数开方的意义