NLP以赛代练 Task 1:赛题理解
NLP以赛代练 Task 1
- 题目
- 题目求解的是什么
- 已知什么
- 要满足哪些条件
- 解题思路
- T F − I D F TF-IDF TF−IDF + 余弦相似度来进行分类
题目
比赛网址:https://tianchi.aliyun.com/competition/entrance/531810/information
题目求解的是什么
将一篇文章归入到具体的类别中,一共有 14 14 14 个明确了的候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
这是一个文本分类任务,将文章分门别类的归入到具体的类别中;如果只是把文章归为一类却没有具体的类别(不关心类别),那就是文本聚类。
文章的具体类别,也称为【标签】。每篇文章通常只有一个类别,如果一篇文章有多个类别,此时问题就是多标签任务。
已知什么
数据集下载:
训练集数据 | 测试集A榜数据 | 测试集A榜提交样例 |
---|---|---|
https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip | https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip | https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv |
文本分类是一个监督学习任务,除了数据外,还得有标准答案。
要满足哪些条件
不得不说,评测标准。
评测标准是准确率评测,也就是问,你的准确率( a c c u r a c y accuracy accuracy)是多少。
当预测与答案的数量相等时,准确率即系统做出正确判断的次数除以总的测试次数。
衡量分类器的准确程度,通常有 3 3 3:
- p r e c i s i o n precision precision:精确率,简称 P P P 值;
- r e c a l l recall recall:召回率,简称 R R R 值;
- F 1 F_{1} F1:精确率、召回率的调和平均值,简称 F 1 F_{1} F1 值。
这些名词都属于预测,要理解他们的计算方法,得先理解混淆矩阵。
P | N | |
---|---|---|
P | TP | FP |
N | FN | TN |
纵坐标为预测结果,横坐标为标准答案,一共有 4 4 4 种组合:
- T P TP TP:预测是 P P P,答案是 P P P;
- F P FP FP:预测是 P P P,答案是 N N N;
- T N TN TN:预测是 N N N,答案是 N N N;
- F N FN FN:预测是 N N N,答案是 P P P;
只要混淆矩阵确立了, 3 3 3 个准确指标就都确定了。
- p r e c i s i o n = 预 测 对 的 情 况 数 / 预 测 的 情 况 数 = T P T P + F P precision = 预测对的情况数/预测的情况数=\frac{TP}{TP+FP} precision=预测对的情况数/预测的情况数=TP+FPTP
- r e c a l l = 预 测 对 的 情 况 数 / 所 有 预 测 的 情 况 数 = T P T P + F N recall = 预测对的情况数/所有预测的情况数=\frac{TP}{TP+FN} recall=预测对的情况数/所有预测的情况数=TP+FNTP
- F 1 = 2 ∗ P ∗ R P + R F_{1}=\frac{2*P*R}{P+R} F1=P+R2∗P∗R
通常 p r e c i s i o n precision precision 越高, r e c a l l recall recall 就越低,反之亦然。
所以,我们需要一个综合性的指标,比如精确率、召回率的调和平均值 F 1 F_{1} F1。
解题思路
本质是一个文本分类问题,需要根据每句的字符进行分类。
- 但给出的数据是匿名化的,不能直接使用中文分词等操作,需要对匿名字符进行建模,进而完成文本分类的过程;
- 由于文本数据是一种典型的非结构化数据,因此可能涉及到
特征提取
和分类模型
两个部分。
主要的思路:
T F − I D F TF-IDF TF−IDF + 余弦相似度来进行分类
直接使用 TF-IDF 对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用机器学习的 s v m svm svm、 l r lr lr 或 x g b o o s t xgboost xgboost,也可以使用余弦距离。
F a s t T e x t FastText FastText
FastText是入门款的词向量,利用 F a c e b o o k Facebook Facebook 提供的 F a s t T e x t FastText FastText 工具,可以快速构建出分类器。
W o r d V e c WordVec WordVec + 深度学习分类器
W o r d V e c WordVec WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择 T e x t C N N TextCNN TextCNN、 T e x t R N N TextRNN TextRNN 或 B i L S T M BiLSTM BiLSTM。
B e r t 词 向 量 Bert词向量 Bert词向量
B e r t Bert Bert 是高配款的词向量,具有强大的建模学习能力。
T F − I D F TF-IDF TF−IDF + 余弦相似度来进行分类
以第一种举例,先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性
利用 TF-IDF 将某个新闻转换成新闻的特征向量,每一个维度的大小代表每个词对这篇新闻的贡献
向量的夹角是衡量两个向量相似程度的度量,因此可以利用两个向量的夹角来判断对应的新闻主题的相似程度。
有关于向量的使用方法,请猛击:《向量实验:相似度算法》(实验有向量部分的新闻分类自动化、评估用户消费能力、人群聚类、简历筛选自动化、论文查重)
NLP以赛代练 Task 1:赛题理解相关推荐
- NLP以赛代练 Task 2:数据读取与分析
数据读取与分析 数据读取 数据分析 句子长度分析 类别分布 字符分布统计 数据分析的结论 数据读取 import pandas as pdtrain_df = pd.read_csv('/Users/ ...
- 天池NLP学习赛(1)赛题理解
天池NLP学习赛(1)赛题理解 题目 题目类型:新闻文本分类(字符识别问题)链接 数据: 赛题数据为新闻文本,并按照字符级别进行匿名处理,数字编码形式呈现.整合划分出14个候选分类类别:财经.彩票.房 ...
- 2020腾讯广告算法大赛:赛题理解与解题思路
写在前面 期待已久的2020腾讯广告算法大赛终于开始了,本届赛题"广告受众基础属性预估".本文将给出解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!! 报名链接:https ...
- 数据竞赛专题 | 从赛题理解到竞赛入门基础
为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解.数据探索 ...
- 新闻本文分类-01赛题理解
该文是连载文章,基于新闻文本分类赛题从而入门自然语言处理.主要从赛题理解.数据读取与数据分析.基于机器学习的文本分类.基于深度学习的文本分类这四部分来学习NLP. 一.赛题背景 本次新人赛是Dataw ...
- (每日一题)CF1139D Steps to One 2021年天梯赛 L3-3 可怜的简单题(期望,莫比乌斯反演,杜教筛)
整理的算法模板合集: ACM模板 点我看算法全家桶系列!!! 实际上是一个全新的精炼模板整合计划 一周连考三门,人都没了 Weblink 2021年天梯赛 L3-3 可怜的简单题 CF1139D Pr ...
- 贷款违约预测--赛题理解
比赛连接https://tianchi.aliyun.com/competition/entrance/531830/introduction 赛题理解: 赛题以金融风控中的个人信贷为背景,根据贷款申 ...
- 【天池赛事】零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline
[天池赛事]零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline(3 天) – 学习主题:理解赛题内容解题流程 – 学习内容:赛题理解.数据读取.比赛 baseline 构建 ...
- 【算法竞赛学习】金融风控之贷款违约预测-赛题理解
Task1 赛题理解 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题.通过这道赛题来引导大家了解金融风控中的 ...
最新文章
- nlopt 二次优化
- arm交叉编译bluez-5.25
- brew下载的mysql卸载_Mac中mongoDB的安装与卸载步骤详解
- spring cloud alibaba_SpringCloudAlibaba与Cloud搭配方案
- android版 点击下载,自动点击器最新版
- ubuntu 14.10 64bit系统安装MBuntu主题(仿Mac主题)
- python 面授_5天Python实战营(面授)
- flask Flash消息
- MongoDB常用操作命令大全
- 【Java与智能设备】用户界面基础
- oracle安装包安装教程,oracle安装教程【搞定方案】
- 人人,金山西山居,腾讯互娱,微信,网易游戏offer及面经
- Unity 中从3D到Universal RP配置方法
- 海贼王游戏--EM游戏03--初出茅庐
- 龙门架式焊接机器人_一种龙门架式焊接机械手的制作方法
- 计算机软件与硬件系统基础知识,计算机软硬件系统基础知识.pdf
- 算法笔记 简单贪心(月饼问题)
- NumPy 基础教程
- mobaxterm显示图像闪退_日报|苹果修复王者闪退Bug;OPPO公布新一代混合光学变焦技术...
- 添加常用查询新增方法