NLP以赛代练 Task 1

  • 题目
    • 题目求解的是什么
    • 已知什么
    • 要满足哪些条件
  • 解题思路
    • T F − I D F TF-IDF TF−IDF + 余弦相似度来进行分类

题目

比赛网址:https://tianchi.aliyun.com/competition/entrance/531810/information


题目求解的是什么

将一篇文章归入到具体的类别中,一共有 14 14 14 个明确了的候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

这是一个文本分类任务,将文章分门别类的归入到具体的类别中;如果只是把文章归为一类却没有具体的类别(不关心类别),那就是文本聚类

文章的具体类别,也称为【标签】。每篇文章通常只有一个类别,如果一篇文章有多个类别,此时问题就是多标签任务


已知什么

数据集下载:

训练集数据 测试集A榜数据 测试集A榜提交样例
https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/train_set.csv.zip https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a.csv.zip https://tianchi-competition.oss-cn-hangzhou.aliyuncs.com/531810/test_a_sample_submit.csv

文本分类是一个监督学习任务,除了数据外,还得有标准答案。


要满足哪些条件

不得不说,评测标准。

评测标准是准确率评测,也就是问,你的准确率( a c c u r a c y accuracy accuracy)是多少。

当预测与答案的数量相等时,准确率即系统做出正确判断的次数除以总的测试次数。

衡量分类器的准确程度,通常有 3 3 3:

  • p r e c i s i o n precision precision:精确率,简称 P P P 值;
  • r e c a l l recall recall:召回率,简称 R R R 值;
  • F 1 F_{1} F1​:精确率、召回率的调和平均值,简称 F 1 F_{1} F1​ 值。

这些名词都属于预测,要理解他们的计算方法,得先理解混淆矩阵。

P N
P TP FP
N FN TN

纵坐标为预测结果,横坐标为标准答案,一共有 4 4 4 种组合:

  • T P TP TP:预测是 P P P,答案是 P P P;
  • F P FP FP:预测是 P P P,答案是 N N N;
  • T N TN TN:预测是 N N N,答案是 N N N;
  • F N FN FN:预测是 N N N,答案是 P P P;

只要混淆矩阵确立了, 3 3 3 个准确指标就都确定了。

  • p r e c i s i o n = 预 测 对 的 情 况 数 / 预 测 的 情 况 数 = T P T P + F P precision = 预测对的情况数/预测的情况数=\frac{TP}{TP+FP} precision=预测对的情况数/预测的情况数=TP+FPTP​
  • r e c a l l = 预 测 对 的 情 况 数 / 所 有 预 测 的 情 况 数 = T P T P + F N recall = 预测对的情况数/所有预测的情况数=\frac{TP}{TP+FN} recall=预测对的情况数/所有预测的情况数=TP+FNTP​
  • F 1 = 2 ∗ P ∗ R P + R F_{1}=\frac{2*P*R}{P+R} F1​=P+R2∗P∗R​

通常 p r e c i s i o n precision precision 越高, r e c a l l recall recall 就越低,反之亦然。

所以,我们需要一个综合性的指标,比如精确率、召回率的调和平均值 F 1 F_{1} F1​。


解题思路

本质是一个文本分类问题,需要根据每句的字符进行分类。

  • 但给出的数据是匿名化的,不能直接使用中文分词等操作,需要对匿名字符进行建模,进而完成文本分类的过程;
  • 由于文本数据是一种典型的非结构化数据,因此可能涉及到特征提取分类模型两个部分。

主要的思路:

  • T F − I D F TF-IDF TF−IDF + 余弦相似度来进行分类

    直接使用 TF-IDF 对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用机器学习的 s v m svm svm、 l r lr lr 或 x g b o o s t xgboost xgboost,也可以使用余弦距离。

  • F a s t T e x t FastText FastText

    FastText是入门款的词向量,利用 F a c e b o o k Facebook Facebook 提供的 F a s t T e x t FastText FastText 工具,可以快速构建出分类器。

  • W o r d V e c WordVec WordVec + 深度学习分类器

    W o r d V e c WordVec WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择 T e x t C N N TextCNN TextCNN、 T e x t R N N TextRNN TextRNN 或 B i L S T M BiLSTM BiLSTM。

  • B e r t 词 向 量 Bert词向量 Bert词向量

    B e r t Bert Bert 是高配款的词向量,具有强大的建模学习能力。


T F − I D F TF-IDF TF−IDF + 余弦相似度来进行分类

以第一种举例,先把文字的新闻变成一组可计算的数字,然后再设计一个算法来算出任意两篇新闻的相似性

利用 TF-IDF 将某个新闻转换成新闻的特征向量,每一个维度的大小代表每个词对这篇新闻的贡献

向量的夹角是衡量两个向量相似程度的度量,因此可以利用两个向量的夹角来判断对应的新闻主题的相似程度。

有关于向量的使用方法,请猛击:《向量实验:相似度算法》(实验有向量部分的新闻分类自动化、评估用户消费能力、人群聚类、简历筛选自动化、论文查重)

NLP以赛代练 Task 1:赛题理解相关推荐

  1. NLP以赛代练 Task 2:数据读取与分析

    数据读取与分析 数据读取 数据分析 句子长度分析 类别分布 字符分布统计 数据分析的结论 数据读取 import pandas as pdtrain_df = pd.read_csv('/Users/ ...

  2. 天池NLP学习赛(1)赛题理解

    天池NLP学习赛(1)赛题理解 题目 题目类型:新闻文本分类(字符识别问题)链接 数据: 赛题数据为新闻文本,并按照字符级别进行匿名处理,数字编码形式呈现.整合划分出14个候选分类类别:财经.彩票.房 ...

  3. 2020腾讯广告算法大赛:赛题理解与解题思路

    写在前面 期待已久的2020腾讯广告算法大赛终于开始了,本届赛题"广告受众基础属性预估".本文将给出解题思路,以及最完备的竞赛资料,助力各位取得优异成绩!!! 报名链接:https ...

  4. 数据竞赛专题 | 从赛题理解到竞赛入门基础

    为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力.DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP领域多位竞赛大咖,将从赛题理解.数据探索 ...

  5. 新闻本文分类-01赛题理解

    该文是连载文章,基于新闻文本分类赛题从而入门自然语言处理.主要从赛题理解.数据读取与数据分析.基于机器学习的文本分类.基于深度学习的文本分类这四部分来学习NLP. 一.赛题背景 本次新人赛是Dataw ...

  6. (每日一题)CF1139D Steps to One 2021年天梯赛 L3-3 可怜的简单题(期望,莫比乌斯反演,杜教筛)

    整理的算法模板合集: ACM模板 点我看算法全家桶系列!!! 实际上是一个全新的精炼模板整合计划 一周连考三门,人都没了 Weblink 2021年天梯赛 L3-3 可怜的简单题 CF1139D Pr ...

  7. 贷款违约预测--赛题理解

    比赛连接https://tianchi.aliyun.com/competition/entrance/531830/introduction 赛题理解: 赛题以金融风控中的个人信贷为背景,根据贷款申 ...

  8. 【天池赛事】零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline

    [天池赛事]零基础入门语义分割-地表建筑物识别 Task1:赛题理解与 baseline(3 天) – 学习主题:理解赛题内容解题流程 – 学习内容:赛题理解.数据读取.比赛 baseline 构建 ...

  9. 【算法竞赛学习】金融风控之贷款违约预测-赛题理解

    Task1 赛题理解 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题.通过这道赛题来引导大家了解金融风控中的 ...

最新文章

  1. nlopt 二次优化
  2. arm交叉编译bluez-5.25
  3. brew下载的mysql卸载_Mac中mongoDB的安装与卸载步骤详解
  4. spring cloud alibaba_SpringCloudAlibaba与Cloud搭配方案
  5. android版 点击下载,自动点击器最新版
  6. ubuntu 14.10 64bit系统安装MBuntu主题(仿Mac主题)
  7. python 面授_5天Python实战营(面授)
  8. flask Flash消息
  9. MongoDB常用操作命令大全
  10. 【Java与智能设备】用户界面基础
  11. oracle安装包安装教程,oracle安装教程【搞定方案】
  12. 人人,金山西山居,腾讯互娱,微信,网易游戏offer及面经
  13. Unity 中从3D到Universal RP配置方法
  14. 海贼王游戏--EM游戏03--初出茅庐
  15. 龙门架式焊接机器人_一种龙门架式焊接机械手的制作方法
  16. 计算机软件与硬件系统基础知识,计算机软硬件系统基础知识.pdf
  17. 算法笔记 简单贪心(月饼问题)
  18. NumPy 基础教程
  19. mobaxterm显示图像闪退_日报|苹果修复王者闪退Bug;OPPO公布新一代混合光学变焦技术...
  20. 添加常用查询新增方法

热门文章

  1. 开设A股票账户步骤,应该怎么开立股票账户?
  2. 新的开始--java
  3. 教育培训源码:在线教育app开发需要具备的四点特性
  4. 手机程序安装时几种有错误提示的解决办法
  5. 【重学java之路】宠物商店实例
  6. linux软件包怎么管理,Linux之软件包管理
  7. 海尔电视卡在android,一分钟解决智能电视卡顿的问题!还有多少人不知道这个方法?...
  8. 还在为搞不懂笔记本电脑参数而苦恼么?一篇文章就够啦
  9. C语言isspace()函数:判断字符是否为空白字符
  10. 请看我们的天才球迷的自荐信: