一、数据集结构:

共14个分类:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}

二、评测标准:

F1=2∗(precision+recall)(precision∗recall)F_1=2* \frac{(precision+recall)}{(precision∗recall)} F1​=2∗(precision∗recall)(precision+recall)​

F1​结果越大越好。

三、解题思路

  1. TF-IDF + 机器学习分类器:直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。
  2. FastText:入门款的词向量,可以快速构建出分类器。
  3. WordVec + 深度学习分类器:WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。
  4. Bert词向量:Bert是高配款的词向量,具有强大的建模学习能力。

自然语言处理实践Task1相关推荐

  1. python documents in chinese_基于 Python 的简单自然语言处理实践

    基于 Python 的简单自然语言处理 Twenty News Group 语料集处理 20 Newsgroup 数据集包含了约 20000 篇来自于不同的新闻组的文档,最早由 Ken Lang 搜集 ...

  2. DataWhale第21期组队学习自然语言处理实践(知识图谱)task4— 用户输入->知识库的查询语句

    参考来源:https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/task04.md# ...

  3. r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  4. 《自然语言处理实践——聊天机器人技术原理与应用》(王昊奋)简要笔记(全)

    第一章 概述 1.对话系统分类 基于实现方式--检索式.生成式 基于功能--问答系统.面向任务的对话系统.闲聊系统.主动推荐系统. 2.框架 自动语音识别--自然语言理解--对话管理(Web,社区问答 ...

  5. PyTorch深度学习实战 | 迁移学习与自然语言处理实践

    01.文章任务 从提供的金融文本中识别出现的未知金融实体,包括金融平台名.企业名.项目名称及产品名称.持有金融牌照的银行.证券.保险.基金等机构.知名的互联网企业如腾讯.淘宝.京东等和训练集中出现的实 ...

  6. 自然语言处理实践Task6

    基于Bert的文本分类 Bert Pretrain class WhitespaceTokenizer(object):"""WhitespaceTokenizer wi ...

  7. 自然语言处理实践Task5

    使用gensim训练word2vec import logging import randomimport numpy as np import torchlogging.basicConfig(le ...

  8. 自然语言处理实践Task4

    FastText FastText通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作. FastText是一个三层的神经网络,输入 ...

  9. 自然语言处理实践Task3

    One-hot 这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示.具体将每个字/词编码一个索引,然后根据索引进行赋值. One-hot表示方法的例子如下: 句子 ...

最新文章

  1. WINDOWS系统调用 和 SYSENTER系统服务调用过程
  2. js 检测浏览器,呈现引擎和平台
  3. 关于source insight 3.5 无法同步文件的问题
  4. SAP项目MM调研清单
  5. java类什么时候卸载_java – Android:什么时候类被系统卸载?
  6. hadoop源码分析_Spark2.x精通:Job触发流程源码深度剖析(一)
  7. linuxpython拍照_linux下python抓屏实现方法 -电脑资料
  8. 7-3 欢迎参加贵工程2021年C语言程序设计大赛! (5 分)
  9. 想知道你未来宝宝长什么样吗?
  10. 2012021401
  11. 【题解】SCOI2009围豆豆
  12. 用Nginx搭建IIS集群实现负载均衡
  13. python中、函数定义可以不包括以下_python函数定义精讲
  14. PostgreSQL extra_float_digits——控制浮点数精度
  15. 电感的两种模式——DCM和CCM的区别
  16. linux命令五十七之tar命令;linux多个文件压缩打包到一个压缩文件
  17. 查看计算机内存条型号,怎么查内存条型号 这几步你要了解
  18. uniapp生成高清海报图canvas
  19. element-ui按需引入报错 Error: Cannot find module ‘babel-preset-es2015‘
  20. 生物信息学基础——基因表达过程

热门文章

  1. 爬虫-代理的质量控制
  2. django-多级联动-前端效果
  3. linux-type命令查看类型
  4. mysql-复习表的基本操作01
  5. PHP设计模式之抽象工厂模式
  6. mysql之锁与事务
  7. html页面顶部提示在更高浏览器下面提示语
  8. unix c线程同步的三种方法:互斥量、读写锁以及条件变-xhb8413-ChinaUnix博客
  9. C#网络编程概述 三
  10. 创建用户的种类与区分