自然语言处理实践Task1
一、数据集结构:
共14个分类:{‘科技’: 0, ‘股票’: 1, ‘体育’: 2, ‘娱乐’: 3, ‘时政’: 4, ‘社会’: 5, ‘教育’: 6, ‘财经’: 7, ‘家居’: 8, ‘游戏’: 9, ‘房产’: 10, ‘时尚’: 11, ‘彩票’: 12, ‘星座’: 13}
二、评测标准:
F1=2∗(precision+recall)(precision∗recall)F_1=2* \frac{(precision+recall)}{(precision∗recall)} F1=2∗(precision∗recall)(precision+recall)
F1结果越大越好。
三、解题思路
- TF-IDF + 机器学习分类器:直接使用TF-IDF对文本提取特征,并使用分类器进行分类。在分类器的选择上,可以使用SVM、LR、或者XGBoost。
- FastText:入门款的词向量,可以快速构建出分类器。
- WordVec + 深度学习分类器:WordVec是进阶款的词向量,并通过构建深度学习分类完成分类。深度学习分类的网络结构可以选择TextCNN、TextRNN或者BiLSTM。
- Bert词向量:Bert是高配款的词向量,具有强大的建模学习能力。
自然语言处理实践Task1相关推荐
- python documents in chinese_基于 Python 的简单自然语言处理实践
基于 Python 的简单自然语言处理 Twenty News Group 语料集处理 20 Newsgroup 数据集包含了约 20000 篇来自于不同的新闻组的文档,最早由 Ken Lang 搜集 ...
- DataWhale第21期组队学习自然语言处理实践(知识图谱)task4— 用户输入->知识库的查询语句
参考来源:https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/task04.md# ...
- r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
- 《自然语言处理实践——聊天机器人技术原理与应用》(王昊奋)简要笔记(全)
第一章 概述 1.对话系统分类 基于实现方式--检索式.生成式 基于功能--问答系统.面向任务的对话系统.闲聊系统.主动推荐系统. 2.框架 自动语音识别--自然语言理解--对话管理(Web,社区问答 ...
- PyTorch深度学习实战 | 迁移学习与自然语言处理实践
01.文章任务 从提供的金融文本中识别出现的未知金融实体,包括金融平台名.企业名.项目名称及产品名称.持有金融牌照的银行.证券.保险.基金等机构.知名的互联网企业如腾讯.淘宝.京东等和训练集中出现的实 ...
- 自然语言处理实践Task6
基于Bert的文本分类 Bert Pretrain class WhitespaceTokenizer(object):"""WhitespaceTokenizer wi ...
- 自然语言处理实践Task5
使用gensim训练word2vec import logging import randomimport numpy as np import torchlogging.basicConfig(le ...
- 自然语言处理实践Task4
FastText FastText通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作. FastText是一个三层的神经网络,输入 ...
- 自然语言处理实践Task3
One-hot 这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示.具体将每个字/词编码一个索引,然后根据索引进行赋值. One-hot表示方法的例子如下: 句子 ...
最新文章
- WINDOWS系统调用 和 SYSENTER系统服务调用过程
- js 检测浏览器,呈现引擎和平台
- 关于source insight 3.5 无法同步文件的问题
- SAP项目MM调研清单
- java类什么时候卸载_java – Android:什么时候类被系统卸载?
- hadoop源码分析_Spark2.x精通:Job触发流程源码深度剖析(一)
- linuxpython拍照_linux下python抓屏实现方法 -电脑资料
- 7-3 欢迎参加贵工程2021年C语言程序设计大赛! (5 分)
- 想知道你未来宝宝长什么样吗?
- 2012021401
- 【题解】SCOI2009围豆豆
- 用Nginx搭建IIS集群实现负载均衡
- python中、函数定义可以不包括以下_python函数定义精讲
- PostgreSQL extra_float_digits——控制浮点数精度
- 电感的两种模式——DCM和CCM的区别
- linux命令五十七之tar命令;linux多个文件压缩打包到一个压缩文件
- 查看计算机内存条型号,怎么查内存条型号 这几步你要了解
- uniapp生成高清海报图canvas
- element-ui按需引入报错 Error: Cannot find module ‘babel-preset-es2015‘
- 生物信息学基础——基因表达过程