FastText

FastText通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。
FastText是一个三层的神经网络,输入层、隐藏层和输出层。

# coding: utf-8
from __future__ import unicode_literalsfrom keras.models import Sequential
from keras.layers import Embedding
from keras.layers import GlobalAveragePooling1D
from keras.layers import DenseVOCAB_SIZE = 2000
EMBEDDING_DIM = 100
MAX_WORDS = 500
CLASS_NUM = 5def build_fastText():model = Sequential()# 通过embedding层,将词汇映射成EMBEDDING_DIM维向量model.add(Embedding(VOCAB_SIZE, EMBEDDING_DIM,input_length=MAX_WORDS))# 通过GlobalAveragePooling1D平均了文档中所有词的embeddingmodel.add(GlobalAveragePooling1D())# 通过输出层softmax分类,得到类别概率分布model.add(Dense(CLASS_NUM, activation='softmax'))# 定义损失函数、优化器、分类度量指标model.compile(loss='categorical_crossentropy',optimizer='SGD',metrics=['accuracy'])return modelif __name__ == "__main__":model = build_fastText()print(model.summary())
  • FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类
  • FastText学习到的Embedding空间维度比较低,可以快速进行训练

基于FastText的文本分类

import pandas as pd
from sklearn.metrics import f1_score
import fasttext# 转换FastText需要的格式
train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text', 'label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2,
verbose=2, minCount=1, epoch=25, loss='hs')val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str),val_pred, average='macro'))

如何使用验证集调参

label2id = {}
for i in range(total):label = str(all_labels[i])if label not in label2id:label2id[label] = [i]else:label2id[label].append(i)

通过10折划分,我们一共得到了10份分布一致的数据,索引分别为0到9,每次通过将一份数据作为验证集,剩余数据作为训练集,获得了所有数据的10种分割。不失一般性,我们选择最后一份完成剩余的实验,即索引为9的一份做为验证集,索引为1-8的作为训练集,然后基于验证集的结果调整超参数,使得模型性能更优。

自然语言处理实践Task4相关推荐

  1. DataWhale第21期组队学习自然语言处理实践(知识图谱)task4— 用户输入->知识库的查询语句

    参考来源:https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/task04.md# ...

  2. python documents in chinese_基于 Python 的简单自然语言处理实践

    基于 Python 的简单自然语言处理 Twenty News Group 语料集处理 20 Newsgroup 数据集包含了约 20000 篇来自于不同的新闻组的文档,最早由 Ken Lang 搜集 ...

  3. r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  4. 《自然语言处理实践——聊天机器人技术原理与应用》(王昊奋)简要笔记(全)

    第一章 概述 1.对话系统分类 基于实现方式--检索式.生成式 基于功能--问答系统.面向任务的对话系统.闲聊系统.主动推荐系统. 2.框架 自动语音识别--自然语言理解--对话管理(Web,社区问答 ...

  5. PyTorch深度学习实战 | 迁移学习与自然语言处理实践

    01.文章任务 从提供的金融文本中识别出现的未知金融实体,包括金融平台名.企业名.项目名称及产品名称.持有金融牌照的银行.证券.保险.基金等机构.知名的互联网企业如腾讯.淘宝.京东等和训练集中出现的实 ...

  6. 自然语言处理实践Task6

    基于Bert的文本分类 Bert Pretrain class WhitespaceTokenizer(object):"""WhitespaceTokenizer wi ...

  7. 自然语言处理实践Task5

    使用gensim训练word2vec import logging import randomimport numpy as np import torchlogging.basicConfig(le ...

  8. 自然语言处理实践Task3

    One-hot 这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示.具体将每个字/词编码一个索引,然后根据索引进行赋值. One-hot表示方法的例子如下: 句子 ...

  9. 自然语言处理实践Task2

    一.读取训练数据 # sep设置分割符 # nrows设置读取的行数 train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=10 ...

最新文章

  1. vue 数据绑定 绑定属性 循环渲染数据
  2. python及pip中常用命令,经常总结
  3. 我从#100DaysOfCode中学到的东西
  4. Pycharm虚拟环境的使用
  5. 如何检查Windows网络通信端口占用
  6. Sqoop 是什么?(二)
  7. linux open详解,Linux系统open函数详解
  8. 《机器视觉算法与应用》第3章 机器视觉算法之图像增强——学习笔记
  9. C# PDF转图片(JPG,Png)
  10. 基于AFD驱动的进程流量控制
  11. android 键盘遮挡
  12. 个人阅读作业+个人总结
  13. Oracle数据库(五)用户 ,角色,权限
  14. java 快递项目_基于SpringBoot开发的Java快递代拿系统
  15. 深入了解 JavaScript 内存泄露
  16. 计算机工程学院运动会加油稿50字,运动会加油稿50字(30篇)
  17. Excel作出线性回归图像
  18. 走马观花之bug预防
  19. 【杂项学习】Open3D的基本使用
  20. yanzhenjie:permission:1.0.5 使用

热门文章

  1. 前端开发 认识css 体验变色的效果 0228
  2. fastdfs-01-了解
  3. php脚本定时更新商品列表
  4. [20180826]四校联考
  5. defineProperty AND defineProperties
  6. javascript--DOM概念
  7. 答网友:如何在Sbo Add-on中激活或者禁止系统增加、查找和导航按钮?
  8. 用层进表面预测来重建三维物体
  9. Git 相关使用命令
  10. 单多晶技术拉锯战升级