自然语言处理实践Task4
FastText
FastText通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。
FastText是一个三层的神经网络,输入层、隐藏层和输出层。
# coding: utf-8
from __future__ import unicode_literalsfrom keras.models import Sequential
from keras.layers import Embedding
from keras.layers import GlobalAveragePooling1D
from keras.layers import DenseVOCAB_SIZE = 2000
EMBEDDING_DIM = 100
MAX_WORDS = 500
CLASS_NUM = 5def build_fastText():model = Sequential()# 通过embedding层,将词汇映射成EMBEDDING_DIM维向量model.add(Embedding(VOCAB_SIZE, EMBEDDING_DIM,input_length=MAX_WORDS))# 通过GlobalAveragePooling1D平均了文档中所有词的embeddingmodel.add(GlobalAveragePooling1D())# 通过输出层softmax分类,得到类别概率分布model.add(Dense(CLASS_NUM, activation='softmax'))# 定义损失函数、优化器、分类度量指标model.compile(loss='categorical_crossentropy',optimizer='SGD',metrics=['accuracy'])return modelif __name__ == "__main__":model = build_fastText()print(model.summary())
- FastText用单词的Embedding叠加获得的文档向量,将相似的句子分为一类
- FastText学习到的Embedding空间维度比较低,可以快速进行训练
基于FastText的文本分类
import pandas as pd
from sklearn.metrics import f1_score
import fasttext# 转换FastText需要的格式
train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text', 'label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2,
verbose=2, minCount=1, epoch=25, loss='hs')val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str),val_pred, average='macro'))
如何使用验证集调参
label2id = {}
for i in range(total):label = str(all_labels[i])if label not in label2id:label2id[label] = [i]else:label2id[label].append(i)
通过10折划分,我们一共得到了10份分布一致的数据,索引分别为0到9,每次通过将一份数据作为验证集,剩余数据作为训练集,获得了所有数据的10种分割。不失一般性,我们选择最后一份完成剩余的实验,即索引为9的一份做为验证集,索引为1-8的作为训练集,然后基于验证集的结果调整超参数,使得模型性能更优。
自然语言处理实践Task4相关推荐
- DataWhale第21期组队学习自然语言处理实践(知识图谱)task4— 用户输入->知识库的查询语句
参考来源:https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/task04.md# ...
- python documents in chinese_基于 Python 的简单自然语言处理实践
基于 Python 的简单自然语言处理 Twenty News Group 语料集处理 20 Newsgroup 数据集包含了约 20000 篇来自于不同的新闻组的文档,最早由 Ken Lang 搜集 ...
- r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
- 《自然语言处理实践——聊天机器人技术原理与应用》(王昊奋)简要笔记(全)
第一章 概述 1.对话系统分类 基于实现方式--检索式.生成式 基于功能--问答系统.面向任务的对话系统.闲聊系统.主动推荐系统. 2.框架 自动语音识别--自然语言理解--对话管理(Web,社区问答 ...
- PyTorch深度学习实战 | 迁移学习与自然语言处理实践
01.文章任务 从提供的金融文本中识别出现的未知金融实体,包括金融平台名.企业名.项目名称及产品名称.持有金融牌照的银行.证券.保险.基金等机构.知名的互联网企业如腾讯.淘宝.京东等和训练集中出现的实 ...
- 自然语言处理实践Task6
基于Bert的文本分类 Bert Pretrain class WhitespaceTokenizer(object):"""WhitespaceTokenizer wi ...
- 自然语言处理实践Task5
使用gensim训练word2vec import logging import randomimport numpy as np import torchlogging.basicConfig(le ...
- 自然语言处理实践Task3
One-hot 这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示.具体将每个字/词编码一个索引,然后根据索引进行赋值. One-hot表示方法的例子如下: 句子 ...
- 自然语言处理实践Task2
一.读取训练数据 # sep设置分割符 # nrows设置读取的行数 train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=10 ...
最新文章
- vue 数据绑定 绑定属性 循环渲染数据
- python及pip中常用命令,经常总结
- 我从#100DaysOfCode中学到的东西
- Pycharm虚拟环境的使用
- 如何检查Windows网络通信端口占用
- Sqoop 是什么?(二)
- linux open详解,Linux系统open函数详解
- 《机器视觉算法与应用》第3章 机器视觉算法之图像增强——学习笔记
- C# PDF转图片(JPG,Png)
- 基于AFD驱动的进程流量控制
- android 键盘遮挡
- 个人阅读作业+个人总结
- Oracle数据库(五)用户 ,角色,权限
- java 快递项目_基于SpringBoot开发的Java快递代拿系统
- 深入了解 JavaScript 内存泄露
- 计算机工程学院运动会加油稿50字,运动会加油稿50字(30篇)
- Excel作出线性回归图像
- 走马观花之bug预防
- 【杂项学习】Open3D的基本使用
- yanzhenjie:permission:1.0.5 使用