FastText

FastText通过Embedding层将单词映射到稠密空间，然后将句子中所有的单词在Embedding空间中进行平均，进而完成分类操作。
FastText是一个三层的神经网络，输入层、隐藏层和输出层。

# coding: utf-8
from __future__ import unicode_literalsfrom keras.models import Sequential
from keras.layers import Embedding
from keras.layers import GlobalAveragePooling1D
from keras.layers import DenseVOCAB_SIZE = 2000
EMBEDDING_DIM = 100
MAX_WORDS = 500
CLASS_NUM = 5def build_fastText():model = Sequential()# 通过embedding层，将词汇映射成EMBEDDING_DIM维向量model.add(Embedding(VOCAB_SIZE, EMBEDDING_DIM,input_length=MAX_WORDS))# 通过GlobalAveragePooling1D平均了文档中所有词的embeddingmodel.add(GlobalAveragePooling1D())# 通过输出层softmax分类，得到类别概率分布model.add(Dense(CLASS_NUM, activation='softmax'))# 定义损失函数、优化器、分类度量指标model.compile(loss='categorical_crossentropy',optimizer='SGD',metrics=['accuracy'])return modelif __name__ == "__main__":model = build_fastText()print(model.summary())

FastText用单词的Embedding叠加获得的文档向量，将相似的句子分为一类
FastText学习到的Embedding空间维度比较低，可以快速进行训练

基于FastText的文本分类

import pandas as pd
from sklearn.metrics import f1_score
import fasttext# 转换FastText需要的格式
train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=15000)
train_df['label_ft'] = '__label__' + train_df['label'].astype(str)
train_df[['text', 'label_ft']].iloc[:-5000].to_csv('train.csv', index=None, header=None, sep='\t')model = fasttext.train_supervised('train.csv', lr=1.0, wordNgrams=2,
verbose=2, minCount=1, epoch=25, loss='hs')val_pred = [model.predict(x)[0][0].split('__')[-1] for x in train_df.iloc[-5000:]['text']]
print(f1_score(train_df['label'].values[-5000:].astype(str),val_pred, average='macro'))

如何使用验证集调参

label2id = {}
for i in range(total):label = str(all_labels[i])if label not in label2id:label2id[label] = [i]else:label2id[label].append(i)

通过10折划分，我们一共得到了10份分布一致的数据，索引分别为0到9，每次通过将一份数据作为验证集，剩余数据作为训练集，获得了所有数据的10种分割。不失一般性，我们选择最后一份完成剩余的实验，即索引为9的一份做为验证集，索引为1-8的作为训练集，然后基于验证集的结果调整超参数，使得模型性能更优。

自然语言处理实践Task4相关推荐

DataWhale第21期组队学习自然语言处理实践（知识图谱）task4— 用户输入-＞知识库的查询语句
参考来源:https://github.com/datawhalechina/team-learning-nlp/blob/master/KnowledgeGraph_Basic/task04.md# ...
python documents in chinese_基于 Python 的简单自然语言处理实践
基于 Python 的简单自然语言处理 Twenty News Group 语料集处理 20 Newsgroup 数据集包含了约 20000 篇来自于不同的新闻组的文档,最早由 Ken Lang 搜集 ...
r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
《自然语言处理实践——聊天机器人技术原理与应用》（王昊奋）简要笔记（全）
第一章概述 1.对话系统分类基于实现方式--检索式.生成式基于功能--问答系统.面向任务的对话系统.闲聊系统.主动推荐系统. 2.框架自动语音识别--自然语言理解--对话管理(Web,社区问答 ...
PyTorch深度学习实战 | 迁移学习与自然语言处理实践
01.文章任务从提供的金融文本中识别出现的未知金融实体,包括金融平台名.企业名.项目名称及产品名称.持有金融牌照的银行.证券.保险.基金等机构.知名的互联网企业如腾讯.淘宝.京东等和训练集中出现的实 ...
自然语言处理实践Task6
基于Bert的文本分类 Bert Pretrain class WhitespaceTokenizer(object):"""WhitespaceTokenizer wi ...
自然语言处理实践Task5
使用gensim训练word2vec import logging import randomimport numpy as np import torchlogging.basicConfig(le ...
自然语言处理实践Task3
One-hot 这里的One-hot与数据挖掘任务中的操作是一致的,即将每一个单词使用一个离散的向量表示.具体将每个字/词编码一个索引,然后根据索引进行赋值. One-hot表示方法的例子如下: 句子 ...
自然语言处理实践Task2
一.读取训练数据 # sep设置分割符 # nrows设置读取的行数 train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=10 ...

自然语言处理实践Task4

FastText

基于FastText的文本分类

如何使用验证集调参

自然语言处理实践Task4相关推荐

最新文章

热门文章