前言

  在文章:NLP入门(四)命名实体识别(NER)中,笔者介绍了两个实现命名实体识别的工具——NLTK和Stanford NLP。在本文中,我们将会学习到如何使用深度学习工具来自己一步步地实现NER,只要你坚持看完,就一定会很有收获的。
  OK,话不多说,让我们进入正题。
  几乎所有的NLP都依赖一个强大的语料库,本项目实现NER的语料库如下(文件名为train.txt,一共42000行,这里只展示前15行,可以在文章最后的Github地址下载该语料库):

played on Monday ( home team in CAPS ) :
VBD IN NNP ( NN NN IN NNP ) :
O O O O O O O O O O
American League
NNP NNP
B-MISC I-MISC
Cleveland 2 DETROIT 1
NNP CD NNP CD
B-ORG O B-ORG O
BALTIMORE 12 Oakland 11 ( 10 innings )
VB CD NNP CD ( CD NN )
B-ORG O B-ORG O O O O O
TORONTO 5 Minnesota 3
TO CD NNP CD
B-ORG O B-ORG O

简单介绍下该语料库的结构:该语料库一共42000行,每三行为一组,其中,第一行为英语句子,第二行为每个句子的词性(关于英语单词的词性,可参考文章:NLP入门(三)词形还原(Lemmatization)),第三行为NER系统的标注,具体的含义会在之后介绍。
  我们的NER项目的名称为DL_4_NER,结构如下:

项目中每个文件的功能如下:

  • utils.py: 项目配置及数据导入
  • data_processing.py: 数据探索
  • Bi_LSTM_Model_training.py: 模型创建及训练
  • Bi_LSTM_Model_predict.py: 对新句子进行NER预测

  接下来,笔者将结合代码文件,分部介绍该项目的步骤,当所有步骤介绍完毕后,我们的项目就结束了,而你,也就知道了如何用深度学习实现命名实体识别(NER)。
  Let’s begin!

项目配置

  第一步,是项目的配置及数据导入,在utils.py文件中实现,完整的代码如下:

# -*- coding: utf-8 -*-
import numpy as np
import pandas as pd# basic settings for DL_4_NER Project
BASE_DIR = "F://NERSystem"
CORPUS_PATH = "%s/train.txt" % BASE_DIRKERAS_MODEL_SAVE_PATH = '%s/Bi-LSTM-4-NER.h5' % BASE_DIR
WORD_DICTIONARY_PATH = '%s/word_dictionary.pk' % BASE_DIR
InVERSE_WORD_DICTIONARY_PATH = '%s/inverse_word_dictionary.pk' % BASE_DIR
LABEL_DICTIONARY_PATH = '%s/label_dictionary.pk' % BASE_DIR
OUTPUT_DICTIONARY_PATH = '%s/output_dictionary.pk' % BASE_DIRCONSTANTS = [KERAS_MODEL_SAVE_PATH,InVERSE_WORD_DICTIONARY_PATH,WORD_DICTIONARY_PATH,LABEL_DICTIONARY_PATH,OUTPUT_DICTIONARY_PATH]# load data from corpus to from pandas DataFrame
def load_data():with open(CORPUS_PATH, 'r') as f:text_data = [text.strip() for text in f.readlines()]text_data = [text_data[k].split('\t') for k in range(0, len(text_data))]index = range(0, len(text_data), 3)# Transforming data to matrix format for neural networkinput_data = list()for i in range(1, len(index) - 1):rows = text_data[index[i-1]:index[i]]sentence_no = np.array([i]*len(rows[0]), dtype=str)rows.append(sentence_no)rows = np.array(rows).Tinput_data.append(rows)input_data = pd.DataFrame(np.concatenate([item for item in input_data]),\columns=['word', 'pos', 'tag', 'sent_no'])return input_data

在该代码中,先是设置了语料库文件的路径CORPUS_PATH,KERAS模型保存路径KERAS_MODEL_SAVE_PATH,以及在项目过程中会用到的三个字典的保存路径(以pickle文件形式保存)WORD_DICTIONARY_PATH,LABEL_DICTIONARY_PATH, OUTPUT_DICTIONARY_PATH。然后是load_data()函数,它将语料库中的文本以Pandas中的DataFrame结构展示出来,该数据框的前30行如下:

         word  pos     tag sent_no
0      played  VBD       O       1
1          on   IN       O       1
2      Monday  NNP       O       1
3           (    (       O       1
4        home   NN       O       1
5        team   NN       O       1
6          in   IN       O       1
7        CAPS  NNP       O       1
8           )    )       O       1
9           :    :       O       1
10   American  NNP  B-MISC       2
11     League  NNP  I-MISC       2
12  Cleveland  NNP   B-ORG       3
13          2   CD       O       3
14    DETROIT  NNP   B-ORG       3
15          1   CD       O       3
16  BALTIMORE   VB   B-ORG       4
17         12   CD       O       4
18    Oakland  NNP   B-ORG       4
19         11   CD       O       4
20          (    (       O       4
21         10   CD       O       4
22    innings   NN       O       4
23          )    )       O       4
24    TORONTO   TO   B-ORG       5
25          5   CD       O       5
26  Minnesota  NNP   B-ORG       5
27          3   CD       O       5
28  Milwaukee  NNP   B-ORG       6
29          3   CD       O       6

在该数据框中,word这一列表示文本语料库中的单词,pos这一列表示该单词的词性,tag这一列表示NER的标注,sent_no这一列表示该单词在第几个句子中。

数据探索

  接着,第二步是数据探索,即对输入的数据(input_data)进行一些数据review,完整的代码(data_processing.py)如下:

# -*- coding: utf-8 -*-import pickle
import numpy as np
from collections import Counter
from itertools import accumulate
from operator import itemgetter
import matplotlib.pyplot as plt
import matplotlib as mpl
from utils import BASE_DIR, CONSTANTS, load_data# 设置matplotlib绘图时的字体
mpl.rcParams['font.sans-serif']=['SimHei']# 数据查看
def data_review():# 数据导入input_data = load_data()# 基本的数据reviewsent_num = input_data['sent_no'].astype(np.int).max()print("一共有%s个句子。\n"%sent_num)vocabulary = input_data['word'].unique()print("一共有%d个单词。"%len(vocabulary))print("前10个单词为:%s.\n"%vocabulary[:11])pos_arr = input_data['pos'].unique()print("单词的词性列表:%s.\n"%pos_arr)ner_tag_arr = input_data['tag'].unique()print("NER的标注列表:%s.\n" % ner_tag_arr)df = input_data[['word', 'sent_no']].groupby('sent_no').count()sent_len_list = df['word'].tolist()print("句子长度及出现频数字典:\n%s." % dict(Counter(sent_len_list)))# 绘制句子长度及出现频数统计图sort_sent_len_dist = sorted(dict(Counter(sent_len_list)).items(), key=itemgetter(0))sent_no_data = [item[0] for item in sort_sent_len_dist]sent_count_data = [item[1] for item in sort_sent_len_dist]plt.bar(sent_no_data, sent_count_data)plt.title("句子长度及出现频数统计图")plt.xlabel("句子长度")plt.ylabel("句子长度出现的频数")plt.savefig("%s/句子长度及出现频数统计图.png" % BASE_DIR)plt.close()# 绘制句子长度累积分布函数(CDF)sent_pentage_list = [(count/sent_num) for count in accumulate(sent_count_data)]# 寻找分位点为quantile的句子长度quantile = 0.9992#print(list(sent_pentage_list))for length, per in zip(sent_no_data, sent_pentage_list):if round(per, 4) == quantile:index = lengthbreakprint("\n分位点为%s的句子长度:%d." % (quantile, index))# 绘制CDFplt.plot(sent_no_data, sent_pentage_list)plt.hlines(quantile, 0, index, colors="c", linestyles="dashed")plt.vlines(index, 0, quantile, colors="c", linestyles="dashed")plt.text(0, quantile, str(quantile))plt.text(index, 0, str(index))plt.title("句子长度累积分布函数图")plt.xlabel("句子长度")plt.ylabel("句子长度累积频率")plt.savefig("%s/句子长度累积分布函数图.png" % BASE_DIR)plt.close()# 数据处理
def data_processing():# 数据导入input_data = load_data()# 标签及词汇表labels, vocabulary = list(input_data['tag'].unique()), list(input_data['word'].unique())# 字典列表word_dictionary = {word: i+1 for i, word in enumerate(vocabulary)}inverse_word_dictionary = {i+1: word for i, word in enumerate(vocabulary)}label_dictionary = {label: i+1 for i, label in enumerate(labels)}output_dictionary = {i+1: labels for i, labels in enumerate(labels)}dict_list = [word_dictionary, inverse_word_dictionary,label_dictionary, output_dictionary]# 保存为pickle形式for dict_item, path in zip(dict_list, CONSTANTS[1:]):with open(path, 'wb') as f:pickle.dump(dict_item, f)#data_review()

调用data_review()函数,输出的结果如下:

一共有13998个句子。一共有24339个单词。
前10个单词为:['played' 'on' 'Monday' '(' 'home' 'team' 'in' 'CAPS' ')' ':' 'American'].单词的词性列表:['VBD' 'IN' 'NNP' '(' 'NN' ')' ':' 'CD' 'VB' 'TO' 'NNS' ',' 'VBP' 'VBZ''.' 'VBG' 'PRP$' 'JJ' 'CC' 'JJS' 'RB' 'DT' 'VBN' '"' 'PRP' 'WDT' 'WRB''MD' 'WP' 'POS' 'JJR' 'WP$' 'RP' 'NNPS' 'RBS' 'FW' '$' 'RBR' 'EX' "''"'PDT' 'UH' 'SYM' 'LS' 'NN|SYM'].NER的标注列表:['O' 'B-MISC' 'I-MISC' 'B-ORG' 'I-ORG' 'B-PER' 'B-LOC' 'I-PER' 'I-LOC''sO'].句子长度及出现频数字典:
{1: 177, 2: 1141, 3: 620, 4: 794, 5: 769, 6: 639, 7: 999, 8: 977, 9: 841, 10: 501, 11: 395, 12: 316, 13: 339, 14: 291, 15: 275, 16: 225, 17: 229, 18: 212, 19: 197, 20: 221, 21: 228, 22: 221, 23: 230, 24: 210, 25: 207, 26: 224, 27: 188, 28: 199, 29: 214, 30: 183, 31: 202, 32: 167, 33: 167, 34: 141, 35: 130, 36: 119, 37: 105, 38: 112, 39: 98, 40: 78, 41: 74, 42: 63, 43: 51, 44: 42, 45: 39, 46: 19, 47: 22, 48: 19, 49: 15, 50: 16, 51: 8, 52: 9, 53: 5, 54: 4, 55: 9, 56: 2, 57: 2, 58: 2, 59: 2, 60: 3, 62: 2, 66: 1, 67: 1, 69: 1, 71: 1, 72: 1, 78: 1, 80: 1, 113: 1, 124: 1}.分位点为0.9992的句子长度:60.

在该语料库中,一共有13998个句子,比预期的42000/3=14000个句子少两个。一个有24339个单词,单词量还是蛮大的,当然,这里对单词没有做任何处理,直接保留了语料库中的形式(后期可以继续优化)。单词的词性可以参考文章:NLP入门(三)词形还原(Lemmatization)。我们需要注意的是,NER的标注列表为[‘O’ ,‘B-MISC’, ‘I-MISC’, ‘B-ORG’ ,‘I-ORG’, ‘B-PER’ ,‘B-LOC’ ,‘I-PER’, ‘I-LOC’,‘sO’],因此,本项目的NER一共分为四类:PER(人名),LOC(位置),ORG(组织)以及MISC,其中B表示开始,I表示中间,O表示单字词,不计入NER,sO表示特殊单字词。
  接下来,让我们考虑下句子的长度,这对后面的建模时填充的句子长度有有参考作用。句子长度及出现频数的统计图如下:


可以看到,句子长度基本在60以下,当然,这也可以在输出的句子长度及出现频数字典中看到。那么,我们是否可以选在一个标准作为后面模型的句子填充的长度呢?答案是,利用出现频数的累计分布函数的分位点,在这里,我们选择分位点为0.9992,对应的句子长度为60,如下图:

  接着是数据处理函数data_processing(),它的功能主要是实现单词、标签字典,并保存为pickle文件形式,便于后续直接调用。

建模

  在第三步中,我们建立Bi-LSTM模型来训练训练,完整的Python代码(Bi_LSTM_Model_training.py)如下:

# -*- coding: utf-8 -*-
import pickle
import numpy as np
import pandas as pd
from utils import BASE_DIR, CONSTANTS, load_data
from data_processing import data_processing
from keras.utils import np_utils, plot_model
from keras.models import Sequential
from keras.preprocessing.sequence import pad_sequences
from keras.layers import Bidirectional, LSTM, Dense, Embedding, TimeDistributed# 模型输入数据
def input_data_for_model(input_shape):# 数据导入input_data = load_data()# 数据处理data_processing()# 导入字典with open(CONSTANTS[1], 'rb') as f:word_dictionary = pickle.load(f)with open(CONSTANTS[2], 'rb') as f:inverse_word_dictionary = pickle.load(f)with open(CONSTANTS[3], 'rb') as f:label_dictionary = pickle.load(f)with open(CONSTANTS[4], 'rb') as f:output_dictionary = pickle.load(f)vocab_size = len(word_dictionary.keys())label_size = len(label_dictionary.keys())# 处理输入数据aggregate_function = lambda input: [(word, pos, label) for word, pos, label inzip(input['word'].values.tolist(),input['pos'].values.tolist(),input['tag'].values.tolist())]grouped_input_data = input_data.groupby('sent_no').apply(aggregate_function)sentences = [sentence for sentence in grouped_input_data]x = [[word_dictionary[word[0]] for word in sent] for sent in sentences]x = pad_sequences(maxlen=input_shape, sequences=x, padding='post', value=0)y = [[label_dictionary[word[2]] for word in sent] for sent in sentences]y = pad_sequences(maxlen=input_shape, sequences=y, padding='post', value=0)y = [np_utils.to_categorical(label, num_classes=label_size + 1) for label in y]return x, y, output_dictionary, vocab_size, label_size, inverse_word_dictionary# 定义深度学习模型:Bi-LSTM
def create_Bi_LSTM(vocab_size, label_size, input_shape, output_dim, n_units, out_act, activation):model = Sequential()model.add(Embedding(input_dim=vocab_size + 1, output_dim=output_dim,input_length=input_shape, mask_zero=True))model.add(Bidirectional(LSTM(units=n_units, activation=activation,return_sequences=True)))model.add(TimeDistributed(Dense(label_size + 1, activation=out_act)))model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])return model# 模型训练
def model_train():# 将数据集分为训练集和测试集,占比为9:1input_shape = 60x, y, output_dictionary, vocab_size, label_size, inverse_word_dictionary = input_data_for_model(input_shape)train_end = int(len(x)*0.9)train_x, train_y = x[0:train_end], np.array(y[0:train_end])test_x, test_y = x[train_end:], np.array(y[train_end:])# 模型输入参数activation = 'selu'out_act = 'softmax'n_units = 100batch_size = 32epochs = 10output_dim = 20# 模型训练lstm_model = create_Bi_LSTM(vocab_size, label_size, input_shape, output_dim, n_units, out_act, activation)lstm_model.fit(train_x, train_y, epochs=epochs, batch_size=batch_size, verbose=1)# 模型保存model_save_path = CONSTANTS[0]lstm_model.save(model_save_path)plot_model(lstm_model, to_file='%s/LSTM_model.png' % BASE_DIR)# 在测试集上的效果N = test_x.shape[0]  # 测试的条数avg_accuracy = 0  # 预测的平均准确率for start, end in zip(range(0, N, 1), range(1, N+1, 1)):sentence = [inverse_word_dictionary[i] for i in test_x[start] if i != 0]y_predict = lstm_model.predict(test_x[start:end])input_sequences, output_sequences = [], []for i in range(0, len(y_predict[0])):output_sequences.append(np.argmax(y_predict[0][i]))input_sequences.append(np.argmax(test_y[start][i]))eval = lstm_model.evaluate(test_x[start:end], test_y[start:end])print('Test Accuracy: loss = %0.6f accuracy = %0.2f%%' % (eval[0], eval[1] * 100))avg_accuracy += eval[1]output_sequences = ' '.join([output_dictionary[key] for key in output_sequences if key != 0]).split()input_sequences = ' '.join([output_dictionary[key] for key in input_sequences if key != 0]).split()output_input_comparison = pd.DataFrame([sentence, output_sequences, input_sequences]).Tprint(output_input_comparison.dropna())print('#' * 80)avg_accuracy /= Nprint("测试样本的平均预测准确率:%.2f%%." % (avg_accuracy * 100))model_train()

在上面的代码中,先是通过input_data_for_model()函数来处理好进入模型的数据,其参数为input_shape,即填充句子时的长度。然后是创建Bi-LSTM模型create_Bi_LSTM(),模型的示意图如下:


最后,是在输入的数据上进行模型训练,将原始的数据分为训练集和测试集,占比为9:1,训练的周期为10次。

模型训练

  运行上述模型训练代码,一共训练10个周期,训练时间大概为500s,在训练集上的准确率达99%以上,在测试集上的平均准确率为95%以上。以下是最后几个测试集上的预测结果:

......(前面的输出已忽略)
Test Accuracy: loss = 0.000986 accuracy = 100.00%0      1      2
0   Cardiff  B-ORG  B-ORG
1         1      O      O
2  Brighton  B-ORG  B-ORG
3         0      O      O
################################################################################1/1 [==============================] - 0s 10ms/step
Test Accuracy: loss = 0.000274 accuracy = 100.00%0      1      2
0  Carlisle  B-ORG  B-ORG
1         0      O      O
2      Hull  B-ORG  B-ORG
3         0      O      O
################################################################################1/1 [==============================] - 0s 9ms/step
Test Accuracy: loss = 0.000479 accuracy = 100.00%0      1      2
0    Chester  B-ORG  B-ORG
1          1      O      O
2  Cambridge  B-ORG  B-ORG
3          1      O      O
################################################################################1/1 [==============================] - 0s 9ms/step
Test Accuracy: loss = 0.003092 accuracy = 100.00%0      1      2
0  Darlington  B-ORG  B-ORG
1           4      O      O
2     Swansea  B-ORG  B-ORG
3           1      O      O
################################################################################1/1 [==============================] - 0s 8ms/step
Test Accuracy: loss = 0.000705 accuracy = 100.00%0      1      2
0       Exeter  B-ORG  B-ORG
1            2      O      O
2  Scarborough  B-ORG  B-ORG
3            2      O      O
################################################################################
测试样本的平均预测准确率:95.55%.

  该模型在原始数据上的识别效果还是可以的。
  训练完模型后,BASE_DIR中的所有文件如下:

模型预测

  最后,也许是整个项目最为激动人心的时刻,因为,我们要在新数据集上测试模型的识别效果。预测新数据的识别结果的完整Python代码(Bi_LSTM_Model_predict.py)如下:

# -*- coding: utf-8 -*-
# Name entity recognition for new data# Import the necessary modules
import pickle
import numpy as np
from utils import CONSTANTS
from keras.preprocessing.sequence import pad_sequences
from keras.models import load_model
from nltk import word_tokenize# 导入字典
with open(CONSTANTS[1], 'rb') as f:word_dictionary = pickle.load(f)
with open(CONSTANTS[4], 'rb') as f:output_dictionary = pickle.load(f)try:# 数据预处理input_shape = 60sent = 'New York is the biggest city in America.'new_sent = word_tokenize(sent)new_x = [[word_dictionary[word] for word in new_sent]]x = pad_sequences(maxlen=input_shape, sequences=new_x, padding='post', value=0)# 载入模型model_save_path = CONSTANTS[0]lstm_model = load_model(model_save_path)# 模型预测y_predict = lstm_model.predict(x)ner_tag = []for i in range(0, len(new_sent)):ner_tag.append(np.argmax(y_predict[0][i]))ner = [output_dictionary[i] for i in ner_tag]print(new_sent)print(ner)# 去掉NER标注为O的元素ner_reg_list = []for word, tag in zip(new_sent, ner):if tag != 'O':ner_reg_list.append((word, tag))# 输出模型的NER识别结果print("NER识别结果:")if ner_reg_list:for i, item in enumerate(ner_reg_list):if item[1].startswith('B'):end = i+1while end <= len(ner_reg_list)-1 and ner_reg_list[end][1].startswith('I'):end += 1ner_type = item[1].split('-')[1]ner_type_dict = {'PER': 'PERSON: ','LOC': 'LOCATION: ','ORG': 'ORGANIZATION: ','MISC': 'MISC: '}print(ner_type_dict[ner_type],\' '.join([item[0] for item in ner_reg_list[i:end]]))else:print("模型并未识别任何有效命名实体。")except KeyError as err:print("您输入的句子有单词不在词汇表中,请重新输入!")print("不在词汇表中的单词为:%s." % err)

输出结果为:

['New', 'York', 'is', 'the', 'biggest', 'city', 'in', 'America', '.']
['B-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O']
NER识别结果:
LOCATION:  New York
LOCATION:  America

  接下来,再测试三个笔者自己想的句子:

输入为:

sent = 'James is a world famous actor, whose home is in London.'

输出结果为:

['James', 'is', 'a', 'world', 'famous', 'actor', ',', 'whose', 'home', 'is', 'in', 'London', '.']
['B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O']
NER识别结果:
PERSON:  James
LOCATION:  London

输入为:

sent = 'Oxford is in England, Jack is from here.'

输出为:

['Oxford', 'is', 'in', 'England', ',', 'Jack', 'is', 'from', 'here', '.']
['B-PER', 'O', 'O', 'B-LOC', 'O', 'B-PER', 'O', 'O', 'O', 'O']
NER识别结果:
PERSON:  Oxford
LOCATION:  England
PERSON:  Jack

输入为:

sent = 'I love Shanghai.'

输出为:

['I', 'love', 'Shanghai', '.']
['O', 'O', 'B-LOC', 'O']
NER识别结果:
LOCATION:  Shanghai

在上面的例子中,只有Oxford的识别效果不理想,模型将它识别为PERSON,其实应该是ORGANIZATION。

  接下来是三个来自CNN和wikipedia的句子:

输入为:

sent = "the US runs the risk of a military defeat by China or Russia"

输出为:

['the', 'US', 'runs', 'the', 'risk', 'of', 'a', 'military', 'defeat', 'by', 'China', 'or', 'Russia']
['O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'B-LOC']
NER识别结果:
LOCATION:  US
LOCATION:  China
LOCATION:  Russia

输入为:

sent = "Home to the headquarters of the United Nations, New York is an important center for international diplomacy."

输出为:

['Home', 'to', 'the', 'headquarters', 'of', 'the', 'United', 'Nations', ',', 'New', 'York', 'is', 'an', 'important', 'center', 'for', 'international', 'diplomacy', '.']
['O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'O', 'B-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
NER识别结果:
ORGANIZATION:  United Nations
LOCATION:  New York

输入为:

sent = "The United States is a founding member of the United Nations, World Bank, International Monetary Fund."

输出为:

['The', 'United', 'States', 'is', 'a', 'founding', 'member', 'of', 'the', 'United', 'Nations', ',', 'World', 'Bank', ',', 'International', 'Monetary', 'Fund', '.']
['O', 'B-LOC', 'I-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'B-ORG', 'I-ORG', 'O', 'B-ORG', 'I-ORG', 'O', 'B-ORG', 'I-ORG', 'I-ORG', 'O']
NER识别结果:
LOCATION:  United States
ORGANIZATION:  United Nations
ORGANIZATION:  World Bank
ORGANIZATION:  International Monetary Fund

  这三个例子识别全部正确。

总结

  到这儿,笔者的这个项目就差不多了。我们有必要对这个项目做个总结。
  首先是这个项目的优点。它的优点在于能够让你一步步地实现NER,而且除了语料库,你基本熟悉了如何创建一个识别NER系统的步骤,同时,对深度学习模型及其应用也有了深刻理解。因此,好处是显而易见的。当然,在实际工作中,语料库的整理才是最耗费时间的,能够占到90%或者更多的时间,因此,有一个好的语料库你才能展开工作。
  接着讲讲这个项目的缺点。第一个,是语料库不够大,当然,约14000条句子也够了,但本项目没有对句子进行文本预处理,所以,有些单词的变形可能无法进入词汇表。第二个,缺少对新词的处理,一旦句子中出现一个新的单词,这个模型便无法处理,这是后期需要完善的地方。第三个,句子的填充长度为60,如果输入的句子长度大于60,则后面的部分将无法有效识别。
  因此,后续还有更多的工作需要去做,当然,做一个中文NER也是可以考虑的。
  本项目已上传Github,地址为 https://github.com/percent4/DL_4_NER 。:欢迎大家参考~

注意:本人现已开通微信公众号: Python爬虫与算法(微信号为:easy_web_scrape), 欢迎大家关注哦~~

参考文献

  1. BOOK: Applied Natural Language Processing with Python, Taweh Beysolow II
  2. WEBSITE:https://github.com/Apress/applied-natural-language-processing-w-python
  3. WEBSITE: NLP入门(四)命名实体识别(NER): https://www.jianshu.com/p/16e1f6a7aaef

NLP入门(五)用深度学习实现命名实体识别(NER)相关推荐

  1. 一文详解深度学习在命名实体识别(NER)中的应用

    近几年来,基于神经网络的深度学习方法在计算机视觉.语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展.在NLP的关键性基础任务-命名实体识别(Named Entity Recogni ...

  2. 自然语言处理(NLP)之用深度学习实现命名实体识别(NER)

    几乎所有的NLP都依赖一个强大的语料库,本项目实现NER的语料库如下(文件名为train.txt,一共42000行,这里只展示前15行,可以在文章最后的Github地址下载该语料库): played ...

  3. 用深度学习做命名实体识别(五)-模型使用

    通过本文,你将了解如何基于训练好的模型,来编写一个rest风格的命名实体提取接口,传入一个句子,接口会提取出句子中的人名.地址.组织.公司.产品.时间信息并返回. 核心模块entity_extract ...

  4. 基于深度学习的命名实体识别研究综述——论文研读

    基于深度学习的命名实体识别研究综述 摘要: 0引言 1基于深度学习的命名实体识别方法 1.1基于卷积神经网络的命名实体识别方法 1.2基于循环神经网络的命名实体识别方法 1.3基于Transforme ...

  5. 用深度学习做命名实体识别(四)——模型训练

    通过本文你将了解如何训练一个人名.地址.组织.公司.产品.时间,共6个实体的命名实体识别模型. 准备训练样本 下面的链接中提供了已经用brat标注好的数据文件以及brat的配置文件,因为标注内容较多放 ...

  6. 超详综述 | 基于深度学习的命名实体识别

    ©PaperWeekly 原创 · 作者|马敏博 单位|西南交通大学硕士生 研究方向|命名实体识别 论文名称:A Survey on Deep Learning for Named Entity Re ...

  7. bilstmcrf词性标注_深度学习--biLSTM_CRF 命名实体识别

    前文 中文分词.词性标注.命名实体识别是自然语言理解中,基础性的工作,同时也是非常重要的工作.在很多NLP的项目中,工作开始之前都要经过这三者中的一到多项工作的处理.在深度学习中,有一种模型可以同时胜 ...

  8. 用深度学习做命名实体识别(二):文本标注工具brat

    本篇文章,将带你一步步的安装文本标注工具brat. brat是一个文本标注工具,可以标注实体,事件.关系.属性等,只支持在linux下安装,其使用需要webserver,官方给出的教程使用的是Apac ...

  9. 【命名实体识别(NER)】(1):命名实体识别综述

    什么是命名实体识别? 命名实体识别(Named Entity Recognition,简称NER),又称作"专名识别",是自然语言处理中的一项基础任务,应用范围非常广泛.命名实体一 ...

最新文章

  1. 简单理解kafka---入门
  2. stk 坐标系_STK中文用户手册.pdf
  3. 游戏服务器端引擎——DogSE的设计
  4. springmvc过滤器简单实例
  5. P3501-[POI2010]ANT-Antisymmetry【hash,二分答案】
  6. sweetalert php,SweetAlert插件
  7. 全排列及相关扩展算法(七)——组合数的字典序(另含全章代码整理)
  8. Bootstrap翻页组件
  9. python爬虫实战(1)——爬取知乎热门回答图片
  10. docker 镜像命令
  11. 用C#把文件转换为XML
  12. linux系统文件系统个目录介绍,关于linux的文件系统目录详细介绍
  13. R与Python手牵手:特征工程(数值型变换)
  14. 地址总线、数据总线、控制总线详细解释
  15. Metasploit---端口扫描模块
  16. 学人工智能看什么书?AI入门书籍推荐
  17. Java版本微信授权登录(升级版)
  18. Java为什么需要数据类型
  19. 安卓动态修改系统状态栏背景和文字颜色,以及动态显示或隐藏系统状态栏
  20. 阿松嘚嘚嘚-数据库篇2-完美范式不完美

热门文章

  1. Android集成极光推送
  2. 原生JS实现小米轮播图和网易云轮播图
  3. ORB特征描述原理、python实现及基于opencv实现
  4. 泛微Ecology8.0浏览框详解
  5. 为什么不建议你用去 “! = null” 做判空?
  6. 为什么颤振不是下一件大事
  7. 没有一颗凑数镜头,拍照最佳的三款手机,均是影像机皇标准
  8. web使用openoffice实现在线预览office文档
  9. sql 删除数据库表内容
  10. What? 少儿编程语言Scratch被禁!