NLP——语料库信息提取和处理方法

本文以搜狗新闻语料为例，记录文本语料的收集、读取、处理等一整套的方法，主要是为了排排坑。

文章目录

NLP——语料库信息提取和处理方法
前言
一、语料下载
二、文件读取
- 1. 文件编码嗅探
- 2. 文件读取
- 3. 文件转码
三、文本内容提取

前言

文本语料的资源在网上有很多，主要的资源在这篇文章中的语料库部分有介绍和连接。
语料的收集处理主要包括以下环节（尽可能详尽）：
1）语料下载，在各个资源网站上找到对应分类的语料资源；
2）文件读取：文件的读取最要注意的一点就是编码形式，比如这个例子中搜狗新闻语料的文件的初始编码是中文gb18030（这里有坑，在下文对应章节细讲），对于小文件可以直接用notepad++打开后，进行转码，基本能够将各种编码文件转换成想要的编码形式，如果是超大文件，notepad++就无法打开了，这里我是采用python进行的转码；
3）转码后文件的清洗：从资源网站直接下载的语料资源，里面常常是带有很多无关信息的，比如这次例子中的搜狗新闻资源，其中还有很多的html文件的相关内容，需要对新闻文本内容进行进一步的精准提取，这里采用的是正则化匹配的方法；

一、语料下载

搜狗中文语料库
各模块的文本资源包括精简版和完整版，完整版的文件解压后会达到1G以上，实际中最好先下载精简版进行处理试验，没问题之后再对完整版的资源进行处理。

二、文件读取

notepad++读取转码的方式这里就不赘述了，基本的软件操作方法

1. 文件编码嗅探

在不确定文件的编码方式的时候，可以用以下方法进行文件编码方式的嗅探，python代码如下：

import chardet
with open(r"D:\DATAanalysis\NLP\yuliao\sougou_news_2012\news_sohusite_xml.smarty.dat", 'rb') as file:
print(chardet.detect(file.read()))

利用chardet的detect功能
上述代码返回的结果是：

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

意思是文件的编码方式是“GB2312”，置信度是0.99（并不完全，这就是坑）
可以看出文档中绝大多数的内容都能够按照GB2312的编码方式进行读取，但是对于少部分不匹配的内容，才是问题所在。
如果在open函数中，给erroes参数‘ignore’，则读取的文件就会出现少部分的乱码（根据我的对比观察，乱码主要出现在换行的位置），而不给‘ignore’读取文件就会报错，这个例子中，如果按照GB2312编码读取，就会出现上述问题。

解决方法：经过多轮测试，发现搜狗新闻资源如果用‘gb18030’编码进行读取就能够完全读取，对于中文编码，有GB2312 < GBK < gb18030，问题是编码嗅探给出GB2312的结果也是真坑啊。。。（应该是还不支持识别gb18030编码）

2. 文件读取

读取文件采用open函数，最好给出文件文件精确的编码形式，以防止出现乱码。
这里采用‘gb18030’编码进行读取，能够完整的读取文本文件。

with open(r"D:\DATAanalysis\NLP\yuliao\sougou_news_2012\news_sohusite_xml.smarty.dat", encoding='gb18030') as f:data = f.read().encode('gbk', 'ignore').decode('gbk')print(data)

3. 文件转码

with open(r"D:\DATAanalysis\NLP\yuliao\sougou_news_2012\full_souhu_news\news_sohusite_xml.dat", encoding='gb18030') as f:
#上面的地址是需要进行转码的文件地址，这一步是读取文件while True:#read函数中的数值代表的是读取速度，越大处理就越快，但是太大了电脑顶不住res = f.read(102400)if res:open(r"D:\DATAanalysis\NLP\yuliao\sougou_news_2012\full_souhu_news\res", 'a', encoding='utf-8', errors='ignore').write(res)#这个地址是转码后文件的存储地址else:break

三、文本内容提取

文本内容的提取主要就是根据文本内容的情况，指定正则规则，对目标内容就行匹配查找和提取，并导出到新的文件中。
这里搜狗新闻语料在转码后的初始文本内容形式如下：

<doc>
<url>http://gongyi.sohu.com/20120706/n347457739.shtml</url>
<docno>98590b972ad2f0ea-34913306c0bb3300</docno>
<contenttitle>深圳地铁将设立ＶＩＰ头等车厢　买双倍票可享坐票</contenttitle>
<content>南都讯　记者刘凡　周昌和　任笑一　继推出日票后，深圳今后将设地铁ＶＩＰ头等车厢，设坐票制。昨日，《南都ＭＥＴＲＯ》创刊仪式暨２０１２年深港地铁圈高峰论坛上透露，在未来的１１号线上将增加特色服务，满足不同消费层次的乘客的不同需求，如特设行李架的车厢和买双倍票可有座位坐的ＶＩＰ车厢等。论坛上，深圳市政府副秘书长、轨道交通建设办公室主任赵鹏林透露，地铁未来的方向将分等级，满足不同层次的人的需求，提供不同层次的有针对的服务。其中包括一些档次稍微高一些的服务。“我们要让公共交通也能满足档次稍高一些的服务”。比如，尝试有座位的地铁票服务。尤其是一些远道而来的乘客，通过提供坐票服务，让乘坐地铁也能享受到非常舒适的体验。他说，这种坐票的服务有望在地铁３期上实行，将加挂２节车厢以实施花钱可买座位的服务。“我们希望轨道交通和家里开的车一样，分很多种。”赵鹏林说，比如有些地铁是“观光线”，不仅沿途的风光非常好，还能凭一张票无数次上下，如同旅游时提供的“通票服务”。再比如，设立可以放大件行李的车厢，今后通过设专门可放大件行李的座位，避免像现在放行李不太方便的现象。“未来地铁初步不仅在干线上铺设，还会在支线、城际线上去建设。”“觉得如果车费不太贵的话，还是愿意考虑的。”昨日市民黄小姐表示，尤其是从老街到机场这一段，老街站每次上下客都很多人，而如果赶上上下班高峰期，特别拥挤，要一路从老街站站到机场，４０、５０分钟还是挺吃力的，宁愿多花点钱也能稍微舒适一点。但是白领林先生则表示，自己每天上下班都要坐地铁，出双倍车资买坐票费用有点高。</content>
</doc>

这里主要提取其中的两部分内容：
1）url中网站中所携带的新闻分类信息，如此处就是“gongyi”表示是公益新闻，作为拆分文件的名称，对超大文本文件进行分类拆分处理；
2）content中的文本内容；

import re
#读取文件，解码方式utf-8
init_text = open(r"D:\DATAanalysis\NLP\yuliao\sougou_news_2012\full_souhu_news\res", 'rb').read().decode('utf-8')#正则项匹配方法，re.S表示进行正则化匹配的时候，同时匹配空格、换行等特殊符号
pattern_match = re.compile(r'<url>(.*?)</url>', re.S)
content_match = re.compile(r'<content>(.*?)</content>', re.S)#目标内容提取，利用findall函数
classes = pattern_match.findall(init_text)
contents = content_match.findall(init_text)print("初始文本数：{}".format(len(contents)))#将文本内容总长度小于30的文本删除
#注意这里提取contents的长度信息时，采用的是.__len__()属性，而不是len()函数，且从右往左倒叙进行检查处理
#因为循环需要将长度较小的文本进行剔除，这个过程会改变contents的长度，所以不能简单使用len()函数
for i in range(contents.__len__())[::-1]:if len(contents[i]) < 30:contents.pop(i)classes.pop(i)
print("过滤后文本数：{}".format(len(contents)))#进一步提取url中的新闻类别信息，如http://roll.sohu.com/20120721/n348712775.shtml中的roll
patternClass = re.compile(r'http://(.*?).sohu', re.S)
for i in range(classes.__len__()):classi = patternClass.findall(classes[i])classes[i] = classi[0]#将处理后的文件保存到新的文本文件中
for i in range(classes.__len__()):file_path = "D:/DATAanalysis/NLP/yuliao/sougou_news_2012/news_sohusite_xml.full/" + classes[i] + ".txt"f = open(file_path, 'a+', encoding='utf-8')f.write(contents[i] + '\n')