【5】使用结巴分词对分类语料库分词

转自 NLP论坛 http://www.threedweb.cn/thread-1295-1-1.html
工作空间（workspace）路径：X:\WorkSpace\text_mining
X为Windows硬盘盘符
项目主目录：

text_mining

    |-- text_corpus_small 目录：未分词训练语料库路径，子目录名称为语料库的分类，该类所属文本就位于子目录中           |-- text_corpust_pos 目录：预处理后训练语料库路径，子目录名称为语料库的分类，处理后文本就位于子目录中|-- text_corpus_segment 目录：分好词后的训练分类语料库路径，子目录名称为语料库的分类，分词后文本就位于子目录中|-- text_corpus_wordbag 目录：训练语料库与词包存放路径|-- train_set.data 文件：训练语料库持久化文件|-- word_bag.data 文件：词包持久化文件|-- jieba_example.py 文件：结巴分词测试文件|-- corpus_segment.py 文件：分类语料分词执行文件    |-- corpus_prepos.py 文件 : 文本预处理执行文件|-- train_bags.py 文件 : 整合并持久化训练语料库|-- tf-idf.py 文件 : 计算训练集的Tf-idf权重，并持久化为词包文件

预处理阶段的业务流程：

1. 使用 corpus_prepos.py 对 text_corpus_small 文本进行预处理：1）去掉不相关的header，footer，以及其他注释信息2）去除文本分行标志"\r\n"等，合并为一个段落3）处理好的文件放入到 text_corpust_pos 目录下，目录结构与 text_corpus_small 相同2. 使用 corpus_segment.py 对 text_corpust_pos 内文本进行分词，分词后文件存入text_corpus_segment目录下，目录结构不变3. 使用 train_bags.py 对 text_corpust_pos 内文本打包，打包后文件存入 text_corpus_wordbag 目录下，文件名为：train_set.data4. 使用 tf-idf.py 对 train_set.data 中的数据计算训练集的Tf-idf权重，并持久词包文件 ，文件名为：word_bag.data

原始语料类别集：该类别集就是 text_corpus_small 子目录的列表

分词前样例文件:

《北京市实施<中华人民共和国道路交通安全法>办法》已于2005年1月1日正式实施，1月25日全国春运工作也即将开始，北京交管部门将以新办法实施为契机，于1月份全面开展交通秩序整顿工作，为春运及春节的到来创造良好的交通环境。　　据了解，这次交通秩序整顿以实现“两个确保”为主要目标，即：确保重点地区及主要大街、路口交通秩序良好，动、静态交通违法行为得到有效管控；确保城区内主要道路拥堵有所缓解，影响道路畅通和城市环境面貌的突出问题得到有效治理。　　交管部门整顿的重点地区有天安门、前门等地区及秩序管理精品街和停车秩序管理示范街，包括四站一场（北京站、西客站、南站、北站、机场）及外埠长途客运场站；城区、郊区主要联络线，城镇主要大街及放射线公路，春运主要路线。还有群众反映强烈、“122”接报警集中的交通拥堵、秩序混乱点段也被列入整顿重点地区。　　交管部门对违法车种、违法行为依据新交法进行整顿并处罚。　　根据各交通支队管界违法行为特点及春运期间路面交通状况，以大小公共汽车、出租车、长途客车、大货车、“摩的”、残疾人专用车、非机动车和行人等“七车一人”为重点开展整顿。除继续加大对路口非机动车、行人乱穿乱行和路段乱停车交通违法行为的管理力度之外，还要持续加强对禁限车种的控制管理。各交通支、大队以管界模范、优秀、良好路口和秩序管理精品街、停车规范街（区）为重点，采取流动巡逻民警、定岗执勤民警、清障车及交通协管员四位一体的管理模式，加强对路口、路段非机动车、行人及乱停车违法行为的管理整顿，并充分利用多种宣传手段，营造严管氛围和整顿声势，确保主要大街交通秩序出现明显改观。同时以人力客、货运三轮车及残疾车为管理重点，对违法进入管制区域的人力客、货运三轮车发现一辆处罚一辆；近郊支队要以控制“摩的”、“农、马、拖”及货运机动车进入管制区域为主，加大执法力度，特别是对二、三、四环之间及四环路外围相关道路要加强管控，对进入管制区域的车辆严格处罚，进一步净化市区交通秩序环境。　　远郊各支、大队将结合管界实际和春运期间路面交通状况，以预防和减少交通事故为目标，分阶段开展治理整顿。春运前（截至1月20日）以城镇主要道路和国道、市道、山区公路为主，对客货运车辆、农用车、拖拉机、摩托车等存在严重交通安全隐患车种及安全性能不合格车辆加强排查、整治，同时密切配合城、近郊区做好禁限车辆的卡口工作；春运期间要以国市道和春运路线为重点，对客货运车辆超员载客、站外揽客、非法停车、不按规定车道行驶、非法超车、疲劳驾驶以及过境外埠大型车辆违法行为依法严格处罚。　　据悉，这次交通秩序整顿仍然坚持多警联动、捆绑式执法方式，对天安门、前门等繁华地区以及“四站一场”等交通枢纽周边道路加强管理，重点整治违法占路摊商、车行道内兜售物品、机动车乱停乱放以及三轮车、“摩的”等违法行为。　　对于货运车辆管理，将充分利用高科技手段对车辆和驾驶员档案进行比对核查，及时发现机动车不按期年检、达到报废标准仍上路行驶以及驾驶员不按规定年审等违法行为，依法严格处罚。　　1月份全市将集中夜查整顿，既要查处酒后开车、非司机开车、机动车遇停止信号通过路口及机动车无牌照上路行驶等严重违法行为，也要对货运车辆不按规定车道行驶、禁限车种驶入禁行区域等违法行为严格处罚。（江静）
复制代码

corpus_segment.py 代码如下：

# -*- coding: utf-8 -*-import sys
import os
import jieba# 配置utf-8输出环境
reload(sys)
sys.setdefaultencoding('utf-8')
# 分类语料库路径
corpus_path = "text_corpus_small"+"/"
# 分词后分类语料库路径
seg_path = "text_corpus_segment"+"/"# 获取corpus_path下的所有子目录
dir_list = os.listdir(corpus_path)# 获取每个目录下所有的文件
for mydir in dir_list:class_path = corpus_path+mydir+"/" # 拼出分类子目录的路径file_list = os.listdir(class_path)  # 获取class_path下的所有文件for file_path in file_list:   # 遍历所有文件file_name = class_path + file_path  # 拼出文件名全路径file_read = open(file_name, 'rb')   # 打开一个文件raw_corpus = file_read.read()       # 读取未分词语料seg_corpus = jieba.cut(raw_corpus)  # 结巴分词操作#拼出分词后语料分类目录seg_dir = seg_path+mydir+"/"  if not os.path.exists(seg_dir):    #如果没有创建os.makedirs(seg_dir) file_write = open ( seg_dir + file_path, 'wb' ) #创建分词后语料文件，文件名与未分词语料相同file_write.write(" ".join(seg_corpus))  #用空格将分词结果分开并写入到分词后语料文件中file_read.close()  #关闭打开的文件file_write.close()  #关闭写入的文件print "中文语料分词成功完成！！！"
复制代码
corpus_path：未分类语料库路径
seg_path ：分好词后的分类语料库路径

输出结果:

Building Trie..., from C:\Python27\lib\site-packages\jieba\dict.txt
loading model from cache c:\users\jackycaf\appdata\local\temp\jieba.cache
loading model cost 2.61299991608 seconds.
Trie has been built succesfully.
中文语料分词成功完成！！！

分词后语料类别集：该类别集就是 text_corpus_segment 子目录的列表：

类别集相同：
文词后样例文件

《 北京市 实施 < 中华人民共和国 道路交通 安全法 > 办法 》 已于 2005 年 1 月 1 日 正式 实施 ， 1 月 25 日 全国 春运 工作 也 即将 开始 ， 北京 交管部门 将 以 新 办法 实施 为 契机 ， 于 1 月份 全面 开展 交通秩序 整顿 工作 ， 为 春运 及 春节 的 到来 创造 良好 的 交通 环境 。 　 　 据 了解 ， 这次 交通秩序 整顿 以 实现 “ 两个 确保 ” 为 主要 目标 ， 即 ： 确保重点 地区 及 主要 大街 、 路口 交通秩序 良好 ， 动 、 静态 交通 违法行为 得到 有效 管控 ； 确保 城区 内 主要 道路 拥堵 有所 缓解 ， 影响 道路 畅通 和 城市 环境 面貌 的 突出 问题 得到 有效 治理 。 　 　 交管部门 整顿 的 重点 地区 有 天安门 、 前门 等 地区 及 秩序 管理 精品 街 和 停车 秩序 管理 示范街 ， 包括 四站 一场 （ 北京站 、 西客站 、 南站 、 北站 、 机场 ） 及 外埠 长途 客运 场站 ； 城区 、 郊区 主要 联络线 ， 城镇 主要 大街 及 放射线 公路 ， 春运 主要 路线 。 还有 群众反映 强烈 、 “ 122 ” 接 报警 集中 的 交通拥堵 、 秩序 混乱 点段 也 被 列入 整顿 重点 地区 。 　 　 交管部门 对 违法 车 种 、 违法行为 依据 新交法 进行 整顿 并 处罚 。 　 　 根据 各 交通 支队 管界 违法行为 特点 及 春运期间 路面 交通状况 ， 以 大小 公共汽车 、 出租车 、 长途客车 、 大 货车 、 “ 摩 的 ” 、 残疾人 专用车 、 非机动车 和 行人 等 “ 七车 一人 ” 为 重点 开展 整顿 。 除 继续 加大 对 路口 非机动车 、 行人 乱穿 乱行 和 路段 乱 停车 交通 违法行为 的 管理 力度 之外 ， 还要 持续 加强 对 禁限车种 的 控制 管理 。 各 交通 支 、 大队 以 管界 模范 、 优秀 、 良好 路口 和 秩序 管理 精品 街 、 停车 规范 街 （ 区 ） 为 重点 ， 采取 流动 巡逻 民警 、 定岗 执勤 民警 、 清障车 及 交通 协管员 四位一体 的 管理模式 ， 加强 对 路口 、 路段 非机动车 、 行人 及乱 停车 违法行为 的 管理 整顿 ， 并 充分利用 多种 宣传 手段 ， 营造 严管 氛围 和 整顿 声势 ， 确保 主要 大街 交通秩序 出现 明显 改观 。 同时 以 人力 客 、 货运 三轮车 及 残疾 车为 管理 重点 ， 对 违法 进入 管制 区域 的 人力 客 、 货运 三轮车 发现 一辆 处罚 一辆 ； 近郊 支队 要 以 控制 “ 摩 的 ” 、 “ 农 、 马 、 拖 ” 及 货运 机动车 进入 管制 区域 为主 ， 加大 执法 力度 ， 特别 是 对 二 、 三 、 四环 之间 及 四环路 外围 相关 道路 要 加强 管控 ， 对 进入 管制 区域 的 车辆 严格 处罚 ， 进一步 净化 市区 交通秩序 环境 。 　 　 远郊 各支 、 大队 将 结合 管界 实际 和 春运期间 路面 交通状况 ， 以 预防 和 减少 交通事故 为 目标 ， 分阶段 开展 治理整顿 。 春运 前 （ 截至 1 月 20 日 ） 以 城镇 主要 道路 和 国道 、 市 道 、 山区 公路 为主 ， 对 客货运 车辆 、 农用车 、 拖拉机 、 摩托车 等 存在 严重 交通 安全隐患 车种 及 安全 性能 不 合格 车辆 加强 排查 、 整治 ， 同时 密切配合 城 、 近郊区 做好 禁限 车辆 的 卡口 工作 ； 春运期间 要 以国市 道 和 春运 路线 为 重点 ， 对 客货运 车辆 超员 载客 、 站外 揽客 、 非法 停车 、 不 按规定 车道 行驶 、 非法 超车 、 疲劳 驾驶 以及 过境 外埠 大型 车辆 违法行为 依法 严格 处罚 。 　 　 据悉 ， 这次 交通秩序 整顿 仍然 坚持 多警 联动 、 捆绑式 执法 方式 ， 对 天安门 、 前门 等 繁华 地区 以及 “ 四站 一场 ” 等 交通枢纽 周边 道路 加强 管理 ， 重点 整治 违法 占路 摊商 、 车行道 内 兜售 物品 、 机动车 乱 停 乱放 以及 三轮车 、 “ 摩 的 ” 等 违法行为 。 　 　 对于 货运 车辆管理 ， 将 充分利用 高科技 手段 对 车辆 和 驾驶员 档案 进行 比对 核查 ， 及时发现 机动车 不 按期 年检 、 达到 报废 标准 仍 上路 行驶 以及 驾驶员 不 按规定 年 审 等 违法行为 ， 依法 严格 处罚 。 　 　 1 月份 全市 将 集中 夜查 整顿 ， 既 要 查处 酒后 开车 、 非 司机 开车 、 机动车 遇 停止 信号 通过 路口 及 机动车 无 牌照 上路 行驶 等 严重 违法行为 ， 也 要 对 货运 车辆 不 按规定 车道 行驶 、 禁限车种 驶入 禁行 区域 等 违法行为 严格 处罚 。 （ 江静 ）

【5】使用结巴分词对分类语料库分词相关推荐

NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(1) | 词向量one hot编码词向量编码思想分词的概念简单来说就是把词进行分开,分词的难点: 1.如何避免歧义,如:"白开水不如果汁甜".如何让机器避免将" ...
利用结巴和WordCloud进行中文分词及图云绘制入门
摘要:利用结巴分词对文本进行分词,并获取高频的关键词,之后对关键词绘制图云. 语言:python 库:jieba wordcloud python下中文的分词好多人推荐了"结巴" ...
Python 结巴分词（1）分词
利用结巴分词来进行词频的统计,并输出到文件中. 结巴分词github地址:结巴分词结巴分词的特点: 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析: 全模式,把句子中所有的可以成 ...
大二文本分词过滤分类实验总结
这次作业的内容是给定一个体育分类测试文档和体育分类训练文档,以体育分类训练文档为训练集,体育分类测试文档为测试集,选择一种特征选择算法对训练集样本进行特征选择:选择一种文本分类算法对训练集样本进行文本 ...
中文分词多领域语料库
中文分词多领域语料库数据处理各位NLPer,大家好! 如果你还在从事中文分词领域的相关研究,你一定会发现,随着时间推移,中文分词的研究越来越少,BERT出现后,以字为粒度的方法盛行,有关中文分词的 ...
python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)
在采集中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...
jieba结巴分词--关键词抽取_jieba分词的原理（文末有维特比算法讲解）
前言实习期间在做一个专利分析的项目,用到了文本处理的方法,大部分文本分析类的项目应该都离不开分词这个最基础的操作吧,我在做项目之前,在网上找了一些例子,搞清楚分词的代码处理流程,就直接在我的项目里用 ...
中文文本分类语料库-TanCorpV1.0
转自 http://www.360doc.com/content/12/0216/21/3430376_187198503.shtml 中文文本分类语料库-TanCorpV1.0 谭松波,王月粉 1 ...
python统计词频瓦尔登湖_自然语言处理之中文分词器－jieba分词器详解及python实战...
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

【5】使用结巴分词对分类语料库分词

【5】使用结巴分词对分类语料库分词相关推荐

最新文章

热门文章