中文语料自动分词、标注词性工具

基于已有的第三方网站在线语料切分，分析其获取规则，制作的小小的工具

参数均为须标注的文章或字符串，返回值均为标注好词性的内容

链接如下：

语料库在线

传媒语言语料库在线分词标注系统

请合理使用，勿频繁使用它们的接口！

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import pymysql
import requests
import tracebackfrom lxml import etree"""
自动分词和词性标注
"""# 语料库在线
def get_words_zhonghuayuwen(old_str):try:data = {"__VIEWSTATE": "/wEPDwUKMTkxNjQxMjkxOGRk9/66aqWN3F0h8lvlZBxz3uN/OcjS8w7aTPcGVv1a3Jc=","__VIEWSTATEGENERATOR": "B992DC97","__EVENTVALIDATION": "/wEWBQKzsbS2CwK5lIXIBAKTmJvSBQK7q7GGCAKliMfhCycWhRFQfONu2k/cCxuzjQ7heJO8d2RWyCZOiS+faaOE","TBin": old_str,# "Button2": "重置","BT1": "自动分词&amp;标注词性","TBout": ""}cookies = {"safedog-flow-item": "",# "ASP.NET_SessionId": "azea2df0rrnzwyzbt1o2detw""ASP.NET_SessionId": ""}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",}result = requests.post('http://corpus.zhonghuayuwen.org/CpsWParser.aspx', data=data, cookies=cookies, headers=headers)selector = etree.HTML(result.text)t = selector.xpath('//*[@id="TBout"]/text()')if len(t[0]) > len(old_str):return t[0]else:return ""except BaseException as e:traceback.print_exc()return ""# 传媒语言语料库在线分词标注系统
def get_words_cuc_edu(old_str):"""使用固定的cookie访问对方服务器，先生成切分的相关信息，再求去另一个链接获取结果:param old_str: 需切分的字符串:return: 切分后的值，如切分失败，则返回 """""try:url = "http://ling.cuc.edu.cn/cucseg/"data = {"inputText": old_str,"mergeflag": "Merge",  # 细粒度 NotMerge"CateOption": "CateOne","CateSet": "CateSet_PKU",  # 北大"__VIEWSTATEGENERATOR": "2F03AC06","__EVENTVALIDATION": "/wEdAA2XBlrAenctEnRFS8xXzf6oUtYjgVic9VlzzV6C3Yw6HWK9YLSmwuh7cMftZMmFYep1Fa2hVO0mzKQ98ubp+dlvevIhDNyvshAzFCIkltU2faiwmaLGd4riX1glX/OCIWvHYiBC2I7LpwHqgiAWk5KO85pTRlXyJ29DlwQaO4HLDlaby0IY9gFdVynqGKYNG9wRCYCYrvJ3/wvbK0TQDiD0acOuqFV82Hf03hsNZIYy5364rc2Pa+QK6kiAwoGE5wESnpCbqqoGAZvwGZn0cUQOzYPghECYHysrOvPTK6g7UnWRAia77SScJaporBAq38A=","__VIEWSTATE": "/wEPDwUKLTE5ODQ1MDUyMA9kFgJmD2QWBgIXDw9kFgIeB29uY2xpY2sFFHJldHVybiBDbGVhcl9UZXh0KCk7ZAIZDw9kFgIfAAUZdGhpcy5mb3JtLnRhcmdldD0nX2JsYW5rJ2QCGw8PFgIeBFRleHQFBjE4ODY5N2RkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYNBQVNZXJnZQUITm90TWVyZ2UFCE5vdE1lcmdlBQdDYXRlT25lBQdDYXRlQWxsBQdDYXRlQWxsBQpjaGtBbGxDQ0FUBQhDYXRlTm91bgUIQ2F0ZU5vdW4FC0NhdGVTZXRfQ1VDBQtDYXRlU2V0X1BLVQULQ2F0ZVNldF9QS1UFB2Noa1dhcnBsn1HOQEyzwIsnnjhGS4iT/lr/ODqlSHztISFOSepRpg==","chkWarp": "on","btnSend": "切 分"}cookies = {"ASP.NET_SessionId": "5kl5zrm0seotqhwt4gscr3yy"}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",}requests.post(url=url, data=data, cookies=cookies, headers=headers, allow_redirects=True)result = requests.get('http://ling.cuc.edu.cn/cucseg/showResult.aspx', cookies=cookies)selector = etree.HTML(result.text)t = selector.xpath('//*[@id="tboxOutText"]/text()')if len(t[0]) > len(old_str):return t[0]else:print('error')return ""except BaseException as e:print(e.args)traceback.print_exc()return ""

中文语料自动分词、标注词性工具相关推荐

使用NLPIR 进行中文分词并标注词性
背景在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个 ...
python 分词工具训练_中文分词入门和分词工具汇总攻略
[注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...
使用gensim训练中文语料word2vec
使用gensim训练中文语料word2vec 目录使用gensim训练中文语料word2vec 1.项目目录结构 1.1 文件说明: 1.2 项目下载地址 2.使用jieba中文切词工具进行切词 2 ...
【python gensim使用】word2vec词向量处理中文语料
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...
word2vec python 代码实现_python gensim使用word2vec词向量处理中文语料的方法
word2vec介绍 word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离. 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出 ...
windows10 训练word2vec 中文语料
windows10 环境训练word2vec 中文语料参考这篇文章,但有自己体会概述本人是NLP中的菜鸟,喜欢这个领域,自己论文打算做这方面,训练word2vec是每一项NLP工作的基础内容. ...
（一）利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库
利用Wikipedia中文语料训练词向量一共分为两个篇章,这篇文章属于第一部分,包括下载Wikipedia语料库,并将其从繁体转换为简体. 目录第一步下载语料库第二步将下载好的bz2文件转换为 ...
【用户行为分析】用wiki百科中文语料训练word2vec模型
本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845 前言最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...
【自然语言处理NLP】中文语料整理【情感分析、文本分类、摘要、实体分析】
中文NLP语料整理新闻文本分类语料情感分析语料实体分析语料垃圾分类语料个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼. 有很多公开的语料,被他人收费,或要积分下载等等. 对平时开发 ...
wiki中文语料的word2vec模型构建
一.利用wiki中文语料进行word2vec模型构建 1)数据获取到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...

中文语料自动分词、标注词性工具

基于已有的第三方网站在线语料切分，分析其获取规则，制作的小小的工具

参数均为须标注的文章或字符串，返回值均为标注好词性的内容

中文语料自动分词、标注词性工具相关推荐

最新文章

热门文章

中文语料 自动分词、标注词性 工具

基于已有的第三方网站在线语料切分，分析其获取规则，制作的小小的工具

参数均为 须标注的文章或字符串，返回值均为 标注好词性的内容

中文语料 自动分词、标注词性 工具相关推荐

最新文章

热门文章

中文语料自动分词、标注词性工具

参数均为须标注的文章或字符串，返回值均为标注好词性的内容

中文语料自动分词、标注词性工具相关推荐