基于已有的第三方网站在线语料切分,分析其获取规则,制作的小小的工具

参数均为 须标注的文章或字符串,返回值均为 标注好词性的内容

链接如下:

语料库在线

传媒语言语料库在线分词标注系统

请合理使用,勿频繁使用它们的接口!

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import pymysql
import requests
import tracebackfrom lxml import etree"""
自动分词和词性标注
"""# 语料库在线
def get_words_zhonghuayuwen(old_str):try:data = {"__VIEWSTATE": "/wEPDwUKMTkxNjQxMjkxOGRk9/66aqWN3F0h8lvlZBxz3uN/OcjS8w7aTPcGVv1a3Jc=","__VIEWSTATEGENERATOR": "B992DC97","__EVENTVALIDATION": "/wEWBQKzsbS2CwK5lIXIBAKTmJvSBQK7q7GGCAKliMfhCycWhRFQfONu2k/cCxuzjQ7heJO8d2RWyCZOiS+faaOE","TBin": old_str,# "Button2": "重置","BT1": "自动分词&标注词性","TBout": ""}cookies = {"safedog-flow-item": "",# "ASP.NET_SessionId": "azea2df0rrnzwyzbt1o2detw""ASP.NET_SessionId": ""}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",}result = requests.post('http://corpus.zhonghuayuwen.org/CpsWParser.aspx', data=data, cookies=cookies, headers=headers)selector = etree.HTML(result.text)t = selector.xpath('//*[@id="TBout"]/text()')if len(t[0]) > len(old_str):return t[0]else:return ""except BaseException as e:traceback.print_exc()return ""# 传媒语言语料库在线分词标注系统
def get_words_cuc_edu(old_str):"""使用固定的cookie访问对方服务器,先生成切分的相关信息,再求去另一个链接获取结果:param old_str: 需切分的字符串:return: 切分后的值,如切分失败,则返回 """""try:url = "http://ling.cuc.edu.cn/cucseg/"data = {"inputText": old_str,"mergeflag": "Merge",  # 细粒度 NotMerge"CateOption": "CateOne","CateSet": "CateSet_PKU",  # 北大"__VIEWSTATEGENERATOR": "2F03AC06","__EVENTVALIDATION": "/wEdAA2XBlrAenctEnRFS8xXzf6oUtYjgVic9VlzzV6C3Yw6HWK9YLSmwuh7cMftZMmFYep1Fa2hVO0mzKQ98ubp+dlvevIhDNyvshAzFCIkltU2faiwmaLGd4riX1glX/OCIWvHYiBC2I7LpwHqgiAWk5KO85pTRlXyJ29DlwQaO4HLDlaby0IY9gFdVynqGKYNG9wRCYCYrvJ3/wvbK0TQDiD0acOuqFV82Hf03hsNZIYy5364rc2Pa+QK6kiAwoGE5wESnpCbqqoGAZvwGZn0cUQOzYPghECYHysrOvPTK6g7UnWRAia77SScJaporBAq38A=","__VIEWSTATE": "/wEPDwUKLTE5ODQ1MDUyMA9kFgJmD2QWBgIXDw9kFgIeB29uY2xpY2sFFHJldHVybiBDbGVhcl9UZXh0KCk7ZAIZDw9kFgIfAAUZdGhpcy5mb3JtLnRhcmdldD0nX2JsYW5rJ2QCGw8PFgIeBFRleHQFBjE4ODY5N2RkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYNBQVNZXJnZQUITm90TWVyZ2UFCE5vdE1lcmdlBQdDYXRlT25lBQdDYXRlQWxsBQdDYXRlQWxsBQpjaGtBbGxDQ0FUBQhDYXRlTm91bgUIQ2F0ZU5vdW4FC0NhdGVTZXRfQ1VDBQtDYXRlU2V0X1BLVQULQ2F0ZVNldF9QS1UFB2Noa1dhcnBsn1HOQEyzwIsnnjhGS4iT/lr/ODqlSHztISFOSepRpg==","chkWarp": "on","btnSend": "切 分"}cookies = {"ASP.NET_SessionId": "5kl5zrm0seotqhwt4gscr3yy"}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",}requests.post(url=url, data=data, cookies=cookies, headers=headers, allow_redirects=True)result = requests.get('http://ling.cuc.edu.cn/cucseg/showResult.aspx', cookies=cookies)selector = etree.HTML(result.text)t = selector.xpath('//*[@id="tboxOutText"]/text()')if len(t[0]) > len(old_str):return t[0]else:print('error')return ""except BaseException as e:print(e.args)traceback.print_exc()return ""

中文语料 自动分词、标注词性 工具相关推荐

  1. 使用NLPIR 进行中文分词并标注词性

    背景 在许多时候为了更好的解析文本,我们不仅仅需要将文本分词,去停这么简单,除了获取关键词与新词汇以外,我们还需要对获取每个粒度的其他信息,比如词性标注,在python中NLPIR就可以很好的完成这个 ...

  2. python 分词工具训练_中文分词入门和分词工具汇总攻略

    [注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...

  3. 使用gensim训练中文语料word2vec

    使用gensim训练中文语料word2vec 目录 使用gensim训练中文语料word2vec 1.项目目录结构 1.1 文件说明: 1.2 项目下载地址 2.使用jieba中文切词工具进行切词 2 ...

  4. 【python gensim使用】word2vec词向量处理中文语料

    word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间 ...

  5. word2vec python 代码实现_python gensim使用word2vec词向量处理中文语料的方法

    word2vec介绍 word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离. 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出 ...

  6. windows10 训练word2vec 中文语料

    windows10 环境 训练word2vec 中文语料 参考这篇文章,但有自己体会 概述 本人是NLP中的菜鸟,喜欢这个领域,自己论文打算做这方面,训练word2vec是每一项NLP工作的基础内容. ...

  7. (一)利用Wikipedia中文语料训练词向量word2vec——获取Wikipedia简体中文语料库

    利用Wikipedia中文语料训练词向量一共分为两个篇章,这篇文章属于第一部分,包括下载Wikipedia语料库,并将其从繁体转换为简体. 目录 第一步 下载语料库 第二步 将下载好的bz2文件转换为 ...

  8. 【用户行为分析】 用wiki百科中文语料训练word2vec模型

    本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845  前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

  9. 【自然语言处理NLP】中文语料整理【情感分析、文本分类、摘要、实体分析】

    中文NLP语料整理 新闻文本分类语料 情感分析语料 实体分析语料 垃圾分类语料 个人开发在做很多NLP相关任务的时候,语料的寻找十分头疼. 有很多公开的语料,被他人收费,或要积分下载等等. 对平时开发 ...

  10. wiki中文语料的word2vec模型构建

    一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...

最新文章

  1. 2022-2028年中国农副产品行业市场供需规模及未来前景分析报告
  2. 提高工作效率,请收下这8个神器
  3. android webview腾讯,Android webview无法播放腾讯视频问题
  4. grub安装的 三种安装方式
  5. linux tomcat apr安装,Linux下Tomcat8.0.44配置使用Apr的方法
  6. 和 VMware、深信服、天翼云、招商云专家一起聊聊云原生边缘计算
  7. 浅析Java.lang.Runtime类
  8. Spring注入方法
  9. 子界类型的定义和应用
  10. html检查输入为空,html input输入验证不为空
  11. 【youcans 的 OpenCV 例程 200 篇】104. 运动模糊退化模型
  12. 激光器安规详细解读 - 一级 - 并以940波长为例
  13. Python标准库random用法精要
  14. python开发直播网站_开发直播网站源码的三种计算机语言
  15. Java覆盖率模拟protected,单元测试覆盖率-使用Clover
  16. win7 java修复工具哪个好_DLL修复工具哪个好
  17. 根据屏幕大小动态设置字体rem
  18. opencv-python傅里叶变换以及逆变换
  19. rockchip rk3566 android11 网口log报错: DMA engine initialization failed
  20. 关于大家下载我的上传资源问题

热门文章

  1. win10安装马上6的问题
  2. win+ubuntu系统引导修复
  3. Gephi从入门到精通
  4. POJ - 2718 Smallest Difference
  5. 优雅使用百度云进行表格OCR识别(python版)
  6. 经典算法——五大常用算法
  7. modbus测试plc软件,MODBUS RTU设备测试调试工具官方版
  8. 终于解决了!Windows 10打开SecoClient 提示网络扩展启动失败
  9. 物流配送软件测试,物流配送最优路径规划
  10. Java 发送邮件工具类(多个收件人,多个抄送人)