我本人在做中文地址的分词算法的优化,为了获得尽量好的分词后的小样本,先后试验了中科院计算所的ICTCLAS、Python上的结巴分词、腾讯文智自然语言处理。因为结巴开源而且原理不复杂,代码可读性较强,因此我自己主要是在结巴的算法上进行修改。

腾讯的新手礼包是赠送了50000次API调用,小样本试验都不成问题,不过官网的文档是php版本的,因此参考网上的资料提供Python2.7版本,仅供参考。

# -*-coding=utf-8-*-from QcloudApi.qcloudapi import QcloudApi
import jsonif __name__ == "__main__":"""Wenzhi Interface Sample:https://wenzhi.api.qcloud.com/v2/index.php?Action=LexicalAnalysis&Nonce=345122&Region=sz&SecretId=AKIDz8krbsJ5yKBZQpn74WFkmLPx3gnPhESA&Timestamp=1408704141&Signature=HgIYOPcx5lN6gz8JsCFBNAWp2oQ&text=我爱洗澡&code=2097152"""module = "wenzhi"action = "LexicalAnalysis"config = {"Region": "sh","secretId": "**id**","secretKey": "**key**","method": "get"}params = {"text": "江苏省南京市玄武区玄武门街道峨嵋新村13幢","code": 0x00200000,"type": 0}try:service = QcloudApi(module, config)print service.generateUrl(action, params)s =  service.call(action, params)print sdejson =  json.loads(s)f = open("resp.txt", "w")f.write(u' '.join(w["word"] for w in dejson["tokens"]).encode('utf-8').strip())f.close()except Exception, e:print "exception:", e

主要参考了武汉2016马拉松和文智自然语言处理的官方文档。设置好configparamsparams注意coding必选,是编码方式,目前仅支持utf-8;type可选,为分词模式。就可以用官方的API发起调用,接收返回的json串。json的格式在官方文档中也有写,我只需要获得分词后的词,不需要位置、词性,所以直接join起来写入到文件中备用。

希望对大家有帮助。

腾讯文智自然语言处理-分词API Python小实验相关推荐

  1. 开发者实验室体验之文智自然语言处理SDK by python

    1. 前言 今天我们将对于腾讯的文智自然语言处理SDK进行一次体验. 2. 实验 2.1 实验准备 新手可以去文智管理平台领取5万次新手礼包,并创建一个新的API的公钥和私钥.(果然是腾讯,连这个都成 ...

  2. 腾讯文智自然语言处理介绍与情感分析API调用

    一.产品概述 文智中文语义开放平台是基于并行计算系统和分布式爬虫平台,结合独特的语义分析技术,一站式满足用户NLP.转码.抽取.全网数据抓取等中文语义分析需求的开放平台.用户能够基于平台对外提供的Op ...

  3. 推荐中文分词:腾讯文智

    2019独角兽企业重金招聘Python工程师标准>>> http://nlp.qq.com/semantic.cgi#page1 Help  http://nlp.qq.com/he ...

  4. 腾讯文智java近义词API_常用的分词组件或API,该怎么选型?

    做互联网系统 分词是必不可少的.除非咱不需要搜索.标签或者关键字分析等. 在网上看到的一个列表,不错,放出来给大家. 这里简单点评下:(我简单体验了几个,没有全部用,像搜狗之类的,看下名称我就不想用, ...

  5. 【文智背后的奥秘】系列篇——情感分类

    版权声明:本文由文智原创文章,转载请注明出处:  文章原文链接:https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qclou ...

  6. 【文智背后的奥秘】系列篇——结构化抽取平台

    版权声明:本文由文智原创文章,转载请注明出处:  文章原文链接:https://www.qcloud.com/community/article/91 来源:腾云阁 https://www.qclou ...

  7. 【文智背后的奥秘】系列篇——关键词智能提取

    2019独角兽企业重金招聘Python工程师标准>>> 版权声明:本文由文智原创文章,转载请注明出处:  文章原文链接:https://www.qcloud.com/communit ...

  8. 【直击DTCC】自然语言技术在文智趋势分析产品的应用

    2017年5月11日-13日,2017中国数据库技术大会于北京国际会议中心盛大开幕.作为国内最受关注的数据库技术大会,本届大会以"数据驱动·价值发现"为主题,汇集多个领域的百余位专 ...

  9. 技术控 | 自然语言技术在文智趋势分析产品上的应用

    点击上方"蓝字"可以关注我们哦 田兰 腾讯云产品经理 嘉宾简介: 腾讯云公众趋势分析服务产品经理.从事多年数据服务应用产品设计. 自然语言技术在文智趋势分析产品上的应用 议题简介: ...

最新文章

  1. ThinkPad T420更换SSD实录
  2. Spring Boot thymeleaf模版支持,css,js等静态文件添加
  3. Golang 解决unsupported protocol scheme问题
  4. Inspector a ProgressBar(定制属性面板)
  5. python微信加人_Python帮你微信头像任意添加装饰,别再@微信官方了_编程语言_python考试视频_python教程_课课家...
  6. 电脑技巧:Win10无线投屏功能介绍
  7. 命令行调用VS编译器
  8. python比较数据工具_Python模拟数据工具哪些比较好用
  9. java_Swing桌面程序开发
  10. 计算机基础ppt_「考前秘笈」2020年3月份计算机二级MS-office考试重点
  11. 程序设计基础(c语言)(第3版)课后习题答案
  12. 量子通信技术、量子加密技术
  13. APP测试和web测试有什么区别?
  14. sql根据身份证计算年龄
  15. 一文通透优化算法:从随机梯度、随机梯度下降法到牛顿法、共轭梯度
  16. 腾讯python招聘_技术 | Python:腾讯招聘信息抓取
  17. VM-CentOS7.6-启动时assuming drive cache:write through
  18. java连接云服务Hadoop伪分布式错误:Call From LAPTOP-14BPR3NI/192.168.1.2 to node1:9000 failed on connection
  19. 信息安全技术实验PGP邮件加密系统工具下载过程记录
  20. 人家出轨你为什么那么嗨

热门文章

  1. PHP+Mysql 实现最简单的注册登录
  2. 数位dp算法——洛谷p1980
  3. 往日学习=【iptables实验part3-搭建简单蜜罐网络】
  4. 小酷智慧地图3D导览v1.0.82 打卡定位 地图打卡
  5. 肠道菌群与睡眠的双向桥接
  6. 从实例来看DAO:权力分散的伟大尝试
  7. 平面设计常见的配色方案及色标
  8. linux命令 ln命令 ln -s命令
  9. 3-2-1 程序控制结构-while循环结构-多次求解一元二次方程?-while循环常见错误?
  10. 浙师大数学与计算机科学学院,王维凡 - 浙江师范大学 - 数学与计算机科学学院...