04.微博消息的语言检测

郑昀 201010 隶属于《02.数据解析》小节

大意是,封装Google语言检测ajax web service的接口,输入一段话,输出语言种类。这个方法是从RssMeme.com看来的,经测试效果还不错,可用于检测微博客消息的语言,如中文、日文、韩文等。但由于Google对过于频繁的请求会重置链接,所以提请注意,这个Web Service不适合大量密集请求提交。

一、简单示范

访问
http://ajax.googleapis.com/ajax/services/language/detect?v=1.0&q=hello+world
链接,你可以看到返回结果是一个json字符串:
{"responseData": {"language":"en","isReliable":false,"confidence":0.114892714}, "responseDetails": null, "responseStatus": 200}

记得加版本号参数:v=1.0,否则返回如下json:
{"responseData": null, "responseDetails": "invalid version", "responseStatus": 400}

二、如果是日文微博客消息呢?

举例,送去检测的微博客消息是:

RT @ufotable: 本日22時より星海社ウェブサイト「最前線」にて『坂本真綾の満月朗読館』第二夜『山月記』が 配信されます。第二夜の映像演出も弊社デジタル部が担当い… http://goo.gl/brJE

经过urlencode变换后,提交到Google,返回的结果是:

{"responseData": {"language":"ja","isReliable":true,"confidence":0.88555187}, "responseDetails": null, "responseStatus": 200}

这样用result['responseData']['language']就获得了语言的代号。
只要检查这个代号不是“zh-CN”,那么就不是中文语言了。

四、封装Google Language Detect Ajax Web Service

示范:
import urllib
import httplib2
try:
    from base import easyjson
except:
    pass

class Detect():
    google_api_prefix = 'http://ajax.googleapis.com/ajax/services/language/detect'
    def __init__(self, httplib2_inst=None):
        """从外可以传入httplib实例,便于在外部加设代理软件穿墙"""
        self.http = httplib2_inst or httplib2.Http()
    def post_sentence(self, q):
        return self._fetch(
            self.google_api_prefix,
            {'v':"1.0",'q':q}
            )
    def _fetch(self, url, params):
        request = url +"?"+ urllib.urlencode(params)
        resp, content = self.http.request(request, "GET")
        return easyjson.parse_json_func(content)

def detectZHCN(self, text):
        """输入文字如果检测到是zh-CN,返回True,否则返回False"""
        data = self.post_sentence(text)['responseData']
        if(data):
            language = data['language']
            if(language=='zh-CN'):
                return True
        return False

转载于:https://www.cnblogs.com/zhengyun_ustc/archive/2010/10/26/1860897.html

04.微博消息的语言检测相关推荐

  1. COLD:中文冒犯性语言检测数据集

    写在前面 大家好,我是刘聪NLP. 祝大家新的一年,身体健康,代码无bug,论文全accepted. 早上刷arxiv时,发现一篇中文「冒犯性语言」检测数据集的论文,全名为<COLD: A Be ...

  2. java opennlp_OpenNLP中语言检测模型训练和模型的使用

    因为项目的原因,需要使用到NLP的相关技术.语言检测模型cld3是python要与项目集成也不太方便,后来找到OpenNLP,发现它相对来说,对于亚洲的语言有一些支持. 下面是OpenNLP的训练相关 ...

  3. 04.卷积神经网络 W3.目标检测(作业:自动驾驶 - 汽车检测)

    文章目录 1. 问题背景 2. YOLO 模型 2.1 模型细节 2.2 分类阈值过滤 2.3 非极大值抑制 2.4 完成过滤 3. 在照片上测试已预训练的YOLO模型 3.1 定义类别.anchor ...

  4. python实现多语言语种识别_用Python进行语言检测

    最近正好碰到这个需求,总结一下用Python进行语言检测的方法. 1.用unicode编码检测 汉字.韩文.日文等都有对应的unicode字符集范围,只要用正则表达式匹配出来即可. 在判断的时候,往往 ...

  5. 【Elasticsearch】如何使用 Elasticsearch 6.2 搜索中文、日语和韩语文本 - 第 3 部分:语言检测工具

    1.概述 翻译:https://www.elastic.co/cn/blog/how-to-search-ch-jp-kr-part-3 这是我有关中文.日语和韩语文本搜索的系列文章的第 3 部分.如 ...

  6. 基于微博的网络安全事件检测

    第二届大数据安全与隐私保护学术会议于2019年7月13日至14日在兰州理工大学举行,会议对接互联网+.大数据安全.数字经济.人工智能.5G安全等国家发展战略,支撑大数据有序共享和隐私保护的产业应用,并 ...

  7. 易语言取c盘文件夹中的文件被占用,易语言检测文件被哪个进程占用的代码

    易语言检测文件被哪个进程占用的代码 检测文件占用的代码 此功能需要加载贝贝吧模块6.6 .版本 2 .支持库 eAPI .程序集 窗口程序集_启动窗口 .子程序 _查询按钮_被单击 .局部变量 进程名 ...

  8. 谷歌量子计算机和九章知乎,量子计算机《九章》问世 知乎微博消息: 北京时间 12 月 4 日凌晨 3 点,一篇重要文章以 First Releas... - 雪球...

    来源:雪球App,作者: 海阳拾贝,(https://xueqiu.com/8315885552/164948992) 量子计算机<九章>问世 知乎微博消息: 北京时间 12 月 4 日凌 ...

  9. 加密保护软件 WinLicense常见问题整理大全(九):在运行时选择WinLicense消息的语言

    WinLicense具有和Themida同级别的保护功能以及授权管理功能.软件功能强大,使用灵活,开发者可以安全地发布软件的试用版和完全版. Q:我想知道是否可以在运行时选择WinLicense消息的 ...

最新文章

  1. 怎么把MySQL的数据传入JTable,如何直接从数据库中将数据填充到Jtable
  2. 基于Java的RDMA高性能通信库(五):JXIO
  3. 十字交叉链表c语言,C语言课程设计报告—十字交叉链表的应用.doc
  4. Kubernetes中Pod的生命周期
  5. git添加user及repository
  6. JavaScript不区分 '
  7. 小甲鱼python课后题007_[Python]小甲鱼Python视频第007-008课(了不起的分支和循环)课后题及参考解答...
  8. Qt中使用OpenSSL
  9. java for class_Java ObjectStreamClass forClass()方法与示例
  10. 大屏监控系统实战(12)-10分钟投票增量曲线制作(一)
  11. mysql用命令行创建表_mysql命令行创建表
  12. 解决算法问题的思路 —— 从问题描述到数学表达
  13. android rsa最大加密明文大小_Android 登录密码信息进行RSA加密示例
  14. 树莓派使用 python IIC 驱动 OLED 刷新率低问题与解决
  15. 一个有效的面试——善用STAR法则
  16. qq不能发说说显示服务器错误,qq为什么发送不成word服务器拒绝发送离线请求. - 卡饭网...
  17. 一文总结图像生成必备经典模型(二)
  18. 【编译问题】海思3559A编译问题 texi2dvi:命令找不到
  19. 绿卡日记:2020-12-28
  20. 区块链基础入门笔记 一

热门文章

  1. 全国计算机二级vfp知识点,全国计算机二级VFP知识点总结
  2. 笛卡尔积 php,PHP自定义函数生成笛卡尔积
  3. c语言n1=(n2=(n3=0)),计算机二级C语言考试选择题(带答案)
  4. php access token缓存,微信小程序PHP 生成access_token存入缓存
  5. java 获取 反射 方法 名_乐字节Java反射之一:反射概念与获取反射源头Class
  6. Python自动生成企业合同
  7. 机器学习(17)无监督学习 -- K-means算法与性能评估
  8. 【yolo目标检测】(1) yolov3,网络结构Darknet53,特征提取
  9. r语言 断轴 画图_R语言基础画图/绘图/作图
  10. OpenCV读写xml和yml文件