04.微博消息的语言检测
04.微博消息的语言检测
郑昀 201010 隶属于《02.数据解析》小节
大意是,封装Google语言检测ajax web service的接口,输入一段话,输出语言种类。这个方法是从RssMeme.com看来的,经测试效果还不错,可用于检测微博客消息的语言,如中文、日文、韩文等。但由于Google对过于频繁的请求会重置链接,所以提请注意,这个Web Service不适合大量密集请求提交。
一、简单示范
访问
http://ajax.googleapis.com/ajax/services/language/detect?v=1.0&q=hello+world
链接,你可以看到返回结果是一个json字符串:
{"responseData": {"language":"en","isReliable":false,"confidence":0.114892714}, "responseDetails": null, "responseStatus": 200}
记得加版本号参数:v=1.0,否则返回如下json:
{"responseData": null, "responseDetails": "invalid version", "responseStatus": 400}
二、如果是日文微博客消息呢?
举例,送去检测的微博客消息是:
RT @ufotable: 本日22時より星海社ウェブサイト「最前線」にて『坂本真綾の満月朗読館』第二夜『山月記』が 配信されます。第二夜の映像演出も弊社デジタル部が担当い… http://goo.gl/brJE
经过urlencode变换后,提交到Google,返回的结果是:
{"responseData": {"language":"ja","isReliable":true,"confidence":0.88555187}, "responseDetails": null, "responseStatus": 200}
这样用result['responseData']['language']就获得了语言的代号。
只要检查这个代号不是“zh-CN”,那么就不是中文语言了。
四、封装Google Language Detect Ajax Web Service
示范:
import urllib
import httplib2
try:
from base import easyjson
except:
pass
class Detect():
google_api_prefix = 'http://ajax.googleapis.com/ajax/services/language/detect'
def __init__(self, httplib2_inst=None):
"""从外可以传入httplib实例,便于在外部加设代理软件穿墙"""
self.http = httplib2_inst or httplib2.Http()
def post_sentence(self, q):
return self._fetch(
self.google_api_prefix,
{'v':"1.0",'q':q}
)
def _fetch(self, url, params):
request = url +"?"+ urllib.urlencode(params)
resp, content = self.http.request(request, "GET")
return easyjson.parse_json_func(content)
def detectZHCN(self, text):
"""输入文字如果检测到是zh-CN,返回True,否则返回False"""
data = self.post_sentence(text)['responseData']
if(data):
language = data['language']
if(language=='zh-CN'):
return True
return False
转载于:https://www.cnblogs.com/zhengyun_ustc/archive/2010/10/26/1860897.html
04.微博消息的语言检测相关推荐
- COLD:中文冒犯性语言检测数据集
写在前面 大家好,我是刘聪NLP. 祝大家新的一年,身体健康,代码无bug,论文全accepted. 早上刷arxiv时,发现一篇中文「冒犯性语言」检测数据集的论文,全名为<COLD: A Be ...
- java opennlp_OpenNLP中语言检测模型训练和模型的使用
因为项目的原因,需要使用到NLP的相关技术.语言检测模型cld3是python要与项目集成也不太方便,后来找到OpenNLP,发现它相对来说,对于亚洲的语言有一些支持. 下面是OpenNLP的训练相关 ...
- 04.卷积神经网络 W3.目标检测(作业:自动驾驶 - 汽车检测)
文章目录 1. 问题背景 2. YOLO 模型 2.1 模型细节 2.2 分类阈值过滤 2.3 非极大值抑制 2.4 完成过滤 3. 在照片上测试已预训练的YOLO模型 3.1 定义类别.anchor ...
- python实现多语言语种识别_用Python进行语言检测
最近正好碰到这个需求,总结一下用Python进行语言检测的方法. 1.用unicode编码检测 汉字.韩文.日文等都有对应的unicode字符集范围,只要用正则表达式匹配出来即可. 在判断的时候,往往 ...
- 【Elasticsearch】如何使用 Elasticsearch 6.2 搜索中文、日语和韩语文本 - 第 3 部分:语言检测工具
1.概述 翻译:https://www.elastic.co/cn/blog/how-to-search-ch-jp-kr-part-3 这是我有关中文.日语和韩语文本搜索的系列文章的第 3 部分.如 ...
- 基于微博的网络安全事件检测
第二届大数据安全与隐私保护学术会议于2019年7月13日至14日在兰州理工大学举行,会议对接互联网+.大数据安全.数字经济.人工智能.5G安全等国家发展战略,支撑大数据有序共享和隐私保护的产业应用,并 ...
- 易语言取c盘文件夹中的文件被占用,易语言检测文件被哪个进程占用的代码
易语言检测文件被哪个进程占用的代码 检测文件占用的代码 此功能需要加载贝贝吧模块6.6 .版本 2 .支持库 eAPI .程序集 窗口程序集_启动窗口 .子程序 _查询按钮_被单击 .局部变量 进程名 ...
- 谷歌量子计算机和九章知乎,量子计算机《九章》问世 知乎微博消息: 北京时间 12 月 4 日凌晨 3 点,一篇重要文章以 First Releas... - 雪球...
来源:雪球App,作者: 海阳拾贝,(https://xueqiu.com/8315885552/164948992) 量子计算机<九章>问世 知乎微博消息: 北京时间 12 月 4 日凌 ...
- 加密保护软件 WinLicense常见问题整理大全(九):在运行时选择WinLicense消息的语言
WinLicense具有和Themida同级别的保护功能以及授权管理功能.软件功能强大,使用灵活,开发者可以安全地发布软件的试用版和完全版. Q:我想知道是否可以在运行时选择WinLicense消息的 ...
最新文章
- 怎么把MySQL的数据传入JTable,如何直接从数据库中将数据填充到Jtable
- 基于Java的RDMA高性能通信库(五):JXIO
- 十字交叉链表c语言,C语言课程设计报告—十字交叉链表的应用.doc
- Kubernetes中Pod的生命周期
- git添加user及repository
- JavaScript不区分 '
- 小甲鱼python课后题007_[Python]小甲鱼Python视频第007-008课(了不起的分支和循环)课后题及参考解答...
- Qt中使用OpenSSL
- java for class_Java ObjectStreamClass forClass()方法与示例
- 大屏监控系统实战(12)-10分钟投票增量曲线制作(一)
- mysql用命令行创建表_mysql命令行创建表
- 解决算法问题的思路 —— 从问题描述到数学表达
- android rsa最大加密明文大小_Android 登录密码信息进行RSA加密示例
- 树莓派使用 python IIC 驱动 OLED 刷新率低问题与解决
- 一个有效的面试——善用STAR法则
- qq不能发说说显示服务器错误,qq为什么发送不成word服务器拒绝发送离线请求. - 卡饭网...
- 一文总结图像生成必备经典模型(二)
- 【编译问题】海思3559A编译问题 texi2dvi:命令找不到
- 绿卡日记:2020-12-28
- 区块链基础入门笔记 一
热门文章
- 全国计算机二级vfp知识点,全国计算机二级VFP知识点总结
- 笛卡尔积 php,PHP自定义函数生成笛卡尔积
- c语言n1=(n2=(n3=0)),计算机二级C语言考试选择题(带答案)
- php access token缓存,微信小程序PHP 生成access_token存入缓存
- java 获取 反射 方法 名_乐字节Java反射之一:反射概念与获取反射源头Class
- Python自动生成企业合同
- 机器学习(17)无监督学习 -- K-means算法与性能评估
- 【yolo目标检测】(1) yolov3,网络结构Darknet53,特征提取
- r语言 断轴 画图_R语言基础画图/绘图/作图
- OpenCV读写xml和yml文件