成语json_人工智能测试爬百度成语测成语接龙
点击关注,我们共同每天进步一点点!
前言
本意,昨晚想发一文,在梳理思路找笔记一小半时,一朋友跟伴侣吵架了,突然从技术写文转变到情感“砖家”,微信聊了一个多小时,脑力都用光了,早上开会上传了一下调整后的代码,中午补一下文,完成既定目标。
一、起因
去年在测试公司的人工智能产品中的一功能【成语接龙】,人工语音测试总玩不过【琥珀】小姐姐,叹自身知识匮乏、小琥珀之刁钻;
于是乎,网络找了几个成语数据库,找了几个现成的API,弄成自动化跑的时,自信满满时,【琥珀】却找出大量的非四字成语;
脏数据太多,很有挫败感,于是另谋出路,百度成语相对靠谱,就你了,本文为很简单的测试,主要看测试思路。
二、百度成语HTML解析
2.1、浏览器打开百度成语
https://hanyu.baidu.com/s?wd=成语
2.2、分析HTML与规律
步骤:1、正常请求--》2、抓包分析--》3、模拟请求--》不成功---》4、抓包对比分析
所有基本就是循环以上步骤直至成功为止(反爬另说,主要是变换请求信息,伪装不同的用户请求)。
2.2.1)、正常请求:略
2.2.2)、抓包分析
实操如下,很容易就找到规律,图1图2一对比,就可以找到变化的内容
请求地址:https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn=页数&_=点击时间戳
说明:忽略cookie,实测不需要,也没有反爬机制,但本文还是会保存cookie请求
数据标签分析
将抓包的数据,拷贝,在线Json格式化,可以得到比较好看的结构:
json数据解析,得知一页20个成语,自己所需要信息结构如下:
成语:ret_array[x].name
拼音:ret_array[x].pinyin
总页数:extra.total-page
2.2.3)、模拟请求
- [工具请求]-初步成功,可以编写脚本了
这一步只是防止蒙头写脚本,分析不到位,瞎整半天啥的。
3、编写脚本(模拟请求)
1 # -*- coding: utf-8 -*- 2 """ 3 @author: findyou 4 @contact: albert.peng@foxmail.com 5 @version: 1.0 6 @license: Apache Licence 7 @file: get_idiom_from_baidu.py 8 @time: 2018/10/21 20:35 9 """ 10 11 __author__ = 'albert' 12 __version__ = '1.0' 13 14 import json 15 import sqlite3 16 17 import os 18 import requests 19 import socket 20 import time 21 import sys 22 23 # 总页数,直接手动,不去获取了 24 page_count = 1546 25 26 # 组装请求头 27 header = { 28 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8', 29 'Accept-Encoding': 'gzip, deflate, sdch', 30 'Accept-Language': 'zh-CN,zh;q=0.9', 31 'Connection': 'keep-alive', 32 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36' 33 } 34 # 默认数据库 35 db_filename = 'idiom.sqlite3' 36 37 38 def get_idiom_data(start_pagenum=1, end_pagenum=10, all=False): 39 ''' 40 爬取百度成语数据,解析并保存到数据到数据库 41 :param start_pagenum: 默认从第1页开始 42 :param end_pagenum: 默认第10页结束 43 ''' 44 global page_count, header 45 46 # 统计成语条数 47 idiom_count = 0 48 # 进度条 49 page_num = 0 50 get_url = 'https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn={}&_={}'.format(1, int(round(time.time() * 1000))) 51 52 # 获取全部成语 53 if all: 54 end_pagenum = page_count 55 56 for i in range(start_pagenum, end_pagenum + 1): 57 # 连接数据库 58 conn = sqlite3.connect(db_filename) 59 cursor = conn.cursor() 60 61 # 当前时间戳 62 # t = int(round(time.time() * 1000)) 63 # 模拟请求获取json数据 64 try: 65 # 自动保存cookie 66 s = requests.session() 67 header['Referrer'] = get_url 68 69 # 百度 ajax 成语请求API 70 get_url = 'https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn={}&_={}'.format(i, int(round(time.time() * 1000))) 71 72 # 模拟请求 73 result = s.get(get_url, headers=header) 74 # 判断请求是否成功 75 if result.status_code == 200: 76 res = json.loads(result.text) 77 page_count = res['extra']['total-page'] 78 # 得到返回的成语 79 for a in range(len(res['ret_array'])): 80 txt = res['ret_array'][a] 81 # 条数递增 82 idiom_count += 1 83 84 # 目前只需:成语、拼音 85 name = (get_vaule(txt, 'name'))[0].strip() 86 pinyin = (get_vaule(txt, 'pinyin'))[0].strip() 87 pinyin_list = pinyin.split(" ") 88 89 # 例句 90 # liju = get_vaule(txt, 'liju')[0] 91 # 出处 92 # tmp = get_vaule(txt, 'source')[0] 93 # if len(tmp) > 0: 94 # source = tmp.replace('"', '').replace("'", "").replace('\n', '') 95 # else: 96 # source = '' 97 # 同义词 98 # get_vaule(txt, 'synonym') 99 # tmp = get_vaule(txt, 'term_synonym')100 # if len(tmp) > 0:101 # synonym = tmp102 # else:103 104 # ID,成语,拼音,成语首字,尾字,首拼,尾拼105 cursor.execute(106 'insert into IDIOM (ID,NAME,PINYIN,NAMEF,NAMEL,PINYINF,PINYINL) values (NULL,"%s","%s","%s","%s","%s","%s")' %107 (name, pinyin, name[0], name[len(name) - 1], pinyin_list[0], pinyin_list[len(pinyin_list) - 1]))108 else:109 print("获取数据失败:第"+i+"页")110 except requests.exceptions.ConnectTimeout as e:111 print("http请求超时!" + str(e))112 except socket.timeout as e:113 print("请求超时! " + str(e))114 except socket.error as e:115 print("请求错误!" + str(e))116 finally:117 # 每获取一页,保存一次118 cursor.close()119 conn.commit()120 conn.close()121 # 进度条122 page_num += 1123 view_bar(page_num, end_pagenum)124 print('\n本次爬取[百度成语] : 第 ' + str(start_pagenum) + ' 至 ' +125 str(end_pagenum) + ' 页,共计 ' + str(idiom_count) + ' 条')126 127 def view_bar(num, total):128 '''进度条'''129 rate = num / total130 rate_num = int(rate * 100)131 # r = '\r %d%%' %(rate_num)132 r = '\r[%s>] %d%%' % ('=' * rate_num, rate_num)133 sys.stdout.write(r)134 sys.stdout.flush135 136 137 def get_vaule(idiom_dict, key_vaule):138 if key_vaule in idiom_dict.keys():139 return idiom_dict[key_vaule]140 else:141 return [' ']142 143 144 def init_db(filename=db_filename):145 '''146 如果数据库不存在,自动在当前目录创建idiom.sqlite3:147 '''148 if not os.path.exists(filename):149 conn = sqlite3.connect(filename)150 # 创建一个Cursor:151 cursor = conn.cursor()152 # 建表ID 自增长key153 cursor.execute(154 'CREATE TABLE IDIOM (ID INTEGER PRIMARY KEY AUTOINCREMENT, NAME VARCHAR(100),NAMEF VARCHAR(10),NAMEL VARCHAR(10),\155 PINYIN VARCHAR(100),PINYINF VARCHAR(10),PINYINL VARCHAR(10))')156 # 关闭Cursor:157 cursor.close()158 # 提交事务:159 conn.commit()160 # 关闭Connection:161 conn.close()162 163 164 if __name__ == '__main__':165 # 初始化数据库166 init_db()167 168 # 获取1-10页的数据,数据库只会往里一直加数据,未做去重,所以以下三个方式,用最后一种。169 # get_idiom_data()170 171 # 获取x-x页的数据172 # get_idiom_data(start_pagenum=10,end_pagenum=30)173 174 # 获取所有数据175 get_idiom_data(all=True)
执行> python get_idiom_from_baidu.py
[====================================================================================================>] 100%本次爬取[百度成语] : 第 1 至 1546 页,共计 30875 条
源码:https://github.com/findyou/idiom_from_baidu
4、存在的问题
1、本脚本没有应对反爬虫机制(但实测不需要)
简单方案:请求头收集一堆,list随机取值
完整一点:代理IP+请求头list
2、保存数据较少,需要完整的成语数据
解析你想要的数据:第88行 -- 102行间
数据库增加你想要的字段:第154行 -- 155行
增加要保存的数据:第106行 -- 107行
3、成语数据不全
再爬其他成语库补充
4、单线程,速度慢
自已解决一下
三、自动化测试(接口层)
1、成语接龙游戏
正接,即接的成语的前一个字和问的成语的最后一个字一致(同字或同音都可),目前【琥珀】只支持正接中的尾首同字
2、自动化简单方案
识别【琥珀】说的成语,判断是否成语
如是成语,取其【尾字】,在数据库中获取【首字】一样的成语列表,随机给出一个成语继续。
不是成语,记录
说明:所以第二部分爬取成语只需保存数据:成语,首字,尾字
3、测试结果
正常用例-自动测试结果:
4、问题
1、如何做语音自动化方案?
其实主要测试逻辑一样,只需要多解决自动化用例TTS播报,被测的ASR(或文本)获取。
2、这自动化只是一个简单的功能测试,无法达到智能测试的效果?
对的,此方案仅覆盖的是成语的正确性;
趣味性、情感化等回复的语料,可人工标注或者其他方案。
原文地址:https://www.cnblogs.com/findyou/p/9828221.html
喜欢请关注,有用请转发~
升职、加薪、无漏测-点“在看”
成语json_人工智能测试爬百度成语测成语接龙相关推荐
- python爬取文本中的成语_python正则表达式抓取成语网站
#anthor jiqunpeng #time 20121124 import urllib import re def getHtml(url): #从URL中读取html内容 page = url ...
- 深度丨走向人工智能时代,百度的延承和蜕变
从百度发布了2017年财报来看,总营收达到848亿元(约合130.3亿美元),较2016财年增长20%:移动营收在百度2017财年总营收中占比为73%,高于2016财年的63%.业已爬出谷底,走向顶峰 ...
- python成语填空_python一步一步解析成语
做NLPproject时需要一个成语库,我需要的是纯成语,网上找的都是有详细解释的.于是自己写了一个爬成语的python程序. 1.首先找到一个在线成语网站 我选的网站是http://chengyu. ...
- 登什么求什么的成语(登什么求什么四字成语大全)
登什么求什么的成语(登什么求什么四字成语大全) 登木求鱼: 登:攀:木:树.爬到树上找鱼.比喻方向.方法不对,无法达到目的. 推荐阅读:廖姓起名 男孩起名 公司取名字 工业铝型材 佛山铝型材
- apache并发测试工具ab为什么测不准
apache并发测试工具ab为什么测不准 发表于2年前(2013-03-21 12:13) 阅读(1146) | 评论(1) 1人收藏此文章, 我要收藏 赞0 3月21日 深圳 OSC 源创会正在 ...
- 人工智能测试是什么意思_测试工程师必须懂这些
阿里妹导读:近几年人工智能.机器学习等词漫天遍地,似乎有一种无AI,无研发,无AI,无测试的感觉.有人说:不带上"智能"二字,都不好意思说自己是创新.我们先暂且不评论对错,只探讨这 ...
- 孙高飞:人工智能测试_高飞学习钓鱼:为什么好的文档很重要
孙高飞:人工智能测试 无论您从事哪种类型的项目,都不能指望用户自己完全理解它. 那就是文档的来源.文档可以是任何东西,从简单的过程到详尽的用户故事. 当然,Web UI有时可以说出自己的话(最好的话) ...
- 后端接口都测试什么?怎么测?
点击关注公众号,实用技术文章及时了解 来源:cnblogs.com/puresoul/p/5388586.html 本文主要分为两个部分: 第一部分: 主要从问题出发,引入接口测试的相关内容并与前端测 ...
- 后端服务接口都在测试什么?怎么测?
本文主要分为两个部分: 第一部分: 主要从问题出发,引入接口测试的相关内容并与前端测试进行简单对比,总结两者之前的区别与联系.但该部分只交代了怎么做和如何做?并没有解释为什么要做? 第二部分: 主要介 ...
最新文章
- 026_元素执行函数
- sentinel 官方文档_SpringCloud网关聚合Swagger接口文档实践
- better-scroll 上拉加载,下拉刷新(解决移动端长页面卡顿)
- .NET体系中的源程序安全问题
- 折半查找和二叉排序树的时间性能_leecode刷题----二分搜索与二叉查找(排序)树...
- 《 Docker 技术入门与实战 》读书笔记 ( CentOS 安装 Docker )
- HDOJ水题集合2:最短路(Dijkstra)
- bzoj 3380: [Usaco2004 Open]Cave Cows 1 洞穴里的牛之一(状压+BFS)
- 暗黑启示录bt版java下载,Transmission搭建BT下载服务器
- YAML和JSON对比
- 蓝桥杯应该参加吗?如何准备蓝桥杯?
- 百度竞价后台操作技巧
- Windows文件搜索工具(文件、文件夹、文件内容搜索,支持大小写、全字、正则表达式搜索条件)
- 弱水三千,只取一瓢。
- Python的函数理解外传
- 紫罗兰永恒花园rust简谱_Sincerely钢琴谱_TRUE_紫罗兰永恒花园OP
- Strick mode 和Trace View使用
- Mysql错误Error writing file ‘/home/tmp/xxxx’ (Errcode: 28)的解决方法
- 中国煤矿机械行业市场动态调研及未来发展方向分析报告2022-2028年
- 笑死:Welcome to Skip Thompson's Homepage
热门文章
- 【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches
- IO模型(epoll)--详解-01
- SpringCloud03 Ribbon知识点、 Feign知识点、利用RestTemplate+Ribbon调用远程服务提供的资源、利用feign调用远程服务提供的资源、熔断...
- 用VB.NET(Visual Basic 2010)封装EXCEL VBA为DLL_COM组件(二)
- AJAX Control Toolkit 控件学习(转自csdn山巅)
- 4.3.6无分类编址CIDR(构成超网)
- 4.1.2电路交换、报文交换与分组交换
- 数据结构与算法——二叉树与图
- Unity3D-InstantOC遮挡剔除
- Leetcode--494. 目标和