前言

本意,昨晚想发一文,在梳理思路找笔记一小半时,一朋友跟伴侣吵架了,突然从技术写文转变到情感“砖家”,微信聊了一个多小时,脑力都用光了,早上开会上传了一下调整后的代码,中午补一下文,完成既定目标。

一、起因

去年在测试公司的人工智能产品中的一功能【成语接龙】,人工语音测试总玩不过【琥珀】小姐姐,叹自身知识匮乏、小琥珀之刁钻;

于是乎,网络找了几个成语数据库,找了几个现成的API,弄成自动化跑的时,自信满满时,【琥珀】却找出大量的非四字成语;

脏数据太多,很有挫败感,于是另谋出路,百度成语相对靠谱,就你了,本文为很简单的测试,主要看测试思路。

二、百度成语HTML解析

2.1、浏览器打开百度成语

https://hanyu.baidu.com/s?wd=成语

2.2、分析HTML与规律

步骤: 1、正常请求--》2、抓包分析--》3、模拟请求--》不成功---》4、抓包对比分析

所有基本就是循环以上步骤直至成功为止(反爬另说,主要是变换请求信息,伪装不同的用户请求)。

2.2.1)、正常请求:略

2.2.2)、抓包分析

实操如下,很容易就找到规律,图1图2一对比,就可以找到变化的内容

  • 请求地址:https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn=页数&_=点击时间戳

说明:忽略cookie,实测不需要,也没有反爬机制,但本文还是会保存cookie请求

  • 数据标签分析

将抓包的数据,拷贝,在线Json格式化,可以得到比较好看的结构:

json数据解析,得知一页20个成语,自己所需要信息结构如下:

成语:ret_array[x].name

拼音:ret_array[x].pinyin

总页数:extra.total-page

2.2.3)、模拟请求

  • [工具请求]-初步成功,可以编写脚本了

这一步只是防止蒙头写脚本,分析不到位,瞎整半天啥的。

3、编写脚本(模拟请求)

  1 # -*- coding: utf-8 -*-
  2 """
  3 @author: findyou
  4 @contact: albert.peng@foxmail.com
  5 @version: 1.0
  6 @license: Apache Licence
  7 @file: get_idiom_from_baidu.py
  8 @time: 2018/10/21 20:35
  9 """
 10
 11 __author__ = 'albert'
 12 __version__ = '1.0'
 13
 14 import json
 15 import sqlite3
 16
 17 import os
 18 import requests
 19 import socket
 20 import time
 21 import sys
 22
 23 # 总页数,直接手动,不去获取了
 24 page_count = 1546
 25
 26 # 组装请求头
 27 header = {
 28     'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 29     'Accept-Encoding': 'gzip, deflate, sdch',
 30     'Accept-Language': 'zh-CN,zh;q=0.9',
 31     'Connection': 'keep-alive',
 32     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36'
 33 }
 34 # 默认数据库
 35 db_filename = 'idiom.sqlite3'
 36
 37
 38 def get_idiom_data(start_pagenum=1, end_pagenum=10, all=False):
 39     '''
 40       爬取百度成语数据,解析并保存到数据到数据库
 41       :param start_pagenum: 默认从第1页开始
 42       :param end_pagenum: 默认第10页结束
 43       '''
 44     global page_count, header
 45
 46     # 统计成语条数
 47     idiom_count = 0
 48     # 进度条
 49     page_num = 0
 50     get_url = 'https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn={}&_={}'.format(1, int(round(time.time() * 1000)))
 51
 52     # 获取全部成语
 53     if all:
 54         end_pagenum = page_count
 55
 56     for i in range(start_pagenum, end_pagenum + 1):
 57         # 连接数据库
 58         conn = sqlite3.connect(db_filename)
 59         cursor = conn.cursor()
 60
 61         # 当前时间戳
 62         # t = int(round(time.time() * 1000))
 63         # 模拟请求获取json数据
 64         try:
 65             # 自动保存cookie
 66             s = requests.session()
 67             header['Referrer'] = get_url
 68
 69             # 百度 ajax 成语请求API
 70             get_url = 'https://hanyu.baidu.com/hanyu/ajax/search_list?wd=%E6%88%90%E8%AF%AD&from=poem&pn={}&_={}'.format(i, int(round(time.time() * 1000)))
 71
 72             # 模拟请求
 73             result = s.get(get_url, headers=header)
 74             # 判断请求是否成功
 75             if result.status_code == 200:
 76                 res = json.loads(result.text)
 77                 page_count = res['extra']['total-page']
 78                 # 得到返回的成语
 79                 for a in range(len(res['ret_array'])):
 80                     txt = res['ret_array'][a]
 81                     # 条数递增
 82                     idiom_count += 1
 83
 84                     # 目前只需:成语、拼音
 85                     name = (get_vaule(txt, 'name'))[0].strip()
 86                     pinyin = (get_vaule(txt, 'pinyin'))[0].strip()
 87                     pinyin_list = pinyin.split(" ")
 88
 89                     # 例句
 90                     # liju = get_vaule(txt, 'liju')[0]
 91                     # 出处
 92                     # tmp = get_vaule(txt, 'source')[0]
 93                     # if len(tmp) > 0:
 94                     #     source = tmp.replace('"', '').replace("'", "").replace('\n', '')
 95                     # else:
 96                     #     source = ''
 97                     # 同义词
 98                     # get_vaule(txt, 'synonym')
 99                     # tmp = get_vaule(txt, 'term_synonym')
100                     # if len(tmp) > 0:
101                     #     synonym = tmp
102                     # else:
103
104                     # ID,成语,拼音,成语首字,尾字,首拼,尾拼
105                     cursor.execute(
106                         'insert into IDIOM (ID,NAME,PINYIN,NAMEF,NAMEL,PINYINF,PINYINL) values (NULL,"%s","%s","%s","%s","%s","%s")' %
107                         (name, pinyin, name[0], name[len(name) - 1], pinyin_list[0], pinyin_list[len(pinyin_list) - 1]))
108             else:
109                 print("获取数据失败:第"+i+"页")
110         except requests.exceptions.ConnectTimeout as e:
111             print("http请求超时!" + str(e))
112         except socket.timeout as e:
113             print("请求超时! " + str(e))
114         except socket.error as e:
115             print("请求错误!" + str(e))
116         finally:
117             # 每获取一页,保存一次
118             cursor.close()
119             conn.commit()
120             conn.close()
121         # 进度条
122         page_num += 1
123         view_bar(page_num, end_pagenum)
124     print('\n本次爬取[百度成语] :  第 ' + str(start_pagenum) + ' 至 ' +
125           str(end_pagenum) + ' 页,共计 ' + str(idiom_count) + ' 条')
126
127 def view_bar(num, total):
128     '''进度条'''
129     rate = num / total
130     rate_num = int(rate * 100)
131     # r = '\r %d%%' %(rate_num)
132     r = '\r[%s>] %d%%' % ('=' * rate_num, rate_num)
133     sys.stdout.write(r)
134     sys.stdout.flush
135
136
137 def get_vaule(idiom_dict, key_vaule):
138     if key_vaule in idiom_dict.keys():
139         return idiom_dict[key_vaule]
140     else:
141         return [' ']
142
143
144 def init_db(filename=db_filename):
145     '''
146      如果数据库不存在,自动在当前目录创建idiom.sqlite3:
147     '''
148     if not os.path.exists(filename):
149         conn = sqlite3.connect(filename)
150         # 创建一个Cursor:
151         cursor = conn.cursor()
152         # 建表ID 自增长key
153         cursor.execute(
154             'CREATE TABLE IDIOM (ID INTEGER PRIMARY KEY AUTOINCREMENT, NAME VARCHAR(100),NAMEF VARCHAR(10),NAMEL VARCHAR(10),\
155               PINYIN VARCHAR(100),PINYINF VARCHAR(10),PINYINL VARCHAR(10))')
156         # 关闭Cursor:
157         cursor.close()
158         # 提交事务:
159         conn.commit()
160         # 关闭Connection:
161         conn.close()
162
163
164 if __name__ == '__main__':
165     # 初始化数据库
166     init_db()
167
168     # 获取1-10页的数据,数据库只会往里一直加数据,未做去重,所以以下三个方式,用最后一种。
169     # get_idiom_data()
170
171     # 获取x-x页的数据
172     # get_idiom_data(start_pagenum=10,end_pagenum=30)
173
174     # 获取所有数据
175     get_idiom_data(all=True)

执行> python get_idiom_from_baidu.py

[====================================================================================================>] 100%
本次爬取[百度成语] : 第 1 至 1546 页,共计 30875 条

源码:https://github.com/findyou/idiom_from_baidu

4、存在的问题

1、本脚本没有应对反爬虫机制(但实测不需要)

简单方案:请求头收集一堆,list随机取值

完整一点:代理IP+请求头list

2、保存数据较少,需要完整的成语数据

  • 解析你想要的数据:第88行 -- 102行间
  • 数据库增加你想要的字段:第154行 -- 155行
  • 增加要保存的数据:第106行 -- 107行

3、成语数据不全

  • 再爬其他成语库补充

3、单线程,速度慢

自已解决一下

三、自动化测试(接口层)

1、成语接龙游戏

正接,即接的成语的前一个字和问的成语的最后一个字一致(同字或同音都可),目前【琥珀】只支持正接中的尾首同字

2、自动化简单方案

  • 识别【琥珀】说的成语,判断是否成语
  • 如是成语,取其【尾字】,在数据库中获取【首字】一样的成语列表,随机给出一个成语继续。
  • 不是成语,记录

说明:所以第二部分爬取成语只需保存数据:成语,首字,尾字

3、测试结果

正常用例-自动测试结果:

4、问题

1、如何做语音自动化方案?

其实主要测试逻辑一样,只需要多解决自动化用例TTS播报,被测的ASR(或文本)获取。

2、这自动化只是一个简单的功能测试,无法达到智能测试的效果?

对的,此方案仅覆盖的是成语的正确性;

趣味性、情感化等回复的语料,可人工标注或者其他方案。

想知道如何测试,私下交流。

转载于:https://www.cnblogs.com/findyou/p/9828221.html

人工智能测试-爬百度成语-测成语接龙相关推荐

  1. 成语json_人工智能测试爬百度成语测成语接龙

    点击关注,我们共同每天进步一点点! 前言 本意,昨晚想发一文,在梳理思路找笔记一小半时,一朋友跟伴侣吵架了,突然从技术写文转变到情感"砖家",微信聊了一个多小时,脑力都用光了,早上 ...

  2. 深度丨走向人工智能时代,百度的延承和蜕变

    从百度发布了2017年财报来看,总营收达到848亿元(约合130.3亿美元),较2016财年增长20%:移动营收在百度2017财年总营收中占比为73%,高于2016财年的63%.业已爬出谷底,走向顶峰 ...

  3. apache并发测试工具ab为什么测不准

    apache并发测试工具ab为什么测不准 发表于2年前(2013-03-21 12:13)   阅读(1146) | 评论(1) 1人收藏此文章, 我要收藏 赞0 3月21日 深圳 OSC 源创会正在 ...

  4. 人工智能测试是什么意思_测试工程师必须懂这些

    阿里妹导读:近几年人工智能.机器学习等词漫天遍地,似乎有一种无AI,无研发,无AI,无测试的感觉.有人说:不带上"智能"二字,都不好意思说自己是创新.我们先暂且不评论对错,只探讨这 ...

  5. 孙高飞:人工智能测试_高飞学习钓鱼:为什么好的文档很重要

    孙高飞:人工智能测试 无论您从事哪种类型的项目,都不能指望用户自己完全理解它. 那就是文档的来源.文档可以是任何东西,从简单的过程到详尽的用户故事. 当然,Web UI有时可以说出自己的话(最好的话) ...

  6. 后端接口都测试什么?怎么测?

    点击关注公众号,实用技术文章及时了解 来源:cnblogs.com/puresoul/p/5388586.html 本文主要分为两个部分: 第一部分: 主要从问题出发,引入接口测试的相关内容并与前端测 ...

  7. 后端服务接口都在测试什么?怎么测?

    本文主要分为两个部分: 第一部分: 主要从问题出发,引入接口测试的相关内容并与前端测试进行简单对比,总结两者之前的区别与联系.但该部分只交代了怎么做和如何做?并没有解释为什么要做? 第二部分: 主要介 ...

  8. 人工智能测试-人工智能质量工程技能简介

    翻译自 https://www.sogeti.com/globalassets/global/sogetilabs/testing-of-artificial-intelligence.pdf 人工智 ...

  9. 小学生猜成语html5攻略,小学生猜成语最新成语游戏集锦

    成语多数为4个字,也有3字的以及4字以上的成语,有的成语甚至是分成两部分,中间有逗号隔开.以下是小编精心收集整理的小学生猜成语,下面小编就和大家分享,来欣赏一下吧. 小学生猜成语篇1 1)课(打一成语 ...

  10. 广西计算机一级评分标准,广西普通话水平测试评分细则(机测修改版)及评分表...

    <广西普通话水平测试评分细则(机测修改版)及评分表>由会员分享,可在线阅读,更多相关<广西普通话水平测试评分细则(机测修改版)及评分表(10页珍藏版)>请在人人文库网上搜索. ...

最新文章

  1. 电脑耳机声音小怎么调大_录自媒体vlog视频声音小怎么办,看兰哥怎样不花钱就解决...
  2. 区块链教程Fabric1.0源代码分析Chaincode(链码)体系总结
  3. LeetCode 之 JavaScript 解答第23题 —— 合并K个有序链表(Merge K Sorted Lists)
  4. 去某大厂三面总监面,因为迟到了5分钟,面试官当着我的面把简历扔垃圾桶了
  5. mysql 实时备份_MySQL实现实时备份[转]
  6. Git版本回退之 reset 和 revert
  7. eclipse发布web项目到tomcat服务器
  8. 【转】10.Qt编程涉及的术语和名词
  9. linux下安装Oracle10g时,安装rpm文件的技巧 (rpm -Uvh package名)
  10. Java并发编程实战~volatile
  11. 初识Linux操作系统
  12. 基于JAVA+SpringMVC+Mybatis+MYSQL的相亲管理系统
  13. 开机启动项_开机时出现“checking media presence”
  14. Kibana 6.2.3修改本地时区
  15. 二、JAVA基础、语法
  16. hybris Models
  17. excel 查一列字符是否在另一列中出现
  18. Sparkline图
  19. 小技巧:Windows快捷键快速打开程序
  20. Alpha 测试(α测试) Beta 测试(β测试)区别

热门文章

  1. 拆机专用磁力桌垫:保证一颗螺丝也不漏网
  2. c语言编八卦图形,关于C语言实现一个八卦图!(我代码写好了,求人改动一下)
  3. 88家上市公司区块链分布图:七成拓展落地应用 互联网公司善于底层基础
  4. GPS从入门到放弃(二十二) --- 站点位移
  5. Android应用分身功能介绍
  6. Mybatis关联关系
  7. latex常用中文模板,拿走直接很使用
  8. 最小生成树算法(普利姆算法和克鲁斯卡尔算法)---抄自天勤数据结构高分笔记
  9. STM32F4最小系统硬件设计
  10. java生成三位随机数_java工具类(三)之生成若干位随机数