python测试工具开发面试宝典3web抓取
2019独角兽企业重金招聘Python工程师标准>>>
用requests输出网站返回头
输出 'https://china-testing.github.io/' 的返回头
- 参考答案
In [1]: import requestsIn [2]: url = 'https://china-testing.github.io/'In [3]: response = requests.get(url)In [4]: response.request.headers
Out[4]: {'User-Agent': 'python-requests/2.18.4', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}
requests是HTTP访问极其重要的库,比较常用的属性有:response.status_code、response.text。
更多参考资料:python工具库介绍-requests:人性化的HTTP
用Requests和BeautifulSoup爬取博客标题
爬取 https://china-testing.github.io/ 首页的博客标题,共10条.
- 参考答案
# -*- coding: utf-8 -*-
# 讨论钉钉免费群21745728 qq群144081101 567351477
# CreateDate: 2018-10-16import requests
from bs4 import BeautifulSoupdef get_upcoming_events(url):req = requests.get(url)soup = BeautifulSoup(req.text, 'lxml')events = soup.findAll('article')for event in events:event_details = {}event_details['name'] = event.find('h1').find("a").textprint(event_details)get_upcoming_events('https://china-testing.github.io/')
执行结果:
$ python3 blogs.py
{'name': '接口自动化性能测试线上培训大纲'}
{'name': '2018最佳人工智能图像处理工具OpenCV书籍下载'}
{'name': 'IBM开发社区python精品文章汇总'}
{'name': 'python工具库介绍-requests:人性化的HTTP'}
{'name': '中草药的故事-金银花(标准中药)- 清热解毒,疏散风热'}
{'name': '中草药的故事-合欢花(标准中药)'}
{'name': '中草药的故事-吴茱萸(标准中药)'}
{'name': '[雪峰磁针石博客]python3快速入门教程9重要的标准库-高级篇'}
{'name': '[雪峰磁针石博客]python3快速入门教程11命令行自动化工具与pexpect'}
{'name': '[雪峰磁针石博客]python3快速入门教程9重要的标准库-基础篇'}
BeautifulSoup的默认解析器为html.parser,处理大页面比较吃力,为此使用lxml。解释器html5lib的行为和浏览器表现类似。
最新代码地址
https://github.com/china-testing/python-api-tesing/blob/master/python-automation-cook/ch3/blogs.py
selenium访问'https://httpbin.org/forms/post'
用selenium访问'https://httpbin.org/forms/post',填充内容
- 参考答案
# 讨论钉钉免费群21745728 qq群144081101 567351477
# CreateDate: 2018-10-16from selenium import webdriver
import timebrowser = webdriver.Chrome()
browser.get('https://httpbin.org/forms/post')
custname = browser.find_element_by_name("custname")
custname.clear()
custname.send_keys("python测试开发")time.sleep(2)
for size_element in browser.find_elements_by_name("size"): if size_element.get_attribute('value') == 'medium':size_element.click()time.sleep(2)
for topping in browser.find_elements_by_name('topping'):if topping.get_attribute('value') in ['bacon', 'cheese']:topping.click()time.sleep(2)
browser.find_element_by_tag_name('form').submit()
执行结果
{"args": {}, "data": "", "files": {}, "form": {"comments": "", "custemail": "", "custname": "python\u6d4b\u8bd5\u5f00\u53d1", "custtel": "", "delivery": "", "size": "medium", "topping": ["bacon", "cheese"]}, "headers": {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, br", "Accept-Language": "zh-CN,zh;q=0.9", "Cache-Control": "max-age=0", "Connection": "close", "Content-Length": "132", "Content-Type": "application/x-www-form-urlencoded", "Host": "httpbin.org", "Origin": "https://httpbin.org", "Referer": "https://httpbin.org/forms/post", "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}, "json": null, "origin": "183.62.236.90", "url": "https://httpbin.org/post"
}
转载于:https://my.oschina.net/u/1433482/blog/2247004
python测试工具开发面试宝典3web抓取相关推荐
- 基于Java实现的Web服务器与测试工具开发
资源下载地址:https://download.csdn.net/download/sheziqiong/85706486 资源下载地址:https://download.csdn.net/downl ...
- Python测试工具-Pytest使用详解
一.简介 Pytest是一个全功能Python测试工具,支持第三方扩展插件,能够使用其开展单元测试和复杂功能测试.可以和selenium.requests.appium等模块结合使用实现WEB UI. ...
- Python之 - 使用Scrapy建立一个网站抓取器,网站爬取Scrapy爬虫教程
Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...
- python爬取app播放的视频,Python爬虫工程师必学——App数据抓取实战视频教程
爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统数据抓取.本课程主要为同学讲解如何用python实现App数据抓取,课程从开发环境搭建,App爬虫必备利器详解,项目实战,到最后的多App ...
- python爬虫学习基础教程,批量抓取美女图片!
python的抓取功能其实是非常强大的,当然不能浪费,呵呵.下面就与大家分享一个python写的美女图自动抓取程序吧! 其中用到urllib2模块和正则表达式模块.下面直接上代码: 用python批量 ...
- python实现食品推荐_通过Python语言实现美团美食商家数据抓取
首先,我们先来打开美团美食商家页面,来分析一下. 如上面所提供的URL即为美团美食商家页面.或者我们通过美团官网打开一个美团美食商家页面,打开步骤如下:1.打开浏览器,输入 即可打开美团北京首页 2. ...
- Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据
Python,网络爬虫selenium与pyautogui抓取新浪微博用户数据 不需要登陆新浪微博账户,直接运行就可以通过python爬虫爬取新浪微博用户数据.本例selenium与pyautogui ...
- Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR
Python网络爬虫,pyautogui与pytesseract抓取新浪微博数据,OCR方案 用ocr与pyautogui,以及webbrowser实现功能:设计爬虫抓取新浪微博数据,比如,抓取微博用 ...
- 京东上货工具哪个好?怎么抓取商品上传?
京东平台,相信很多商家都知道这个平台了,京东的商家很多都会在其他平台开店,所以京东商家在上货方面就比较简单多了.直接在其他平台抓取商品复制到京东就可以了.如何抓取淘宝商品上传到京东呢? ...
最新文章
- 【廖雪峰python入门笔记】列表生成式
- “池哥昼”的一件趣事
- 咖友:X零蛋丨只靠“威尔逊算法”,知乎危险了?
- Google帮助IE浏览器实现对SVG支持
- html5 canvas 画的简易时钟
- 初识Flink-从WorldCount开始
- ajax二级联动源代码,Ajax二级联动菜单实现原理及代码
- 你有没有靠谱的基因?一个人靠不靠谱,其实就看这三点:“凡事有交代,件件有着落,事事有回音。”...
- 【转】ABP源码分析三十八: ABP.Web.Api.OData
- Java LinkedHashMap clear()方法与示例
- 谷歌浏览器安装过程-0223
- python爬虫抖音音浪_【Python爬虫】抖音去水印
- GO语言打包ICO图标
- python查看指令的方法python -h
- python 去除字典列表中的重复字典
- 下载任意范围的DEM数据 国产谷歌地球统统满足你
- 《全面软件质量管理》核心观点摘录
- 90后男屌丝如何让淘宝客日赚10万滴
- centos7时间校准
- DOS下常用命令介绍
热门文章
- jq之div hide slow
- 迷你世界显示未连接服务器成功,迷你世界登录未成功是什么意思 | 手游网游页游攻略大全...
- java fx输出_JavaFX中具有输入和输出参数的并发后台任务或服务
- 为什么整数在python中表示d_python中整数的缓存机制
- java mybatis狂神说sql_狂神说MyBatis01:第一个程序
- python计算时间装饰器_python 写一个计算运行时间的装饰器
- linux+有趣的指令,6个有趣的Linux命令(乐趣终端) - 第二部分
- 计算机考试设计会议邀请函,计算机二级常见考点之使用合并技术制作邀请函
- oracle导出中文utf8乱码,ORACLE导入导出后发生中文乱码的原因及解决办法
- rsync android app,如何rsync到android