目录

  • selenium介绍
  • 案例

selenium介绍

Selenium是一个用于Web应用程序测试的工具,测试直接在浏览器中运行,就像真实用户所做的一样,目前流行的自动化测试就可以靠它来实现

而自动化测试还需要用我们的webdriver
WebDriver针对各个浏览器而开发,取代了嵌入到被测Web应用中的JavaScript。与浏览器的紧密集成支持创建更高级的测试,避免了JavaScript安全模型导致的限制。除了来自浏览器厂商的支持,WebDriver还利用操作系统级的调用模拟用户输入。

今天就是利用这两个结合来爬取airbnb的房源信息

首先我们需要下载我们浏览器对应版本的WebDriver,比如我的谷歌版本


Chrome的WebDriver各个版本下载地址:http://npm.taobao.org/mirrors/chromedriver
如果是其他浏览器就直接去百度了

然后下载好了有一个chromedriver.exe文件,把这个文件放入你的python的Script中,这样就能用了

Fidder是一个抓包工具,我们如果需要爬取一些动态数据,也就是我们ajax加载出来的数据,我们一般是无法直接在网页上看到的,所以需要通过抓包工具来获取请求地址
Fidder官网:https://www.telerik.com/fiddler
它能获取你电脑所有发送的请求

案例

demo1,爬取今日头条的某条新闻的评论,评论一般是ajax加载出来的,所以一般是动态数据,所有首先我们需要通过抓包工具来获取它的请求地址(因为F12获取不到一些数据地址,所以我们需要下载抓包工具),然后才能获取它的数据。

"""
使用sekenium哦啊去今日头条新闻评论
"""
from selenium import webdriver
import time# options = webdriver.ChromeOptions()
# options.add_argument("--headless")driver = webdriver.Chrome()
driver.get("https://www.toutiao.com/group/6749399264998212110/")# 获取 加载更多 超链接
loadMore = driver.find_element_by_css_selector("a.c-load-more")
# 模拟浏览器点击事件
loadMore.click()time.sleep(2)
# 获取数据
contentDivs = driver.find_elements_by_css_selector("div.c-content")
for contentDiv in contentDivs:content = contentDiv.find_element_by_tag_name("p").textprint(content)

然后存入了我们的text文件中,可以看到,这就是一个JSON的返回数据

{'message': 'success', 'data': {'has_more': True, 'total': 106, 'comments': [{'text': '限制的是在北京居住生活而长期驾驶非京牌车的行为。正常来京办事不受影响。北京车牌到外地也是短期的,所以不存在外地也限制北京车的问题。', 'digg_count': 615, 'reply_data': {'reply_list': []}, 'reply_count': 0, 'create_time': 1571398213, 'user': {'avatar_url': 'https://sf1-ttcdn-tos.pstatp.com/img/mosaic-legacy/3796/2975850990~120x256.image', 'user_id': 100388200396, 'name': '人间正道的丝路花雨'}, 'dongtai_id': '6749103925351350275', 'user_digg': 0, 'id': '6749103925351350275'}, {'text': '支持,早该限制外地牌照,就像北京的房子,外地人来京就租房子,如果您来就盖房这地方就没办法生活了', 'digg_count': 686, 'reply_data': {'reply_list': []}, 'reply_count': 0, 'create_time': 1571398053, 'user': {'avatar_url': 'https://p3.pstatp.com/thumb/dafd0002dc655e0d9151', 'user_id': 52617043834, 'name': '点1449308'}, 'dongtai_id': '6749103240320647171', 'user_digg': 0, 'id': '6749103240320647171'}, {'text': '举双手赞成												

python之selenium爬取数据(爬取airbnb房源信息)相关推荐

  1. Python爬虫爬取链家网上的房源信息练习

    一 原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家 打开链家网页:https://sh.lianjia.com/zufang/  ...

  2. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  3. 基于Python猫眼票房TOP100电影数据抓取

    基于Python猫眼票房TOP100电影数据抓取 使用requests库抓取数据 BeatifulSoup解析URL,将数据存入csv文件 处理数据,生成图表 本次爬取数据使用Python语言在jup ...

  4. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  5. Python爬虫Selenium手动接管Edge爬取裁判文书网“环境污染”数据(Mac环境)

    目标数据:爬取从2007年到2022年,各地级市中级法院历年关于"环境污染"的裁判文书数量. 由于裁判文书网需要登录,Selenium手动接管爬取可避免频繁登录造成的封号风险. S ...

  6. python爬虫实例——某二手车数据爬取

    某二手车网站数据爬取 要求: 找到所要爬取的网站网址(url): 今天案例的网址(url):https://www.guazi.com/gy/dazhong/o1/#bread. 观察网站,点开检查, ...

  7. Python爬虫|高德地图地铁数据爬取与制图

    目录 一.高德地图数据爬取 1.爬取思路 2.python核心代码 二.Arcmap制图 一.高德地图数据爬取 1.爬取思路 首先,谷歌浏览器打开高德地图官网,点击上方菜单栏地铁进入地铁线路网站如下, ...

  8. [Python]百度慧眼人口热力图数据爬取--以深圳市为例

    百度慧眼人口热力图数据爬取--以深圳市为例 数据爬取 坐标转换 1.读取坐标映射表 2.利用sklearn进行回归分析 3.坐标转换输出 完整代码 利用python爬取深圳市百度慧眼人口热力图数据,线 ...

  9. python爬虫案例-陶瓷公司数据爬取

    用requests爬取要注意HTTPConnectionPool(host=xxx, port=xxx): Max retries exceeded with url...异常,出现这个异常的解决方法 ...

  10. python CNKI知网论文数据爬取

    标题) 目的 网页入口 爬取思路 代码 总结 目的 爬选定种类(如硕博论文,期刊论文)的标题,作者,发表时间,摘要等信息并存入数据库. 网页入口 使用旧版cnki知网的入口:https://searc ...

最新文章

  1. 如何使用 Python 操作 Git 代码?GitPython 入门介绍
  2. JLINK通过SW模式下载程序的方法
  3. python下载图片并保存_Python爬虫获取图片并下载保存至本地的实例
  4. redis java 性能_Redis 性能优化
  5. limit mysql 性能_MySQL 用 limit 为什么会影响性能?
  6. 006python路--深浅拷贝
  7. 使用ExtractTextPlugin将css和js分开打包
  8. rrdtool zabbix mysql_MRTG、Cacti、Rrdtool、Nagios、Zabbix安装比较
  9. html 星空效果,使用css实现星空效果!
  10. multism中ui和uo应该怎么表示_吐血整理!这篇带你彻底理解主存中存储单元地址的分配...
  11. 跳槽高峰期,请注意:技术面试九忌
  12. Node.js:Node核心模块
  13. C语言C++编程软件推荐及下载方式
  14. POSTMAN中文版本
  15. 冲刺大厂每日算法面试题,动态规划21天——第十四天
  16. 【云图】如何制作AMF生态鱼缸实体店分布图
  17. 咚咚咚————【封装驱动】ADS1256驱动程序,分享交流自己编写的程序。
  18. 测量电源纹波-正确测量方法
  19. cad 切图_CAD如何绘制并标注剖切图
  20. 中国糯米粉行业品牌竞争策略与规模现状分析报告2022-2028年

热门文章

  1. 一键生成表白页面,个人网站,在线制作生成网站php源码
  2. Jenkins上配置Robot Framework测试邮件通知模板
  3. 视频教程-微信公众号二维码签到和抽奖软件-微信开发
  4. html转换高清pdf,html转换pdf
  5. java.lang.UnsatisfiedLinkError: /usr/local/java/jdk1.8.0_91/jre/lib/amd64/libawt_xawt.so: libXtst.so
  6. 做好大型项目的五个关键
  7. 第十三周作业-必做3
  8. Xilinx 7系列FPGA架构之时钟资源(一)
  9. jQuery自动补全邮箱后缀列表插件
  10. Android Split的用法