Selenium介绍

Selenium是一个用于Web应用程序测试的工具,测试直接在浏览器中运行,就像真实用户所做的一样,目前流行的自动化测试就可以靠它来实现。

而自动化测试还需要用我们的webdriver

WebDriver针对各个浏览器而开发,取代了嵌入到被测Web应用中的JavaScript。与浏览器的紧密集成支持创建更高级的测试,避免了JavaScript安全模型导致的限制。除了来自浏览器厂商的支持,WebDriver还利用操作系统级的调用模拟用户输入。

今天就是利用这两个结合来爬取airbnb的房源信息

首先我们需要下载我们浏览器对应版本的WebDriver,比如我的谷歌版本

Chrome的WebDriver各个版本下载地址:http://npm.taobao.org/mirrors/chromedriver

如果是其他浏览器就直接去百度了

然后下载好了有一个chromedriver.exe文件,把这个文件放入你的python的Script中,这样就能用了

Fidder是一个抓包工具,我们如果需要爬取一些动态数据,也就是我们ajax加载出来的数据,我们一般是无法直接在网页上看到的,所以需要通过抓包工具来获取请求地址

Fidder官网:https://www.telerik.com/fiddler

它能获取你电脑所有发送的请求

案例demo1,爬取今日头条的某条新闻的评论

评论一般是ajax加载出来的,所以一般是动态数据,所有首先我们需要通过抓包工具来获取它的请求地址(因为F12获取不到一些数据地址,所以我们需要下载抓包工具),然后才能获取它的数据。"""

使用sekenium获取今日头条新闻评论

"""

from selenium import webdriver

import time

# options = webdriver.ChromeOptions()

# options.add_argument("--headless")

driver = webdriver.Chrome()

driver.get("https://www.toutiao.com/group/6749399264998212110/")

# 获取 加载更多 超链接

loadMore = driver.find_element_by_css_selector("a.c-load-more")

# 模拟浏览器点击事件

loadMore.click()

time.sleep(2)

# 获取数据

contentDivs = driver.find_elements_by_css_selector("div.c-content")

for contentDiv in contentDivs:

content = contentDiv.find_element_by_tag_name("p").text

print(content)

然后存入了我们的text文件中,可以看到,这就是一个JSON的返回数据{'message': 'success', 'data': {'has_more': True, 'total': 106, 'comments': [{'text': '限制的是在北京居住生活而长期

驾驶非京牌车的行为。正常来京办事不受影响。北京车牌到外地也是短期的,所以不存在外地也限制北京车的问题。',

'digg_count': 615, 'reply_data': {'reply_list': []}, 'reply_count': 0, 'create_time': 1571398213, 'user':

{'avatar_url': 'https://sf1-ttcdn-tos.pstatp.com/img/mosaic-legacy/3796/2975850990~120x256.image', 'user_id':

100388200396, 'name': '人间正道的丝路花雨'}, 'dongtai_id': '6749103925351350275', 'user_digg': 0, 'id':

'6749103925351350275'}, {'text': '支持,早该限制外地牌照,就像北京的房子,外地人来京就租房子,如果您来就盖房这地方

就没办法生活了', 'digg_count': 686, 'reply_data': {'reply_list': []}, 'reply_count': 0, 'create_time': 1571398053,

'user': {'avatar_url': 'https://p3.pstatp.com/thumb/dafd0002dc655e0d9151', 'user_id': 52617043834, 'name':

'点1449308'}, 'dongtai_id': '6749103240320647171', 'user_digg': 0, 'id': '6749103240320647171'}, {'text':

'举双手赞成

python爬房源信息_Python:爬取airbnb房源信息(Selenium)相关推荐

  1. Java——接收用户在控制台的信息,将取到的信息写入lianxi.txt文件中,并且将lianxi.txt内容复制到home.txt中

    一.题目 接收用户在控制台的信息,将取到的信息写入lianxi.txt文件中,并且将lianxi.txt内容复制到home.txt中 二.实现代码 package day08;import java. ...

  2. python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

    1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...

  3. 深圳python数据分析师招聘_Python爬取智联招聘数据分析师岗位相关信息的方法

    Python爬取智联招聘数据分析师岗位相关信息的方法 发布时间:2020-09-23 23:23:12 来源:脚本之家 阅读:88 进入智联招聘官网,在搜索界面输入'数据分析师',界面跳转,按F12查 ...

  4. python制作手机壁纸_Python爬取手机壁纸图片

    使用Python爬取图片. 1 说明 本文通过爬虫程序的编写,实现了一个简单易懂的爬虫程序,方便初学者理解,主要程序分为网页获取函数,以及保存下载函数,这就是所有爬虫程序的基本思想.(本文不涉及反爬, ...

  5. python成都_Python抓取成都房价信息

    Python里scrapy爬虫 scrapy爬虫,正好最近成都房价涨的厉害,于是想着去网上抓抓成都最近的房价情况,顺便了解一下,毕竟咱是成都人,得看看这成都的房子我以后买的起不~ 话不多说,进入正题: ...

  6. python方差分析报错_PYTHON安装报错定位信息

    ================= 开始生成激活上下文. 输入参数 : Flags = 0 ProcessorArchitecture = Wow32 CultureFallBacks = zh-CN ...

  7. python爬取房源数据_python爬取安居客二手房网站数据(实例讲解)

    是小打小闹 哈哈,现在开始正式进行爬虫书写首先,需要分析一下要爬取的网站的结构:作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发 ...

  8. python爬取链家租房信息_Python爬取链家网上海市租房信息

    使用Python进行上海市租房信息爬取,通过requests + Beautifulsoup对网页内容进行抓取和数据提取. import requests from bs4 import Beauti ...

  9. python爬淘宝商品销量信息_python爬取淘宝商品销量信息

    python爬取淘宝商品销量的程序,运行程序,输入想要爬取的商品关键词,在代码中的'###'可以进一步约束商品的属性,比如某某作者的书籍,可以在###处输入作者名字,以及时期等等.最后可以得到所要商品 ...

  10. python爬取招聘信息_python 爬取boss直聘招聘信息实现

    原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...

最新文章

  1. C# UI界面的更新
  2. JVM插桩之三:javaagent介绍及javassist介绍
  3. 参考资料学习APR库
  4. Lambda 表达式详解~深入JVM实现原理
  5. 一台CentOS云主机更改源的记录
  6. echarts 折线图阴影颜色渐变
  7. Djunit工作记录
  8. 大学英语综合教程一 Unit 3 课文内容英译中 中英翻译
  9. 入门系列之在Ubuntu上使用Netdata设置实时性能监控
  10. 差分放大电路的构成(零点漂移、差分放大电路是怎么构成的、共模信号、差模信号)
  11. 『TensorFlow』pad图片
  12. domoticz 使用esp8266通过mqtt控制灯开关
  13. 怎么让termux运行Java_在安卓手机上通过 Termux 运行编译/运行 .NET 应用
  14. ora-01031解决方法
  15. 论文笔记——扩散卷积循环神经网络进行交通预测
  16. 中心差商公式不同的h计算近似一(二)阶导数
  17. MacOS:xcrun: error: invalid active developer path
  18. 双离合档把上按钮作用_读者投稿:福特逐渐放弃双离合变速箱背后的秘密
  19. BaiduOCR实现身份证,银行卡,机动车牌,图像审核等识别
  20. 【CV】小目标检测问题中“小目标”如何定义?其主要技术难点在哪?

热门文章

  1. php下对港澳台身份证进行验证
  2. 脉冲神经网络SNN的简介
  3. Python点击Pycharm按钮Run的时候出现Type ‘manage.py help <subcommand>‘ for help on a specific subcommand.
  4. PDF转PNG高清不失帧
  5. esp32测试wifi速率
  6. Verilog 按键消抖的一些分析和想法
  7. PNP NPN 三线制接近开关接线
  8. mysql空洞_Mysql 表空间和 数据页空洞
  9. 云游戏拉开产业化大幕
  10. 英文版oracle数据库不能复制粘贴,win10 plsql没法复制 粘贴