本来是想给学生们演示如果使用selenium+浏览器抓取淘女郎网站的图片。但是淘宝不给面子,网站已经访问不了。

所以改抓百度指数的数据了,这是第一部分,比较简单的演示:selenium+浏览器(我这是Firefox)的代码。

代码如下:

from selenium import webdriver

from selenium.webdriver.common.action_chains import ActionChains

import time

# 此函数用于打开浏览器
def openbrowser():
    global browser
    url = "http://index.baidu.com/"#百度指数网站
    browser = webdriver.Firefox()
    browser.get(url)
    # 点击网页的登录按钮              
    browser.find_element_by_xpath("/html/body/div/div[1]/div[2]/div[1]/div[4]/span/span").click()
    time.sleep(3)
    #传入账号密码
    account="你的百度账号"
    passwd="你百度账号的密码"
    try:
        browser.find_element_by_id("TANGRAM__PSP_4__userName").send_keys(account)
        browser.find_element_by_id("TANGRAM__PSP_4__password").send_keys(passwd)
        browser.find_element_by_id("TANGRAM__PSP_4__submit").click()
    except:
        browser.find_element_by_id("TANGRAM_12__password").send_keys(account)
        browser.find_element_by_id("TANGRAM_12__userName").send_keys(passwd)
        browser.find_element_by_id("TANGRAM_12__submit").click()

time.sleep(3)

def deal(name):
    # 清空网页输入框
    browser.find_element_by_xpath("/html/body/div/div[2]/div[2]/div/div[1]/div/div[2]/form/input[3]").clear()
    # 写入需要搜索的百度指数
    browser.find_element_by_xpath("/html/body/div/div[2]/div[2]/div/div[1]/div/div[2]/form/input[3]").send_keys(name)
    # 点击搜索
    try:
        browser.find_element_by_xpath("/html/body/div/div[2]/div[2]/div/div[1]/div/div[2]/div/span").click()
    except:
        browser.find_element_by_id("schsubmit").click()
    time.sleep(2)
    browser.execute_script("window.scrollTo(0,1000)") # 执行滚屏操作
    browser.save_screenshot("baiduIndex.png")           # 由于这里图片数据无法直接抓取,所以先截图保存

if __name__ == '__main__':  # 主函数

openbrowser()

resultString=deal("黑客帝国",2018,5,25)

PS:代码只是实现selenium的初步演示,没有考虑异常及复杂的滚屏处理。另外,这里使用XPath,可读性较差,同时如果网站稍有改版,代码可能需要进一步更新。

Python 爬虫 百度指数相关推荐

  1. Python爬虫百度云加速验证码问题

    Python爬虫百度云加速验证码问题 问题描述 解决思路 实现代码 最终结果 问题描述 第一篇博文:低手,刚学,求勿喷. 前段时间,使用爬虫访问一个磁力链接下载网站(target_url),收集电影下 ...

  2. python爬虫百度安全验证_爬虫黑科技-绕开百度人机验证

    是的你没有看错,我们要"搞"的对象就是百度指数这个网站,不知道你平时是否会应用到这里面的数据呢? 今天的主要目标就是使用无头浏览器登录百度指数网站,并且绕开它的人机验证,不知道你发 ...

  3. python获得百度指数脚本[免费分享]

    注意 更新(2022-07-01日更新) 1. 估计是百度指数修改了爬虫策略,目前已更新为最新版本- 前言 有时候大家需要知道一个关键词在互联网上的热度,想知道某个关键词的热度变化趋势.大家可能就是使 ...

  4. python爬虫百度百科-python爬虫(一)_爬虫原理和数据抓取

    本篇将开始介绍Python原理,更多内容请参考:Python学习指南 为什么要做爬虫 著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...

  5. python爬虫百度地图_零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(基础篇)...

    实现目的:爬取昆明市范围内的全部中学数据,包括名称.坐标. 先进入基础篇,本篇主要讲原理方面,并实现步骤分解,为python代码编写打基础. 因为是0基础开始,所以讲得会比较详细. 如实现目的所讲,爬 ...

  6. Python爬虫——百度+新浪微盘下载歌曲

    本篇分享将讲解如何利用Python爬虫在百度上下载新浪微盘里自己想要的歌手的歌曲,随便你喜欢的歌手! 首先我们先探索一下我们操作的步骤(以下载Westlife的歌曲为例):打开百度,输入"W ...

  7. python爬虫百度百科-如何入门 Python 爬虫?

    目前网上有关网页爬虫的指导有很多,但是套路却是千篇一律,基本都是围绕以下内容进行展开,CSS/html等网页知识 requests或urllib BeautifulSoup或正则表达式 Seleniu ...

  8. 清华尹成python爬虫百度云_爬虫:利用python完成百度贴吧数据采集

    前言:本文主要是分享下利用python爬取百度指定贴吧的全部帖子以及帖子回复内容,主要是利用python的request库获取网页信息,通过正则等方式解析我们需要的数据并存储到数据库中,并且后续可以用 ...

  9. python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...

最新文章

  1. c++ 读取访问权限冲突_关于Windows文件6项基础权限的一些设置!
  2. 在哪开启oracle服务器,开启企业殿堂的钥匙 Oracle服务器的安装
  3. 充电桩系统php源码,源码 充电桩程序设计 - 下载 - 搜珍网
  4. 存储引擎 boltdb 的设计奥秘?
  5. TCP中recv解阻塞的两种方式
  6. 接口测试总结-值得一看哟
  7. 数据结构之查找-顺序查找,折半查找,分块查找
  8. Linux DRM KMS 驱动简介
  9. core dump的诡异事件
  10. java获取连续日期天数
  11. RTL8703/RTL8723/RTL8761/RTL8821/RTL8822系列蓝牙定频测试说明
  12. stm32之备份寄存器(BKP)应用(侵入检测中断)
  13. Opensearch架构及引擎原理
  14. 彻底弄懂@Controller 、@Service、@Component
  15. 网站设计分析:banner中的字体结构
  16. Android Studio 一键切换界面风格
  17. 2021年:Amazon最新的领导力原则(16条)
  18. 双目立体视觉:三(空间直线坐标,立体图像校正)
  19. ElasticSearch简介及ElasticSearch部署、原理和使用介绍
  20. 什么是swagger以及swagger注解详解

热门文章

  1. 我在 GitHub 黑市买“水军”:一万颗 star 只要 4000 多元,人人都能“一夜爆火”...
  2. 配置终端下 Sublime 对应的 subl 命令
  3. php在网页上运行,在浏览器中使用PHP脚本运行作曲家
  4. java开发人员软件集-工具
  5. 梅林虚拟服务器,梅林云服务器怎么设置
  6. MXNet图像数据打包 im2rec.py
  7. 怎样才能进入“柔性制造”设备的大门?
  8. Latex+英文论文+工具+邮箱客户端不能登录
  9. freetype2 下载编译以及测试代码
  10. python实现简单的登录和注册界面