一、项目说明

1.1 项目介绍

本项目通过使用 Python 实现一个淘女郎图片收集爬虫,学习并实践 BeautifulSoup、Selenium Webdriver 及正则表达式等知识。在项目开发过程中采用瀑布流开发模型。

1.2 知识点

本项目中将会学习并实践以下知识点:Python3 编程

使用 BeautifulSoup 解析 HTML 页面

使用 Selenium Webdriver 爬取 Web 页面

使用正则表达式提取所需的关键信息

1.3 实验效果

首先我们要爬取的目标页面如下:

爬取后的目录结构如下:

每个目录中都有一系列的图片:

二、基础工具

本节主要介绍和安装项目中将用到的几个基础工具。本实验使用实验楼的环境开发,中间部分步骤在不同版本的 Linux 环境下会有不同。

2.1 安装 pip3

首先,由于使用的工具都需要通过 pip3 进行安装,实验楼的环境中没有安装 pip3,所以需要先将pip3准备好。

打开桌面上的 Xfce 终端,输入下面的命令安装 pip3:

sudo apt-get update

sudo apt-get install python3-pip

2.2 安装 BeatifulSoup

简介

BeautifulSoup 库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名歌词。就像故事中他在仙境中的说法一样,BeautifulSoup 试图化平淡为神奇。它通过定位 HTML 标签来去格式化和组织复杂的网络信息,用简单易用的 Python 对象为我们展现 XML 结构信息。

安装

由于这次实验是在 python3.X 版本以上的所以,将拓展库安装到特定的库中使用 pip3,从而安装到 python3 的系统目录中,仍然是在实验楼中的 Xfce 终端执行命令:

sudo pip3 install Beautifulsoup4

BeautifulSoup4 是现今的最新版本,也是接下来重点使用的工具。

2.3 Selenium

简介

Selenium 是一个强大的网络数据采集工具,最初是为网站自动化测试而开发的。近几年,他还被广泛用于获取精确的网站快照,因为他们可以直接运行在浏览器上。Selenium 可以让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作上是否发生。

Selenium 自己不带浏览器,它需要与第三方浏览器结合在一起使用。例如,可以在实验楼桌面上的 Firefox 浏览器上运行Selenium,可以直接看到一个 FireFox 窗口被打开,进入网站,然后执行你在代码中设置的动作。虽然使用 Firefox 浏览器看起来更清楚,但在本实验中我们采用 PhantomJS来代替真实的浏览器结合使用。

安装

可以通过 PyPI网站 下载Selenium库,也可以通过第三方管理器(像 pip3 )用命令行下载安装:

pip3 install selenium

测试是否都安装成功:

2.4 PhantomJS

简介

一个 无头 的浏览器,PhantomJS 会把网站加载到内存并执行页面上的 JavaScript,但是不会向用户展示网页的图形化界面,可以用来处理 cookie、JavaScript 及 header 信息,以及任何你需要浏览器协助完成的事情。

安装

PhantomJS 也可以从他的 官方网站下载。因为 PhantomJS 是一个功能完善的浏览器,并非一个 Python 库,所以他不需要像 Python 的其他库一样安装,也不能用 pip 安装。

实验楼的环境是 Ubuntu,可以通过 apt-get 进行安装:

sudo apt-get install phantomjs

2.5 Ajax 信息加载

现在有很多页面都是采用 Ajax 加载数据,我们即将实验的目标网址也是这样的,例如:

如果我们用传统的方法采集这个页面,只能获取加载前的页面,而我们真正需要的信息( Ajax 执行之后的页面)却抓不到,后续实验中可以看到效果的区别。

三、项目实现

本项目的详细教程和完整代码,可在实验楼中查看并在线完成,立即【开始实验】

更多Python经典项目:Python全部 - 课程

如果您也想通过实验楼课程的形式分享自己的实践经验,欢迎投稿给我们:项目投稿通道

python3爬虫图片_Python3 实现淘女郎照片爬虫相关推荐

  1. 第一次用python3爬虫图片_Python3编程实现网络图片爬虫

    Python3 编程实现网络图片爬虫 涂辉 ; 王锋 ; 商庆伟 [期刊名称] <电脑编程技巧与维护> [年 ( 卷 ), 期] 2017(000)023 [摘要] 在大数据时代 , 网络 ...

  2. Python3 实现淘女郎照片爬虫

    项目简介:本实验通过使用 Python 实现一个淘宝女郎图片收集爬虫,学习并实践 BeautifulSoup.Selenium Webdriver 及正则表达式等知识. 本教程由阿treee发布在实验 ...

  3. Python爬虫之爬取淘女郎照片示例详解

    更多编程教程请到:菜鸟教程 https://www.piaodoo.com/ 友情链接: 高州阳光论坛https://www.hnthzk.com/ 人人影视http://www.op-kg.com/ ...

  4. python3爬虫图片_【已下线】Python3 实现淘女郎照片爬虫

    刚学习python 大家就当随便看看 # encoding: utf-8 import urllib import urllib2 import re import json def getHtml( ...

  5. python3.8图片_python3.8.3官方中文文档[PDF][CHM][31.14MB]

    内容简介 Python 3.8.3 文档是一套整理的Python 3.8.3 的官方中文文档,包含chm和官方pdf完整版,需要的朋友可下载试试! Python 是一种易于学习又功能强大的编程语言.它 ...

  6. python3.6爬虫库_python3.6 网络爬虫

    <精通Python网络爬虫:核心技术.框架与项目实战>--导读 前 言 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引擎中,主要使用通用网络爬虫 ...

  7. python3 爬取淘女郎照片

    博主初学python,想写个爬虫练练手.在实验楼找了个项目爬淘女郎照片,不过原文代码有些问题我做了些修改 原文链接https://www.shiyanlou.com/courses/595 一.前期工 ...

  8. 2021-02-27爬虫实例(爬取照片)以虎牙为例

    爬虫实例(爬取照片)以虎牙为例 开始之前点赞,投币加关注哦 开发环境:Python3.7 开发软件:PyCharm Edu 第一步:导入第三方库(模块) # 导入第三方库 import request ...

  9. python爬虫实例网易云-Python3爬虫实例之网易云音乐爬虫

    本篇文章给大家带来的内容是Python3爬虫实例之网易云音乐爬虫.有一定的参考价值,有需要的朋友可以参考一下,希望对你们有所帮助. 此次的目标是爬取网易云音乐上指定歌曲所有评论并生成词云 具体步骤: ...

最新文章

  1. 解读Java Class文件格式
  2. phphstudy运行不了网站_phpStudy访问速度慢和启动失败的解决办法
  3. 洛谷 P3102 [USACO14FEB]秘密代码Secret Code
  4. 名企程序员被裁实录:早上还在改 Bug,晚上就成下岗工
  5. 60秒计时器的仿真电路_DS1302的电子万年历,时间、闹钟可调,带温度农历显示,原理图、仿真和代码...
  6. java stream Collectors
  7. 二层交换机 不在同一子网_IP地址、子网掩码、网关之间有什么联系呢?各自用途有什么?...
  8. opencv4 图像特征匹配_【从零学习OpenCV 4】图像模板匹配
  9. SQLLDR载数加速,优化参数
  10. TCP/IP重传超时--RTO - SRTT (Smoothed Round Trip Time)
  11. 苹果怎么换行打字_微信悄悄上线新功能!安卓苹果都有,很多人还不知道……...
  12. python 获取当前日期和时间_python获取当前日期和时间的方法
  13. 内科大和内农大计算机,内蒙古八大高校排名,“内大”第一实至名归,“内财”垫底上榜...
  14. mysql 轨迹数据存储_中移物联网在车联网场景的 TiDB 探索和实现
  15. 浅谈经济的真相,你无法逃避的问题(简论房地产是谁的噩梦)
  16. 刘德华要加盟《战狼3》演老狼 你会去看吗?
  17. C++:MFC+VS2019当你Dlg右键“转到”对话框,提示“未能完成操作,拒绝访问”,资源视图中.re显示“X在另一个编辑器中打开”。
  18. java 月亮升起,描写月亮升起的句子
  19. 测试问卷星问卷公开的问题
  20. 在手机中怎样将PDF转换成TXT

热门文章

  1. JavaScript实战 纯JavaScript实现别踩白块(源码)
  2. JS之setInterval方法
  3. DSP的基本结构和特征
  4. 江苏省常州市谷歌高清卫星地图下载
  5. 新手上路之第一次自驾游
  6. SpringBoot-Maven打包压缩瘦身
  7. 2022 年最新微博签到数据集
  8. 网页上facebook分享功能的具体实现
  9. 计算机毕业设计-仿QQ音乐--HTML+CSS
  10. 好听的歌曲,更新记录听过的音乐。。