接下来会依次准备三个案例(如果要把每一个点都精通的话大约要花费一个月,我说的精通是指自己将代码不用查资料写出来,以下暂未整理):

import requests,threading#多线程处理与控制

from lxml import etree

from bs4 import BeautifulSoup

#获取源码

def get_html(url):

url='http://www.doutula.com/?qqdrsign=01495'

#获取网络地址,但这个地方写死了,怎么办呢,因为我们还没有做多页

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}

#上一步是模拟浏览器信息,固定格式,可记下来

request=requests.get(url=url,headers=headers)#对网址发送一个get请求

response=request.content#获取源码,比test稍微好一点

#print(response)

return response

#接下来是获取外页,即图片自身的源码

def get_img_html(html):

soup=BeautifulSoup(html,'lxml')#解析网页方式,自带html.pparser

all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加

for i in all_a:

print(i)#i是指

img_html=get_html(i['href'])#是用来获取超链接这一部分源码

print(img_html)

#http://www.doutula.com/article/list/?page=2

a=get_html(1)

get_img_html(a)

好了,我们已经可以获取一部分的源码了,这样,我们接下来的工作是开始做多页

import requests,threading#多线程处理与控制

from lxml import etree

from bs4 import BeautifulSoup

#获取源码

def get_html(url):

#url='http://www.doutula.com/?qqdrsign=01495'#获取网络地址,但这个地方写死了,怎么办呢,因为我们还没有做多页

headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36'}

#上一步是模拟浏览器信息,固定格式,可记下来

request=requests.get(url=url,headers=headers)#对网址发送一个get请求

response=request.content#获取源码,比test稍微好一点

#print(response)

return response

#接下来是获取外页,即图片自身的源码

def get_img_html(html):

soup=BeautifulSoup(html,'lxml')#解析网页方式,自带html.pparser

all_a=soup.findall('a',class='list-group-item randomlist')#class是关键字所以此处加

for i in all_a:

print(i)#i是指

爬虫图片href是html图片,python爬虫取图片详解,相关推荐

  1. python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解

    这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...

  2. python网上批量下载表格_python爬虫智能翻页批量下载文件的实例详解

    python爬虫遇到爬取文件内容时,需要一页页的翻页爬取,这样很是麻烦,其实可以获取每个列表信息下的文件名和文件链接,让文件名和文件链接处理为列表,保存后下载,实现智能翻页批量下载文件,本文以以京客隆 ...

  3. 为什么用python写爬虫_老猿为什么写Python爬虫教程

    对于"爬虫", 或许你只是听说过,或许已经有所了解.无论怎样,你可能有过这样的困惑: + 学了爬虫不知道怎么挣钱? + 技术不知道如何进阶? + 遇到问题不知道找谁交流? 十多年前 ...

  4. 【浅谈爬虫】一名合格的Python爬虫工程师必须具备技能—具体了解四大Python爬虫分类以及爬虫基本原理实现

    一.网络爬虫概述 网络爬虫(又被称作为网络蜘蛛.网络机器人,在某社区中经常被称为网页追逐者),可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息,通过Python可以很轻松地编写爬虫程序或 ...

  5. python爬虫是干嘛的?python爬虫能做什么?

    python爬虫可以用于收集数据,爬虫是一个爬虫程序,一个程序的运行速度是非常快的,而且不会因为重复的事情感到疲倦,接下来我们一起学习python爬虫是干嘛用的,python爬虫究竟能做什么呢?pyt ...

  6. python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)

    爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...

  7. html图片标签img的介绍以及基本用法详解

    <img> 元素向网页中嵌入一幅图像.<img> 标签有两个必需的属性:src 属性 和 alt 属性. 必需的属性 属性 值 描述 alt text 规定图像的替代文本. s ...

  8. python发邮件详解 -- smtplib和email模块

    文章目录 python发邮件详解,-->smtplib和email模块 1.python发邮件所需要的基础包 2.smtplib的用法 3.email模块的详细理解和使用 A.MIMEText对 ...

  9. windows上安装Anaconda和python的教程详解

    一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因 ...

  10. python安装教程windows-windows上安装Anaconda和python的教程详解

    一提到数字图像处理编程,可能大多数人就会想到matlab,但matlab也有自身的缺点: 1.不开源,价格贵 2.软件容量大.一般3G以上,高版本甚至达5G以上. 3.只能做研究,不易转化成软件. 因 ...

最新文章

  1. Spring Boot thymeleaf模版支持,css,js等静态文件添加
  2. 防火墙软件测试工资,防火墙的性能测试
  3. NuGet学习笔记(2) 使用图形化界面打包自己的类库[转]
  4. replication debug for PRODUCT_MAT
  5. 内核态和用户态的区别
  6. [js] 说说你对js对象生命周期的理解
  7. WPF解析Word为图片
  8. FISCO BCOS 控制台 部署合约 调用 查看已部署合约的地址
  9. php hr系统,专业hr管理系统
  10. unity创建草地_Unity3D学习笔记(三)为地形添加花草树木
  11. 新世纪10年100个好东西
  12. 不死僵尸木马lpt7.asp.asp与lpt5.cnzzz.asp的删除方法
  13. 新显卡出世,谈谈与深度学习有关的显卡架构和相关技术
  14. [源码和文档分享]基于SDL类库实现的射死大鸡怪3D游戏
  15. 自定义注解,实现业务处理
  16. 一年前,没有Android,我还是一个游戏开发者
  17. 汇编(二)——ARM数据处理指令——算术运算、数据传送
  18. android vitamio 函数,如何在Android Studio中集成Vitamio?
  19. 猫眼api html,猫眼选座API使用说明
  20. java版MC城市地图

热门文章

  1. Windows 文件服务器升级跨林迁移(二)
  2. 小程序门店自提功能开启,酷客多带你玩转O2O模式
  3. 游标、事务并发和锁三者之间的那点事
  4. [改善Java代码]用整数类型处理货币
  5. redis配置开机启动
  6. 7 个漂亮的 JavaScript 的时间轴组件 [转]
  7. Painting A Board --POJ 1691
  8. IssueVission的命令处理
  9. 产品经理入门_所以您想成为产品经理? 这就是我的入门方式。
  10. c++语言文件流,C++ IO类、文件输入输出、string流详细讲解