想必新老python学习者,对爬虫这一概念并不陌生,在如今大数据时代,很多场景都需要利用爬虫去爬取数据,而这刚好时python领域,如何实现?怎么做?一起来看下吧~

获取图片:

1、当我们浏览这个网站时,会发现,每一个页面的URL都是以网站的域名+page+页数组成,这样我们就可以逐一的访问该网站的网页了。

2、当我们看图片列表时中,把鼠标放到图片,右击检查,我们发现,图片的内容由ul包裹的li组成,箭头所指的地方为每个套图的地址,这样我们就可以进入套图,一个这样的页面包含有24个这样的套图,我们用BeautifulSoup处理。

3、我们进入套图,鼠标右击,发现该套图图片的最大图片数为第十个span的值,而且每个套图的url同①原理相同为套图的url+第几张图片,最后下载的url由一个class为main-titleDIV组成。提取img标签的src属性即可获得下载链接。

代码如下:from bs4 import BeautifulSoup

import requests

import os

import re

base_url='

header = { 'Referer':'http://www.mzitu.com'}

for x in range(61,62):

html_a=requests.get(base_url+str(x),headers=header)

soup_a=BeautifulSoup(html_a.text,features='lxml')

pages=soup_a.find('ul',{'id':'pins'}).find_all('a')

test=re.findall('"href":"(.*?)"',pages)

print(test)

b=1

for y in pages:

if(b%2!=0):

html=requests.get(y['href'],headers=header)

soup_b=BeautifulSoup(html.text,features='lxml')

pic_max=soup_b.find_all('span')[10].text

tittle=soup_b.find('h2',{'class':'main-title'}).text

u=str(tittle).replace(':','').replace('!','').replace('?','').replace(',','').replace(' ','')

os.makedirs('./img/'+u)

for i in range(1,int(pic_max)+1):

href=y['href']+'/'+str(i)

html2=requests.get(href,headers=header)

soup2=BeautifulSoup(html2.text,features='lxml')

pic_url=soup2.find('img',alt=tittle)

html_name=requests.get(pic_url['src'],headers=header,stream=True)

file_name=pic_url['src'].split(r'/')[-1]

with open('./img/'+u+'/'+file_name,'wb') as f:

for x in html_name.iter_content(chunk_size=32):

f.write(x)

b=b+1

print('ok')

如需更多python实用知识,点击进入PyThon学习网教学中心。

python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容?相关推荐

  1. python爬虫微信朋友圈怎么发文字_如何利用Python网络爬虫抓取微信朋友圈的动态(上)...

    今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

  2. python识别图片文字_如何利用Python识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  3. 利用python进行数据分析第一版和第二版区别_《利用Python进行数据分析·第2版》第1章 准备工作...

    1.1 本书的内容 本书讲的是利用Python进行数据控制.处理.整理.分析等方面的具体细节和基本要点.我的目标是介绍Python编程和用于数据处理的库和工具环境,掌握这些,可以让你成为一个数据分析专 ...

  4. python发微信红包群二维码_小伙利用Python群发“支付宝”红包短信,一天赏金可达上千元...

    原标题:小伙利用Python群发"支付宝"红包短信,一天赏金可达上千元 注:以下教程仅供学习交流,娱乐而已,切勿用在非法途径 前言 最近朋友圈.微信群.QQ群里面全是什么扫码领取支 ...

  5. python 抓取微博评论破亿_如果利用Python分析14亿条数据!资深程序员手把手教你!过亿级!...

    挑战 1-gram 的数据集在硬盘上可以展开成为 27 Gb 的数据,这在读入 python 时是一个很大的数据量级.Python可以轻易地一次性地处理千兆的数据,但是当数据是损坏的和已加工的,速度就 ...

  6. 爬取亚马逊评论_如何利用插件抓取亚马逊评论和关键词?

    如何抓取亚马逊的商品评价? 原本想给大家介绍使用市面上常见或者付费的爬虫工具,直到我发现了这个Chrome的免费插件 --Instant Data Scraper,当时我差点被感动哭了.比起学编程语言 ...

  7. python获取实时基金数据由银河证券提供_我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量...

    原标题:我用Python写了个金融数据爬虫,半小时干了组里实习生一周的工作量 最近,越来越多的研究员.基金经理甚至财务会计领域的朋友,向小编咨询:金融人需要学Python么? 事实上在2019年,这已 ...

  8. python爬虫能爬取微信密码吗_如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例...

    今天我们继续focus on微信,不过这次给大家带来的是利用Python网络爬虫抓取微信好友总数量和微信好友男女性别的分布情况.代码实现蛮简单的,具体的教程如下. 相信大家都知道,直接通过网页抓取微信 ...

  9. python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程

    如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...

  10. python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)...

    原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...

最新文章

  1. 如何用Jupyter Notebook制作新冠病毒疫情追踪器?
  2. 白帽子讲Web安全(纪念版)
  3. unity3d EasyTouch滑动屏幕移动相机观看场景
  4. python课程内容-Python自学难吗?有哪些课程内容?
  5. 2个字节能存多少个16进制_LabVIEW高级编程技巧:如何从内存字节流中恢复原始数据...
  6. MyEclipse 中修改JSP模板
  7. 数据分析平台搭建案例
  8. 河北外国语学院计算机宿舍,河北外国语学院宿舍怎么样 住宿条件好不好
  9. 如何在类的外部修改类中的私有数据成员
  10. BZOJ 1004: [HNOI2008]Cards [Polya 生成函数DP]
  11. 谷歌推Android 8.1开发者预览版,Pixel 2神秘芯片终于派上用场了
  12. App Store最新审核指南(2015年3月更新版)
  13. 实体与表映射关系XXX.hbm.xml配置详解(转)
  14. html制作幸运抽奖,基于canvas的jQuery幸运抽奖大轮盘插件
  15. 【预测模型-随机森林分类】基于随机森林算法实现数据分类附matlab代码
  16. Endless Dice 游戏解析
  17. 计算机图形学复习笔记
  18. 2017计科01-08编译原理模拟测试2--chap03
  19. ElasticSearch ingest-geoip插件
  20. mtk插u盘如何休眠?_iOS13.3.1 U盘越狱卡代码问题,你也是吗?

热门文章

  1. 小技巧:两种方式快速实现平滑涂鸦画板
  2. unity检测范围内敌人_怎样获取离自己距离最近的敌人
  3. DNA测序技术发展史:一代、二代、三代测序技术简要原理及比较
  4. 防盗报警器c语言程序,基于单片机的汽车防盗报警系统的设计毕业论文.doc
  5. Selenium-WEB自动化学习笔记--更新ing
  6. 面试之你为什么从上家公司离职
  7. pyqt5 点击开始按钮,执行事件,中途点击暂停按钮后,所执行的事件暂停
  8. 跟踪信号发生器理论与操作
  9. 计算机联锁论文开题报告,学生论文开题报告评语
  10. 20162327WJH实验五——数据结构综合应用