此次爬虫很简单,就是爬斗鱼直播平台上的美女主播的图片 ,注要用了urllib2库,爬虫的网址是https://www.douyu.com/directory/game/yz 。直接贴代码:

import urllib2
import urllib
import re
import timedef getHtml(url):request = urllib2.Request(url)request.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36')response = urllib2.urlopen(request)html=response.read()return html

def getImage(html):
imglist=re.findall(r’data-original=”(.*?.(jpg|jpeg))”’,html)
print(len(imglist))
path =””
x=0
for img in imglist:
urllib.urlretrieve(img[0],”/home/qiracle/douyu/”+str(x)+”.”+img[1])
x+=1
time.sleep(1)

html =getHtml("https://www.douyu.com/directory/game/yz")
getImage(html)

最终爬到的结果如下:

简单的python网络爬虫实现相关推荐

  1. 简单了解Python网络爬虫

    网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...

  2. Python网络爬虫简单教程——第一部

    Python网络爬虫简单教程--第一部 感谢,如需转载请注明文章出处:https://blog.csdn.net/weixin_44609873/article/details/103384984 P ...

  3. 利用Python网络爬虫获取分类图片,简单处理反爬教学

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  4. 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型

    Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...

  5. python网络爬虫权威指南 百度云-分析《Python网络爬虫权威指南第2版》PDF及代码...

    对那些没有学过编程的人来说,计算机编程看着就像变魔术.如果编程是魔术(magic),那么网页抓取(Web scraping)就是巫术(wizardry),也就是运用"魔术"来实现精 ...

  6. 精通python网络爬虫-精通python网络爬虫

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多, ...

  7. python爬虫程序-Python网络爬虫实战(一)快速入门

    本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...

  8. 精通python网络爬虫-精通Python网络爬虫 PDF 高清版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.核心技术.框架.项目实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小108.6 MB,韦玮编写 ...

  9. python网络爬虫教程-终于明了python网络爬虫从入门到实践

    Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门.以下是小编为你整理的python网络爬虫从入门到实践 环境配置:下载Pyth ...

最新文章

  1. linux shell if 参数
  2. 屏幕的遮挡层,js得到屏幕宽高、页面宽高 (window.screen.availHeight)等--
  3. python colorama模块
  4. 一款不错的开源 Laravel 后台面板/CMS系统 —— LaraAdmin
  5. pyton random 模块
  6. ps cc 生成html,Photoshop自定义工具扩展面板(支持PS CC 2019)
  7. android 平板重装系统,平板电脑系统重装方法
  8. MMORPG游戏优化报告
  9. HTML用css把英文字母改大,CSS转换英文大小写text-transform属性
  10. vue3后台管理系统(https://github.com/noob-Jp/my-admin-vue3)
  11. EAX、ECX、EDX、EBX
  12. css绘制一个Pinia小菠萝
  13. Google 就业岗分析
  14. RT_Thread Studio入门系列4--STM32之SPI配置w25qxxx
  15. vue 跳转页面删除当前tab
  16. Shell语言(一)
  17. 卡迈克尔(Carmichael)函数
  18. 先进PID控制Matlab仿真第4版-pdf课本+仿真程序
  19. 解决linux下/etc/rc.local开机器不执行的原因
  20. 2020云原生生态大会:ppt下载和视频精彩回放

热门文章

  1. 低功耗广域网LPWAN 8大关键技术对比
  2. 基于铁犀牛ironrhino平台的税务档案管理系统
  3. C语言之clock_gettime函数
  4. 用adobe premium pro剪切视频和去除音频
  5. B站发布首个8K视频,CCTV-8K频道即将开播,一大堆8K利好消息正在到来,8K赛道要开启加速度了吗?
  6. Trunk Based Development介绍——TBD Workflow(一)
  7. 海湾9000报初始未定义故障_海湾9000操作流程图
  8. 苹果M1芯片为何如此快?一个开发者的解释
  9. IDC行业研究报告-2021
  10. U-NAS OS 系统故障之,WEB控制界面无法登录解决方法