简单的python网络爬虫实现
此次爬虫很简单,就是爬斗鱼直播平台上的美女主播的图片 ,注要用了urllib2库,爬虫的网址是https://www.douyu.com/directory/game/yz 。直接贴代码:
import urllib2
import urllib
import re
import timedef getHtml(url):request = urllib2.Request(url)request.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36')response = urllib2.urlopen(request)html=response.read()return html
def getImage(html):
imglist=re.findall(r’data-original=”(.*?.(jpg|jpeg))”’,html)
print(len(imglist))
path =””
x=0
for img in imglist:
urllib.urlretrieve(img[0],”/home/qiracle/douyu/”+str(x)+”.”+img[1])
x+=1
time.sleep(1)
html =getHtml("https://www.douyu.com/directory/game/yz")
getImage(html)
最终爬到的结果如下:
简单的python网络爬虫实现相关推荐
- 简单了解Python网络爬虫
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...
- Python网络爬虫简单教程——第一部
Python网络爬虫简单教程--第一部 感谢,如需转载请注明文章出处:https://blog.csdn.net/weixin_44609873/article/details/103384984 P ...
- 利用Python网络爬虫获取分类图片,简单处理反爬教学
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...
- 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型
Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...
- python网络爬虫权威指南 百度云-分析《Python网络爬虫权威指南第2版》PDF及代码...
对那些没有学过编程的人来说,计算机编程看着就像变魔术.如果编程是魔术(magic),那么网页抓取(Web scraping)就是巫术(wizardry),也就是运用"魔术"来实现精 ...
- 精通python网络爬虫-精通python网络爬虫
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多, ...
- python爬虫程序-Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
- 精通python网络爬虫-精通Python网络爬虫 PDF 高清版
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.核心技术.框架.项目实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小108.6 MB,韦玮编写 ...
- python网络爬虫教程-终于明了python网络爬虫从入门到实践
Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门.以下是小编为你整理的python网络爬虫从入门到实践 环境配置:下载Pyth ...
最新文章
- linux shell if 参数
- 屏幕的遮挡层,js得到屏幕宽高、页面宽高 (window.screen.availHeight)等--
- python colorama模块
- 一款不错的开源 Laravel 后台面板/CMS系统 —— LaraAdmin
- pyton random 模块
- ps cc 生成html,Photoshop自定义工具扩展面板(支持PS CC 2019)
- android 平板重装系统,平板电脑系统重装方法
- MMORPG游戏优化报告
- HTML用css把英文字母改大,CSS转换英文大小写text-transform属性
- vue3后台管理系统(https://github.com/noob-Jp/my-admin-vue3)
- EAX、ECX、EDX、EBX
- css绘制一个Pinia小菠萝
- Google 就业岗分析
- RT_Thread Studio入门系列4--STM32之SPI配置w25qxxx
- vue 跳转页面删除当前tab
- Shell语言(一)
- 卡迈克尔(Carmichael)函数
- 先进PID控制Matlab仿真第4版-pdf课本+仿真程序
- 解决linux下/etc/rc.local开机器不执行的原因
- 2020云原生生态大会:ppt下载和视频精彩回放