包图网大家都知道吧 集齐海量设计素材 十分好用 可惜太贵了,今天就带大家使用Python—爬虫爬取这些素材并且保存到本地!

抓取一个网站的内容,我们需要从以下几方面入手:

1-如何抓取网站的下一页链接?

2-目标资源是静态还是动态(视频、图片等)

3-该网站的数据结构格式

源代码如下

import requestsfrom lxml import etreeimport threading class Spider(object): def __init__(self): self.headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"} self.offset = 1 def start_work(self, url): print("正在爬取第 %d 页......" % self.offset) self.offset += 1 response = requests.get(url=url,headers=self.headers) html = response.content.decode() html = etree.HTML(html) video_src = html.xpath('//div[@class="video-play"]/video/@src') video_title = html.xpath('//span[@class="video-title"]/text()') next_page = "http:" + html.xpath('//a[@class="next"]/@href')[0] # 爬取完毕... if next_page == "http:": return self.write_file(video_src, video_title) self.start_work(next_page) def write_file(self, video_src, video_title): for src, title in zip(video_src, video_title): response = requests.get("http:"+ src, headers=self.headers) file_name = title + ".mp4" file_name = "".join(file_name.split("/")) print("正在抓取%s" % file_name) with open('E://python//demo//mp4//'+file_name, "wb") as f: f.write(response.content) if __name__ == "__main__": spider = Spider() for i in range(0,3): # spider.start_work(url="https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html") t = threading.Thread(target=spider.start_work, args=("https://ibaotu.com/shipin/7-0-0-0-"+ str(i) +"-1.html",)) t.start()

效果展示

来源:https://www.cnblogs.com/Py1233/p/12666778.html

python爬虫跳过付费数据_Python爬虫教程:包图网免费付费素材爬取!相关推荐

  1. python下载百度云盘中的数据_python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情...

    在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件, ...

  2. 包图网签约神策数据,助力产品优化

    随着互联网科技的发展与创新,数据驱动理念渗透到各行各业,驱动企业实现业务增长.2017 年 9 月,国内知名设计素材网站包图网正式签约神策数据.包图网在运营的过程中,坚持以用户为中心,为设计师及用户打 ...

  3. python爬视频网站数据_python爬虫基础应用----爬取无反爬视频网站

    一.爬虫简单介绍 爬虫是什么? 爬虫是首先使用模拟浏览器访问网站获取数据,然后通过解析过滤获得有价值的信息,最后保存到到自己库中的程序. 爬虫程序包括哪些模块? python中的爬虫程序主要包括,re ...

  4. python解析网页数据_python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  5. Python 网络爬虫笔记8 -- 股票数据定向爬虫

    Python 网络爬虫笔记8 – 股票数据定向爬虫 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pyth ...

  6. python爬虫 知乎荐书_python爬虫必看书籍推荐

    网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫 ...

  7. python爬取网易云音乐_Python 从零开始爬虫(七)——实战:网易云音乐评论爬取(附加密算法)...

    前言 某宝评论区已经成功爬取了,jd的也是差不多的方法,说实话也没什么好玩的,我是看上它们分析简单,又没加密才拿来试手的.如果真的要看些有趣的评论的话,我会选择网易云音乐,里面汇聚了哲学家,小说家,s ...

  8. python网易云爬虫——实现网易云歌词的爬取(输入歌手的id,即可实现歌词的爬取)

    Python网易云爬虫--实现网易云歌词的爬取(输入歌手的id,即可实现歌词的爬取) 开始动手 打开网易云音乐,找到任意一位歌手的歌曲界面(我们以邓紫棋的<来自天堂的魔鬼>为例). 第一步 ...

  9. python爬取音乐_利用Python对网易云音乐进行爬取!无所不爬的爬虫啊!

    今天,我们利用Python 中的selenium爬取网易云音乐中林俊杰<将故事写成我们>的评论,具体界面如下: 私信小编01 获取数十套PDF!爬虫 web都有的呢! 具体代码如下: #此 ...

  10. 【Python爬虫系列教程 31-100】通过scrapy框架、爬取汽车之家宝马5系图片,学习Images管道

    现在爬取的汽车之家宝马5系车的图片,可以看到在这个网址里面,放了车的不同部位的图片,下面就要将他们爬下来并且保存到不同的文件夹. 首先用到的是pycharm IDE,这个软件可以提高编写代码的效率,因 ...

最新文章

  1. Oracle表空间文件损坏后的排查及解决
  2. Ajax全局加载框(Loading效果)的配置
  3. buider模式的缺陷
  4. Spring学习8之静态代理
  5. php java 单点登录_php实现多站点共用session实现单点登录的方法详解
  6. php获取ios,IOS 通过描述获取UDID PHP代码版
  7. 理论基础 —— 查找 —— 斐波那契查找
  8. gnu2和gnu3区别_GNU,生日快乐:为什么35年后我仍然爱GNU
  9. Sobel边缘检测算法及OpenCV函数实现
  10. Botanical Dimensions:借助第九代智能英特尔® 酷睿™ 处理器实现独特沉浸式体验...
  11. php 日期函数大全,php日期函数
  12. windos读写ext3工具_Windows读写Ext3文件系统
  13. 常见的预测模型及算法
  14. 基于ros单线激光雷达的坐标读取
  15. 析砂性土层php泥浆护壁,土未工程施工习题集2
  16. 计算机本科生毕业设计题目(三)
  17. 机械类有哪些好投一些的核心期刊?
  18. deepin安装 oracle_deepin 安装oracle12c过程
  19. 这家伙有点懒,还没有个性签名 :) --工具篇03
  20. 百度_360_谷歌等各大搜索引擎网站收录提交入口

热门文章

  1. oracle10g_database安装教程,Oracle Database 10g数据库安装及配置教程
  2. android信鸽推送通知栏,【信鸽推送】点击推送通知后,默认会从程序Launcher进入,返回时会回到主界面的问题...
  3. Redhat8 配置使用阿里源(关闭官方订阅)
  4. 图解Java类加载机制
  5. Java 姓名转换拼音(支持单音多音字)
  6. 课堂笔记_图形学基础课程_简单认知00
  7. CSR867x — 蓝牙音频发射器方案(支持USB、模拟和SPDIF)
  8. 检测计算机无线网卡驱动,win10怎么修复无线网卡驱动 无线网卡驱动修复方法
  9. win10 网卡驱动正常搜索不到WiFi信号 解决方法
  10. 你的薪水增速跑赢GDP了没