#四个步骤

1.查看crawl内容的源码格式 crawl的内容可以是 url(链接),文字,图片,视频

2.请求网页源码        (可能要设置)代理,限速,cookie

3.匹配            用正则表达式匹配

4.保存数据          文件操作

#两个基本工具(库)

1.urllib

2.requests

#使用reuests库的一个例子,抓取可爱图片

import requests #导入库

import re

url =r'https://www.woyaogexing.com/tupian/keai' #链接

response =requests.get(url) #get()函数,得到网页

response.encoding ='utf-8'          #让源码中的中文正常显示

html =response.text             #加载网页源码

strs ='

.*?src="(.*?)".*?>' #正则表达式

patern =re.compile(strs,re.S)         #封装成对象,以便多次使用

items =re.findall(patern,html)         #匹配

for i in items:

with open('%d.jpg'%items.index(i),'wb') as file: #新建文件,以二进制写形式'wb'

url ='https:'+i

file.write(requests.get(url).content)    #写入数据,图片是二进制数据

python爬虫步骤-Python爬虫的步骤和工具相关推荐

  1. python中国大学排名爬虫写明详细步骤-python中国大学排名爬虫

    python 中国大学排名爬虫 首先,给一个最好大学网URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html, 点击这里进入 . 功能描述 ...

  2. 爬虫python的爬取步骤-Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  3. python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程

    如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...

  4. python爬虫步骤-Python爬虫怎么入门-初级篇

    经常有同学问老猿Python爬虫该怎么入门,不知道从何学起,网上的文章写了一大堆要掌握的知识,让人更加迷惑. 我也浏览了下网上关于怎么Python爬虫入门的文章,发现有的还在教人用urllib来发送h ...

  5. python爬取网页数据流程_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  6. python爬虫步骤-Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  7. python爬取数据步骤_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  8. python爬虫详细步骤-Python爬虫的两套解析方法和四种爬虫实现过程

    对于大多数朋友而言,爬虫绝对是学习 python 的最好的起手和入门方式.因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功入门.本文想针对某一网页对 python 基础 ...

  9. 用python爬虫的基本步骤-Python爬虫入门:爬虫基础了解

    1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来.想抓取什么?这个由你来控制它咯. ...

  10. python爬虫app步骤_Python爬虫之App爬虫视频下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫之App爬虫视频下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 随着手app的发展逐渐强大,我们手机应用每 ...

最新文章

  1. Snmp在Windows下的实现----WinSNMP编程原理
  2. IE再次曝出安全漏洞 微软表示正在调查
  3. python实现简单的api接口-用python写一个restful API
  4. nginx安装及编译参数详解
  5. 线程池写入mysql_用多线程写入数据库的问题(150分)
  6. linux 下which、whereis、locate、find文件查找命令的区别[ZT]
  7. if/else双分支(JS)
  8. 怎么在服务器跑sql文件,服务器mysql数据库如何运行脚本
  9. 国际冠码与国际电话区号
  10. c command语言学例子,语言学资料(一)CHAPTER 4
  11. 近端梯度法(proximal gradient)
  12. Ubuntu18.04调整屏幕分辨率至1920*1080
  13. 如何还原恢复格式化后的数据文件?
  14. Excel拆分字符判断是否有汉字
  15. python接入支付宝接口
  16. 明日之后维尔市服务器找不到,明日之后 最新服务器互通计划来袭,快来看看有你们的服务器吗?...
  17. 链路追踪 zipkin 可执行 zipkin-server-x-exec.jar 下载地址
  18. 【视频】蕊希直播-回播收录
  19. aac是什么音频格式?aac转化为mp3方法
  20. 博奥智源公司,图书馆管理软件开发功能详解

热门文章

  1. 多线程模拟渡河 C语言 Linux
  2. linux常用命令整理1
  3. oracle常见受权与回收权限 grant和revoke
  4. 10.15 sigstjmp以及siglongjmp函数
  5. VC++实现全局钩子勾住消息对话框
  6. Bailian4124 海贼王之伟大航路【DP】
  7. POJ1521 LA2088 HDU1053 ZOJ1117 Entropy【哈夫曼编码】
  8. Bailian3178 开关电灯【模拟】
  9. CCF NOI1032 菱形
  10. Python 数据结构与算法 —— 常见面试题