一、爬虫是什么?

#1、什么是互联网?
    互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。#2、互联网建立的目的?互联网的核心价值在于数据的共享/传递:数据是存放于一台台计算机上的,而将计算机互联到一起的目的就是为了能够方便彼此之间的数据共享/传递,否则你只能拿U盘去别人的计算机上拷贝数据了。#3、什么是上网?爬虫要做的是什么?
    我们所谓的上网便是由用户端计算机发送请求给目标计算机,将目标计算机的数据下载到本地的过程。#3.1 只不过,用户获取网络数据的方式是:浏览器提交请求->下载网页代码->解析/渲染成页面。#3.2 而爬虫程序要做的就是:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中#3.1与3.2的区别在于:
      我们的爬虫程序只提取网页代码中对我们有用的数据#4、总结爬虫#4.1 爬虫的比喻:如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据#4.2 爬虫的定义:
      向网站发起请求,获取资源后分析并提取有用数据的程序 #4.3 爬虫的价值:互联网中最有价值的便是数据,比如天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等等,这些数据都代表了各个行业的真金白银,可以说,谁掌握了行业内的第一手数据,谁就成了整个行业的主宰,如果把整个互联网的数据比喻为一座宝藏,那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了所有互联网信息公司幕后的老板,换言之,它们都在免费为你提供有价值的数据。

二、爬虫的基本流程

#1、发起请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头、请求体等#2、获取响应内容
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等#3、解析内容
解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件#4、保存数据
数据库
文

三、请求与响应

#http协议:http://www.cnblogs.com/haiyan123/p/7298967.html#Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)#Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)#ps:浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Response后,是要提取其中的有用数据。

四、Request

#1、请求方式:
    常用的请求方式:GET,POST其他请求方式:HEAD,PUT,DELETE,OPTHONSps:用浏览器演示get与post的区别,(用登录演示post)post与get请求最终都会拼接成这种形式:k1=xxx&k2=yyy&k3=zzzpost请求的参数放在请求体内:可用浏览器查看,存放于form data内get请求的参数直接放在url后#2、请求url
    url全称统一资源定位符,如一个网页文档,一张图片一个视频等都可以用url唯一来确定url编码https://www.baidu.com/s?wd=图片图片会被编码(看示例代码)网页的加载过程是:加载一个网页,通常都是先加载document文档,在解析document文档的时候,遇到链接,则针对超链接发起下载图片的请求#3、请求头User-agent:告诉它这是浏览器发过来的请求(请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户)务必加上hostcookies:cookie用来保存登录信息Referer:上一次的跳转路径一般做爬虫都会加上请求头#4、请求体
    如果是get方式,请求体没有内容如果是post方式,请求体是format dataps:1、登录窗口,文件上传等,信息都会被附加到请求体内2、登录,输入错误的用户名密码,然后提交,就可以看到post,正确登录后页面通常会跳转,无法捕捉到post

 1 import requests
 2 from urllib.parse import urlencode
 3 # 请求方式
 4 kwords = input("请输入关键字:>>").strip()
 5 res = urlencode({"wd":kwords}) #     # 请求的url,当你在百度输入中文的时候,你把url拿下来会变成下面的这样格式的url,所以得urlencode一下
 6 url ="https://www.baidu.com/s?"+res   #https://www.baidu.com/s?wd=%E5%9B%BE%E7%89%87
 7
 8 response = requests.get(
 9     # 请求的url,当你在百度输入中文的时候,你把url拿下来会变成下面的这样格式的url
10     url,
11     # 请求头
12     headers={
13         "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",
14     },
15 )
16 with open("a.html","w",encoding="utf-8") as f:
17     f.write(response.text)
18 # print(response.status_code)

示例代码1

 1 kwords = input("请输入关键字:>>").strip()
 2 response = requests.get(
 3     "https://www.baidu.com/s?",
 4     # 请求的url,当你在百度输入中文的时候,你把url拿下来会变成下面的这样格式的url
 5     params={
 6         "wd":kwords,
 7         'pn':20
 8     },
 9     # 请求头
10     headers={
11         "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36",
12     },
13 )
14 with open("b.html","w",encoding="utf-8") as f:
15     f.write(response.text)
16 # print(response.status_code)

示例代码二(和上面的结果是一样的)

五、Response

#1、响应状态200:代表成功301:代表跳转404:文件不存在403:权限502:服务器错误#2、Respone header
    Location:跳转set-cookie:可能有多个,是来告诉浏览器,把cookie保存下来#3、preview就是网页源代码
    最主要的部分,包含了请求资源的内容如网页html,图片二进制数据等

六、总结

#1、总结爬虫流程:爬取--->解析--->存储#2、爬虫所需工具:
    请求库:requests,selenium解析库:正则,beautifulsoup,pyquery存储库:文件,MySQL,Mongodb,Redis#3、爬虫常用框架:scrapy

 1 import requests #pip3 install requests
 2 import re
 3 import hashlib
 4 import time
 5
 6 movie_path=r'C:\mp4'
 7
 8 def get_page(url):
 9     try:
10         response=requests.get(url)
11         if response.status_code == 200:
12             return response.text
13     except Exception:
14         pass
15
16 def parse_index(index_page):
17     urls=re.findall('class="items".*?href="(.*?)"',index_page,re.S)
18     for url in urls:
19         if not url.startswith('http'):
20             url='http://www.xiaohuar.com'+url
21         yield url
22
23 def parse_detail(detail_page):
24     l=re.findall('id="media".*?src="(.*?)"',detail_page,re.S)
25     if l:
26         movie_url=l[0]
27         if movie_url.endswith('mp4'):
28             yield movie_url
29
30 def get_movie(url):
31     try:
32         response=requests.get(url)
33         if response.status_code == 200:
34             m=hashlib.md5()
35             m.update(str(time.time()).encode('utf-8'))
36             m.update(url.encode('utf-8'))
37             filepath='%s\%s.mp4' %(movie_path,m.hexdigest())
38             with open(filepath,'wb') as f:
39                 f.write(response.content)
40                 print('%s 下载成功' %url)
41     except Exception:
42         pass
43
44 def main():
45     base_url='http://www.xiaohuar.com/list-3-{page_num}.html'
46     for i in range(5):
47         url=base_url.format(page_num=i)
48         index_page=get_page(url)
49         detail_urls=parse_index(index_page)
50         for detail_url in detail_urls:
51             detail_page=get_page(detail_url)
52             movie_urls=parse_detail(detail_page)
53             for movie_url in movie_urls:
54                 get_movie(movie_url)
55
56 if __name__ == '__main__':
57     main()

爬取校花网视频示例一

 1 import requests #pip3 install requests
 2 import re
 3 import hashlib
 4 import time
 5 from concurrent.futures import ThreadPoolExecutor
 6
 7 pool=ThreadPoolExecutor(50)
 8 movie_path=r'C:\mp4'
 9
10 def get_page(url):
11     try:
12         response=requests.get(url)
13         if response.status_code == 200:
14             return response.text
15     except Exception:
16         pass
17
18 def parse_index(index_page):
19     index_page=index_page.result()
20     urls=re.findall('class="items".*?href="(.*?)"',index_page,re.S)
21     for detail_url in urls:
22         if not detail_url.startswith('http'):
23             detail_url='http://www.xiaohuar.com'+detail_url
24         pool.submit(get_page,detail_url).add_done_callback(parse_detail)
25
26 def parse_detail(detail_page):
27     detail_page=detail_page.result()
28     l=re.findall('id="media".*?src="(.*?)"',detail_page,re.S)
29     if l:
30         movie_url=l[0]
31         if movie_url.endswith('mp4'):
32             pool.submit(get_movie,movie_url)
33
34 def get_movie(url):
35     try:
36         response=requests.get(url)
37         if response.status_code == 200:
38             m=hashlib.md5()
39             m.update(str(time.time()).encode('utf-8'))
40             m.update(url.encode('utf-8'))
41             filepath='%s\%s.mp4' %(movie_path,m.hexdigest())
42             with open(filepath,'wb') as f:
43                 f.write(response.content)
44                 print('%s 下载成功' %url)
45     except Exception:
46         pass
47
48 def main():
49     base_url='http://www.xiaohuar.com/list-3-{page_num}.html'
50     for i in range(5):
51         url=base_url.format(page_num=i)
52         pool.submit(get_page,url).add_done_callback(parse_index)
53
54 if __name__ == '__main__':
55     main()

爬取校花网视频示例二(加了并发的)

转载于:https://www.cnblogs.com/TheLand/p/9252647.html

爬虫----爬虫基本原理相关推荐

  1. 和移动对接短信http协议和cmpp协议那个好_python网络爬虫之HTTP原理,爬虫的基本原理,Cookies和代理介绍...

    一.HTTP基本原理 (一)URI和URL URI的全称为统一资源标志符,URL的全称为统一资源定位符.用来指定一个资源的访问方式,包括访问协议,访问路径和资源名称,从而找到需要的资源(网页的内容都是 ...

  2. 爬虫从入门到放弃——爬虫的基本原理

    爬虫的基本原理:https://www.cnblogs.com/zhaof/p/6898138.html 这个文章写的非常好,把爬虫 的基本思路解释的很清楚的. 一.介绍工具(用什么爬) 1.Pyth ...

  3. python爬虫基本原理_Python爬虫【一】爬虫的基本原理

    一.爬虫基本原理 1.获取网络数据 用户方式:浏览器提交请求->下载网页代码->解析/渲染成页面 爬虫方式:模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放 ...

  4. 爬虫的基本原理:网络爬虫、爬虫基本流程、解析方式、保存数据

    爬虫的基本原理:网络爬虫.爬虫基本流程.解析方式 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集 ...

  5. 微信公众号爬虫的基本原理

    爬虫的基本原理 所谓爬虫就是一个自动化数据采集工具,你只要告诉它要采集哪些数据,丢给它一个 URL,就能自动地抓取数据了.其背后的基本原理就是爬虫程序向目标服务器发起 HTTP 请求,然后目标服务器返 ...

  6. Python的爬虫学习笔记本(一)爬虫的基本原理

    NLP的任务往往需要大量的语料库作为数据集,而尽管现有的许多任务上都有固定的数据集,但还是在很多方面存在着欠缺.为了弥补这个欠缺,网上的大量免费的文本信息就需要通过爬虫爬下来.由此开始了爬虫的学习. ...

  7. 爬虫的基本原理:爬虫概述及爬取过程

    一.什么是爬虫 爬虫就是获取网页并提取和保存信息的自动化程序. 1)我们可以把互联网比作一张大网,而爬虫(网络爬虫)便是在网上爬行的蜘蛛.把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取 ...

  8. Python爬虫——爬虫是什么都可以爬的吗?Robots协议!

    Python爬虫--爬虫是什么都可以爬的吗? 初识"爬虫"这个词时,想必大家都会和我一样,认为"爬虫"就是爬取网站上的各种内容,可以抓取网站的信息为我们所用. ...

  9. 金融数据分析(三)当当网店铺商品爬虫——爬虫类书籍为例:requestsbs4

    案例(二)爬虫预热 项目一:当当网店商品爬虫--爬虫类书籍为例 此案例是运用bs4库find方法对相关内容进行抓取. -*- coding: utf-8 -*- import requests imp ...

  10. python爬取知乎话题广场_学习python爬虫---爬虫实践:爬取B站排行榜2(爬取全部分类排行榜、利用pygal库作图)...

    前面我们爬取了B站上全站的排行榜,详细见:魏勇:学习python爬虫---爬虫实践:爬取B站排行榜​zhuanlan.zhihu.com 一.爬取全部分类排行榜 我们观察一下B站排行榜,那里还有番剧排 ...

最新文章

  1. 量子计算的符号表示(Dirac notation)
  2. 华为亮度自动调节没了_一加8T不止有8192级自动亮度调节 刘作虎在线种草
  3. Eclipse MyEclipse下常用快捷键介绍
  4. Spark 简介与安装部署
  5. 欢乐纪中某A组赛【2019.7.10】
  6. 怎么主动发起话题_为什么男生不愿意主动追求女生了?这或许是最终的核心原因...
  7. 基于CSE的微服务架构实践-Spring Boot技术栈选型
  8. 面试要15K,HR说你只值10K,怎么斗得过?
  9. struts2中struts:iterator标签的使用
  10. 如何查看CSDN发布的博客和上传的资源?
  11. 计算机软件 属于特许权,​软件使用权是否属于无形资产
  12. Python 根据excel内容批量生成二维码
  13. VMware虚拟机安装Windows XP学习教程
  14. 编程之美 - 抓石头游戏(2)
  15. 方舟服务器怎么去地牢拿芯片,方舟生存进化怎么拿芯片
  16. 以游戏玩家的视角开启设计模式
  17. JAVA经典算法40题
  18. liunx定时清理运行内存脚本
  19. 502问题怎么排查?
  20. React+DvaJS 之 hook 路由权限控制

热门文章

  1. 当数据中心碰上云计算
  2. 天是岸:优秀的网络营销推广人,身上一般都具备这7大特质
  3. 计算机网考里操作题发邮件,电大_全国计算机应用基础考试_网考内容_全部操作题(小条版)...
  4. h5调用微信,微博等分享
  5. 瞪羚企业申报流程材料
  6. 如何运行matlab代码?怎样找到matlab主程序?
  7. 基于支付宝微信通知的一种个人收款回调方案
  8. 招商银行信用卡中心大数据
  9. Linux虚拟机连接外网
  10. 【芯片使用】74HCHC595