一、全面的爬虫工程师的技能单

1、python编程语言基础
    2、HTTP协议(处理响应, )
    3、html,css,javascript基本web技能
    4、mysql/mongodb/redis等存储系统
    5、urllib/requests/scrapy/pyspider  用来模拟浏览器发起HTTP请求的组件
    6、抓包工具和网页分析工具(正则,bs4,xpath,selenuim 异步请求,模拟登陆,最难的验证码(机器学习), 反反爬虫)
    7、json/csv/db

html  xml   半结构化

二、Python3.x教程

廖雪峰Python3教程(文档):http://www.liaoxuefeng.com/
    菜鸟教程Python3教程(文档):http://www.runoob.com/python3/python3-tutorial.html

三、python基础内容点

python编程语言简单介绍(产生背景,优缺点,流行度)
    python的开发环境搭建(linux,windows,python,pycharm)
    python的hello world
    python关键字查看
    python的变量定义
    python的数据类型(Number String List Tuple Set Dict)
    python的注释(单行和段落)
    python的输入输出(print 和 input)
    python数据类型转换/常用数值运算/类型判断
    python的集合,列表,元组,字典
    python的流程控制for和while和if(break, continue, pass)
    python的切片
    python的代码缩进(换行,段落)
    python函数(自定义函数,常用内置模块,常用函数,函数调用)
    python异常
    python模块(内置模块,导入模块,自定义模块)
    python迭代器和生成器
    python面向对象
    python读写文件IO
    python数据库和JSON和CSV

四、爬取单

名言网:http://quotes.toscrape.com
    中国天气网
    必应词典翻译/身份证归属地/手机号归属地
    拉勾招聘职位
    当当畅销书
    豆瓣影评
    链家/自如租房/如家
    糗事百科/内涵段子/新浪微博
    校花/校草照片
    起点小说
    微信公众号
    知乎热点
    B站用户
    NBA2017-2018赛季比较详细数据
    猫眼电影

五、爬虫

概念:
    1、爬虫:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网www信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
    2、爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
    3、爬虫:根本目的在于获取网页源码中的数据。更深入一些,就会出现和网页进行POST交互从而获取服务器接收POST请求后返回的数据!总结:爬虫就是由计算机自动与服务器交互获取数据的工具。

爬虫相关的其他核心概念:
    反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
    误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
    拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
    资源:机器成本与人力成本的总和。

爬虫的分类
    1、聚焦爬虫:开发人员针对特定用户而开发的数据采集程序   聚焦爬虫
    2、通用爬虫:尽可能的爬取所有的网页,  搜索引擎

基本流程:
    1、发送请求(urllib, requests)  在浏览器的地址栏中输入了URL之后回车的那个动作
    2、获取页面内容  得到服务器接收请求之后进行处理得到的网页源代码
    3、解析页面(bs4, xpath,正则re,jsonpath, pyquery, json)  解析源码,抽取数据
    4、异步动态加载/验证码处理(selenium, phantomJs)
    5、抽取并存储内容(json,csv/tsv, 数据库)    处理数据,存储数据
    
    爬虫的工作原理

爬虫的工作方式

有两种策略:

1、深度优先爬取

2、广度优先爬取

response = urllib.request.urlopen("https://www.baidu.com/")
        content = response.read()

content是一个网页的源码组成的一个字符串。

这个源码中会包含很多的其他的http地址  URL  怎么去对待这个URL ?

https://movie.douban.com/top250
        https://movie.douban.com/top250?start=25&filter=

基本上,也就是除了带分页的是标准的广度优先之外, 其他的基本上都是 
        广度 + 深度

搜索引擎的工作原理

hadoop的产生

google   nutch  爬虫    doug cutting (lucene)

几乎是爬取了整个网络的所有网页,所以每个网页都存储下来的话,那么数据量必然很大。

数据量特别大

为什么大数据的应用技术, 最先从google弄出来。

在存储的时候,有必要把所有的网页内容都存储下来么?

这个URL中有哪些关键信息存储下来。!!
        关键信息就是这个网页中的, 核心

排序   PageRank   value 分数   PageRank

就是给每一个网页的对应的某一个关键字都衡量出一个  分数

六、爬虫框架

scrapy 
    pyspider

七、反爬虫 和 反反爬虫

1、爬虫领域的一些相关概念:
    爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。
    反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。
    误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。
    拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。
    资源:机器成本与人力成本的总和。

2、约定协议/君子协定 robots.txt
    robots协议:协议指明通用爬虫可以爬取网页的权限
    robots协议是一种约定,一般是大型公司的程序或者搜索引擎等遵守

3、为什么要反爬虫?
        1、爬虫占总PV比例较高,过多消耗服务器资源
        2、公司的免费资源被批量爬走,利人损己
        3、法律问题
    
    4、反爬虫应对策略
        1、技术压制
        2、嘲讽
        3、放水

光环大数据python爬虫相关推荐

  1. 金融大数据Python爬虫——(按时间爬取、一次性批量爬取多页、一次性批量爬取多家公司多页)爬取百度新闻标题、网址、日期和新闻来源(数据爬取、清洗)

    好几个月没写博文了,有空来玩玩爬虫,之前接触了一个爬虫的项目,感触挺深的,当时有个爬取巨潮网的操作,网上的代码天花乱坠,最后还是要靠自己,今天这篇算是入门级别,欢迎收藏评论.

  2. python有什么含金量高的证书排行_光环大数据分享18张含金量最高的大数据证书...

    光环大数据人工智能培训认为,不管你是基础不牢固没有开发经验的小白,还是有工作经验还想不断提升自己的开发者们,对于想在这个行业有发展,并付诸了实际努力的人,在这样一个发展前景下,未来都是有无限可能的.但 ...

  3. 为什么不用python做大数据_光环大数据告诉你为什么说:人生苦短,我用Python

    首先我们要说明的是本文不扯什么大道理,只是先介绍Python的背景,然后从实用的角度出发举一两个真实栗子. 首先要想了解要一门语言的好坏,或者为什么招程序员喜欢(卧槽,原来程序员喜欢不是女朋友?)我们 ...

  4. 【AI案例】(二)搭建大数据Python生态知识体系

    文章目录 1. 软件在大数据方向的应用 2. 大数据方向应用: 3. 大数据的应用流程 4. 传统数据分析的痛点: 5. 大数据的应用流程与生态圈 6. 大数据技术框架应用 7. Flink框架应用 ...

  5. hadoop 光环大数据_光环大数据

    光环大数据高薪就业培训班,让你120天月薪轻松过万!准备好了吗?<光环大数据高薪就业班>课程介绍:本课程主要包含6大核心部分,分别是JavaSE课程.JavaEE课程.并发编程.Linux ...

  6. hadoop 光环大数据_Hadoop - HDFS的数据流剖析

    Hadoop - HDFS的数据流剖析 阐发文件的读取 为了理解客户端及与之交互的HDFS.namenode 和 datanode之间的数据流是什么样的 客户端经过进程调用FileSystem对象的o ...

  7. 2021-04-01裁判文书网数据python爬虫更新下载

    长期持续更新数据 2020-11-08裁判文书网数据python爬虫更新下载添加链接描述 截至3月已从数据库中下载1亿1200万条裁判文书数据,有需要数据的伙伴可以(。・∀・)ノ゙嗨前台QQ7900- ...

  8. 2020-11-08裁判文书网数据python爬虫更新下载

    2020年9月1日更新 文书网2020年8月31日晚更新之后就需要手机注册验证登录了,所以,账号是个问题. 分析 1. 登录 比较简单哦,主要难题是多账号的登录及session的更新维护. 2.其它 ...

  9. 大数据Python爬取B站电影排行榜——爬取信息

    大数据Python爬取B站电影排行榜-信息爬取 前言 一.配置环境 二.爬取B站电影排行榜top100 1.找到B站电影排行榜top100网页 2.用URL进行爬取信息 三.建立Excel表并导出 总 ...

  10. python智慧树期末_智慧树大数据python期末答案

    智慧树大数据python期末答案 中国加入wto后亚洲经济重心迅速向日本向中国转移掀起了本轮经济全球化的库兹涅佐夫号航母着舰区是航母斜角甲板,斜角甲板上面有好的戏剧语言不仅能够推动什么发展同时还能揭示 ...

最新文章

  1. surf三维画图[matlab]
  2. 前端获取后端传来的session_java后台如何获取,前台传来的表单数据
  3. LeetCode 1389. 按既定顺序创建目标数组
  4. sae 微信 java web_[1] 微信公众号与sae的web应用之间的配置
  5. 1282:最大子矩阵《信息学奥赛一本通》
  6. python用户登录a_用Python实现用户登录接口
  7. [转]flash在C#中的应用
  8. iOS开发UIScrollView使用详解
  9. c 和易语言如何传字节集,易语言字节集参数传递详解
  10. 统一建模语言UML简答题/期末考试分享
  11. 线性方程组解的分析:唯一解,无穷多解以及无解
  12. 乡村黄昏[原创诗一首]
  13. Something's wrong--perhaps a missing \item. \end{thebibliography}
  14. 蓝牙beacon入门教程
  15. CMOS MIPI EOT 学习 基于Zynq高速串行CMOS接口的设计与实现
  16. 0 win10重装partition_gpt分区无法安装win10的根本原因
  17. html中div的定位,html中div定位练习
  18. flutter 高效计算时间差
  19. Surface Slim Pen吸附在Pro 8上的尝试
  20. qiime2-2022.8基于ubuntu的安装教程

热门文章

  1. 怎么查看个人CSDN账号积分-最靠谱!
  2. 四阶五级matlab,微分方程数值解法matlab(四阶龙格—库塔法).ppt
  3. JSP项目实战视频教程
  4. 蓝桥杯官网 试题 PREV-274 历届真题 分果果【第十二届】【省赛】【研究生组】【C++】【Java】两种解法
  5. 【爷青回系列】使用VMware虚拟机安装Windows XP系统!最详细!
  6. Socket网络编程
  7. dreamweaver序列号免费_dreamweaver8【dreamweaver8序列号】dreamweaver8注册码序列号简体中文版...
  8. VirtualBox 中的Centos如何安装VBoxGuestAdditions
  9. unity3d 资源打包加密 整理
  10. 阵列式键盘实训C语言,新人求教 阵列式键盘