爬虫基础

一. 什么是爬虫

网络爬虫(又被称为网络蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序,原则上,只要是浏览器(客户端)能做的事情,爬虫都能做。

二. 怎样获取到爬虫

  • 下载其他公司开发的通用的爬虫(八爪鱼)
  • 开发人员自己编写

三. 开发语言

其实只要能够发送HTTP(s)请求的任何编程语言都是可以做爬虫的,像C语言、C++、java、php、js等。


为什么一提到爬虫,一般都默认值python语言呢? 因为:python编程语言简洁,有大量现成的模块供我们使用,因此虽然Java也能做爬虫,但是他们写100行代码时,我们用python写10行就ok了,所以做爬虫还是python香。。。真香。。

四. 爬虫的分类
根据被爬网站的数量的不同,我们把爬虫分为:

  • 通用爬虫:通常指搜索引擎的爬虫,例如百度https://www.baidu.com
  • 聚焦爬虫:针对特定网站的爬虫

也就是说,我们要做的是 聚焦爬虫(也叫做定向爬虫)

爬虫流程

一. 聚焦爬虫流程

  1. 向起始url发送请求,并获取响应
  2. 对响应进行提取
  3. 如果提取url,则继续发送请求获取响应
  4. 如果提取数据,则将数据进行保存

Web-Crawler(爬虫基础)相关推荐

  1. 基础网络爬虫(Web crawler)相关技术浅析

    文章目录 前言 基本概念 Robots协议 基本原理 现状概况 爬虫软件 跨语言 Selenium Python urllib requests Scrapy Pyspider Java WebMag ...

  2. Enterprise:Web Crawler 基础 (一)

    在 Elastic Enterprise Search 7.11 中,Elastic 宣布推出 Elastic App Search 网络爬虫,这是一种简单而强大的方式来提取公开可用的网络内容,以便在 ...

  3. LeetCode 1242. Web Crawler Multithreaded--Java 解法--网路爬虫并发系列--ConcurrentHashMap/Collections.synchroni

    题目地址:Web Crawler Multithreaded - LeetCode Given a url startUrl and an interface HtmlParser, implemen ...

  4. 网络爬虫(Web crawler)|| 爬虫入门程序

    网络爬虫 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 爬虫入门程序 环境准备 JDK1.8 IntelliJ IDEA IDEA自带的Maven 环境 ...

  5. python爬虫基础(一)~爬虫概念和架构

    目录 1. 爬虫 1.1 概念 1.2 分类 2. 爬虫架构 2.1 url管理器 2.2 网页(html)下载(download)器 2.2.1 urllib下载html源码 2.2.2 reque ...

  6. 【Python 爬虫】 1、爬虫基础概念

    爬虫基础概念 网络爬虫的定义 网络爬虫(Crawler)又被成为网络蜘蛛(Spider),网络机器人,网页追逐者,它是一种按照一定规则,自动的抓取万维网信息的程序或者脚本. [狭义与广义定义] 狭义上 ...

  7. 爬虫总结(一)-- 爬虫基础 python实现

    爬虫在平时也经常用,但一直没有系统的总结过,其实它涉及了许多的知识点.这一系列会理一遍这些知识点,不求详尽,只希望以点带面构建一个爬虫的知识框架.这一篇是概念性解释以及入门级爬虫介绍(以爬取网易新闻为 ...

  8. Python爬虫入门一(爬虫基础)

    一.通用爬虫和聚焦爬虫 1.什么是网络爬虫? 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常 ...

  9. Python爬虫初学一(爬虫基础)

    目录 一.通用爬虫和聚焦爬虫 1.什么是网络爬虫? 1.通用爬虫 2.聚焦网络爬虫 二.HTTP和HTTPS 1.HTTP工作原理 1.浏览器发送HTTP请求的过程 三.客户端HTTP请求 1.请求方 ...

  10. python爬虫基础知识

    今天学习了爬虫原理,网络通信基于URL统一资源定位器,这就是最简单最原始的爬虫. 欢迎加微信18599911861有更多python爬虫教程视频资源分享. 网络爬虫(又被称为网页蜘蛛,网络机器人,在F ...

最新文章

  1. bin/...的访问被拒绝被拒绝的问题
  2. 【Linux】一步一步学Linux——info命令(17)
  3. 网上书店例子(JSP和JavaBean)
  4. 工作中 99% 会用到的 Git 命令
  5. vue 手机端路由切换滑动_vue移动端router-view嵌套实现底部导航切换
  6. synchronized(九)
  7. 乌班图linux怎么连手机热点,使用Ubuntu12.04创建无线WiFi热点供手机上网
  8. mysql读取自增值失败_MySQL添加自增列失败
  9. Layout_weight实践效果小结
  10. iText中给pdf内容添加水印
  11. WIZnet开源平台ioPlatform所趋,全硬件TCP/IP尽显内芯智慧!
  12. JBPM节点分支之Group节点分析
  13. 算法设计与分析复习大纲
  14. C盘根目录出现msdia80.dll解决办法
  15. 杭州电子科技大学java刷题_杭州电子科技大学的OJ
  16. 100m光纤测速多少正常_100M的光纤电信宽带,用手机测速时,为什么只有40M?
  17. 如何制作一个商城小程序?
  18. 判断浏览器是否为ie8调样式
  19. JVM 直接内存的使用与回收
  20. 2019年下半年软件设计师考试上午题的英语部分原文。

热门文章

  1. Cocos Creator 音乐音效管理
  2. ASO优化之如何进行榜单优化
  3. 百度网盘在线播放倍数调整
  4. UnsupportedEncodingException(转码异常)你可能忽略的地方都讲啦
  5. windows远程桌面连接时,显示发生身份验证错误,给函数提供的身份无效
  6. rust crates源国内加速镜像
  7. 一文读懂transformer
  8. FastAPI 对MySQL 数据库的操作(win64)
  9. 技术面试与 HR 谈薪资技巧
  10. 【Linux】ntp的一些坑。你肯定遇到过