1.4.1知识概述

一般会用来做数据分析,先通过对数据的清洗,抽取,转换,将数据做成标准化的数据,然后进行数据分析和挖掘,得到数据的商业价值。

数据分为内部数据和外部数据

在互联网公司,不管内部数据还是外部数据,其实都是为了获取用户相关的数据。

拿到用户的行为数据之后,会分析用户。

比如说电商类网站就是为推荐商品,搜索类的网站为了精准营销(家具类) 广告联盟。

公司内部数据

业务数据,公司使用BI(Business Intelligence)、CRM系统、ERP系统、邮件系统等产生的数据;

财务数据,其中包括公司的支出、采购、收入等多项与公司日常运作有关的数据;

用户数据,无论是网站、APP还是游戏,用户注册都会填写邮箱、电话、身份证号码等数据,这些数据其实非常有价值,此外还要加上用户使用公司产品留下的行为数据。

历史数据,公司沉淀下来的其他各种数据。

外部数据

社交网站数据,包括微信、微博、人人网、Twitter、Facebook、LinkedIn等社交媒体上的数据。

说明:社交数据部分是可以爬取的,另外一部分是需要运营方授权的。

线下采集数据,包括Wifi热点数据、地图数据等。

说明:这一块目前做的公司比较少,但同时也比较有价值。

政府开放数据,包括企业征信数据、企业注册数据、法院公示数据、公共交通数据等。

说明:如果你想要找的话,可到对应政府网站下载。

智能设备数据,包括智能设备、传感器数据。

说明:你知道吗?一部智能手机,至少拥有8个传感设备。

网络爬虫数据,包括互联网上所有可以爬回的数据,文字、视频、图片其实也是数据,而且是非结构化数据。

企业交易数据,包括商家流水数据、支付宝交易数据、信用卡消费数据等等。

说明:目前这一部分数据是最难获取的,因为数据就是宝贵的资产。

企业开放数据,比如微博开放了商业数据API,腾讯开放了腾讯云分析SDK上报的应用数据,高德地图开放了LBS数据等等。

说明:如果想找更多的数据API,我推荐你去数据堂、聚合数据这两家网站上看一下,上面有大量的API接口。

其它数据,比如天气数据、交通数据、人口流动数据、位置数据等等。

说明:只有想不到没有弄不到。

额外扩展

大数据就是整合完公司内部外部数据,进行大数据存储,然后通过清洗,标注、去重、去噪、关联等过程可以将数据进行结构化,也可以进行大数据挖掘和数据分析,再以数据可视化呈现结果,打通数据孤岛形成数据闭环,将数据转换成“石油”和“生产资料”,最后应用到我们日常的生活、学习和工作中去。

爬虫与搜索系统的关系

搜索系统的数据是爬虫爬取过来?不一定。

搜索系统可以简单的分为两类,通用搜索,站内搜索

通用搜索:像百度,谷歌会爬取互联网上所有的数据

站内搜索:只需要业务系统的数据。

垂直搜索:行业数据和自己的数据。

总结:搜索一定会包含爬虫(除站内搜索外),爬虫爬取的数据不一定是为搜索服务。除了搜索功能以外,爬虫爬取的数据主要用来做数据分析。

爬虫的简单分类

网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:

l 通用网络爬虫(General Purpose Web Crawler)

l 聚焦网络爬虫(Focused Web Crawler)

l 增量式网络爬虫(Incremental Web Crawler)

l 深层网络爬虫(Deep Web Crawler)

实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

1.4.2视频详情

1.4.3总结与补充

1.4.4 课堂提问与练习

1.4.5习题答案

网络爬虫的作用和简单分类相关推荐

  1. python网络爬虫程序_Python写的网络爬虫程序(很简单)

    Python写的网络爬虫程序(很简单) 这是我的一位同学传给我的一个小的网页爬虫程序,觉得挺有意思的,和大家分享一下.不过有一点需要注意,要用python2.3,如果用python3.4会有些问题出现 ...

  2. 网络爬虫requests和bs4简单入门

    网络爬虫基础(嵩天老师爬虫教学) 本博客的主要内容:介绍如何使用基本的库完成对html页面内容的爬取和分析,分以下几方面介绍 介绍网络爬虫的基本工作过程 requests库的基本用法 使用Beauti ...

  3. 网络爬虫笔记 :一个简单的爬虫框架

    学了两节课的 Python 爬虫,也算是入门了吧.敲了两天的案例代码之后,我突然发现,这些代码虽然功能不同,写法各异,但是终归是有章可循的,整体框架是一致的.所以我自己整理了一个简单的爬虫框架,适合初 ...

  4. java网络爬虫0基础_简单的java爬虫程序(入门)

    首先做好准备工作: 了解正则表达式中基本的Select的用法: 此处引用楼主查到的资料 http://www.tuicool.com/articles/ZnyMvu 第一个爬虫:无验证码的简单爬虫 楼 ...

  5. 【Python爬虫系列教程 11-100】Python网络爬虫实战:最简单的Pandas 中的read_html一行代码爬取网页表格型数据,就可以爬取虎扑体育NBA球员信息

    文章目录 爬取对象 分析 实现代码 爬取对象 虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. ...

  6. Python网络爬虫简单教程——第一部

    Python网络爬虫简单教程--第一部 感谢,如需转载请注明文章出处:https://blog.csdn.net/weixin_44609873/article/details/103384984 P ...

  7. Python3网络爬虫快速入门实战解析

    Python3网络爬虫快速入门实战解析 标签: python网络爬虫 2017-09-28 14:48 6266人阅读 评论(34) 收藏 举报 分类: Python(26) 作者同类文章X 版权声明 ...

  8. Java网络爬虫入门:第01课:网络爬虫原理

    引言 随着互联网的迅速发展,网络资源越来越丰富,信息需求者如何从网络中抽取信息变得至关重要.目前,有效的获取网络数据资源的重要方式,便是网络爬虫技术.简单的理解,比如您对百度贴吧的一个帖子内容特别感兴 ...

  9. python sub 不区分大小写_Python网络爬虫入门篇

    1. 预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. Python入门篇:https://www.cnblo ...

最新文章

  1. DRF工程搭建、环境安装与配置
  2. 关于学习Python的一点学习总结(19->if及相关的符号运算)
  3. 徐直军 华为没有鸿蒙,华为徐直军:“鸿蒙”这个名字是媒体取的
  4. java sort算法名称_快速排序算法(Quick Sort)(java)
  5. java11下载_JDK11 JAVA11下载安装与快速配置环境变量教程
  6. 字符串反序输出字符串
  7. Java反射机制深入研究
  8. leetcode115 不同的子序列
  9. 安卓模拟器 Genymotion 安装
  10. 你的密码安全吗?——索尼事件的教训
  11. 小白如何上手产品经理
  12. ENSP教程---OSPF单区域配置实验
  13. win10双显卡怎么切换amd和英特尔_手把手给你细说win10系统双显卡设置只使用独立显卡的流程...
  14. 计算机与人脑pdf_我们距离将人脑复制到计算机有多远
  15. 遗传算法流程概述与简单实例认知
  16. OpenCV实现SfM(四):Bundle Adjustment
  17. php x12,小辣椒x12pro是什么处理器,一款专门为老年人服务的手机
  18. css3 实现十字光标和光标外圆圈环绕
  19. 高效能人士执行4原则,让你从日常琐事中抽身
  20. OpenCASCADE入门指南

热门文章

  1. 供应链与存货核算数据不一致
  2. 流水线cpu —Verilog HDL
  3. [毕业设计]大数据电影数据分析可视化
  4. 工作分析文献综述_文献综述的写作步骤和注意事项
  5. OpenCVSharp 基于特征的图像拼接
  6. 什么是4K HDR?HDR10+、HDR10 PRO、杜比视界HDR区别
  7. 保险行业-团险-投保单位所属行业类别整理
  8. openssl enc 加解密
  9. 【开关】刀开关矩阵(Pole Switched Matrix)的结构讨论
  10. “国航”助飞旅日华侨华人子女说中文的梦想