第一章:大数据概述

1. 大数据有哪些特征
(1)大量:数据量大
(2)多样:数据种类和来源多样化
(3)价值:数据价值密度相对较低
(4)高速:数据增长速度快,处理速度也快,时效性要求高
(5)准确性:数据处理结果保证一定的准确性和可信赖度
(6)复杂:由于数据大量、多样,产生速度快,对数据处理和分析的难度大

2. 简述大数据处理过程
①大数据采集
②大数据预处理
③大数据存储
④大数据分析与挖掘
⑤大数据可视化

第二章:数据采集基础

1. 互联网数据来源有哪些
门户网站出于媒体属性所发布的新闻、评论、报道等。如新浪财经、搜狐新闻——实时性、专业性
政府部门出于信息公开的目的在互联网上公开的数据。如法院公告——权威性、可信性
社交网站出于其媒体属性和社会属性允许普通用户发表自媒体信息,在提供用户社交服务的同时,将用户的言论、生活轨迹记录下来——时效性、针对性
电商网站出于营销的目的允许用户自由采购产品并查询、发布产品评论及销售量信息——真实性、实时性
论坛——实时性、针对性

2. 大数据采集面临的挑战有哪些
①因为各个门户网站建设水平和结构不一样,所以用统一的方法从互联网中采集信息几乎是不可能的
②互联网数据一般结构复杂,有文本、表格、图片、视频等非结构形式存在
③对于海量数据的采集需要研究分布式框架,满足其采集需求
④能够通过网络爬虫程序自动获取数据,但不同网站出于对爬虫程序的监管,往往设置很多障碍

3. 互联网大数据的主要特点是什么
①多源异构性
②交互性
③时效性
④社会性
⑤突发性
⑥高噪声

4. 什么是网络爬虫
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的

数据采集与预处理技术考点复习——第一、二章相关推荐

  1. 算法设计与分析复习第一二章(时间复杂度和蛮力法)

    算法复习一二章 第一章时间复杂度 第二章蛮力法 (1)查找问题 顺序查找 (2)排序问题 选择排序 起泡排序 (3)组合问题 0-1bag问题概述(略) (4)图问题 哈密顿回路 TSP问题 (5)几 ...

  2. 以下不属于计算机综合处理多媒体信息的有,国家开放大学《多媒体应用技术基础》第一-二次形成性考核任务试题...

    国家开放大学<多媒体应用技术基础>第一-二次形成性考核任务试题 http://doc.xuehai.net 国家开放大学<多媒体应用技术基础>第一-二次形成性考核任务试题 第一 ...

  3. 第一二章(PTA复习)

    第一二章 因为3默认是整形,整形长度大于short型,如果让short型 = short型 + int型,可能会溢出,所以编译报错 例如: 答案:D switch 语句中的变量类型可以是: byte. ...

  4. 『RNN 监督序列标注』笔记-第一/二章 监督序列标注

    『RNN 监督序列标注』笔记-第一/二章 监督序列标注 监督序列标注(Supervised Sequence Labeling)与传统的监督模式分类(supervised pattern classi ...

  5. PMP 考点 第十二章 项目采购管理

    PMP 第十二章 项目采购管理 章节 序号 知识点 考点级别 备注 第十二章 项目采购管理 12.1 采购活动的职责和典型步骤.供方选择分析.采购管理计划.采购策略 3 12.2 合同类型.采购文件. ...

  6. 内存中有两个4字节以压缩的bcd_高中对口计算机微机原理04第一二章测验

    原理第一.二章练习 一.选择题 1.下列四个不同进制的数中,数值最大的是__________ A. 1001001B B. 110 O C. 71D D. 4AH 2.下列四种不同数制表示的数值最小的 ...

  7. 江西理工大学JSP程序设计第一二章期末复习

    1.下面哪两个应用程序目录依赖类和库的位置?( A E )  A)/WEB-INF/lib as a JAR file                             B) /META-INF ...

  8. 光电检测技术(第一二章未完)

    一.光的基本性质 电磁波在媒质中的传播速度: v=λν/nv=\lambda\nu/nv=λν/n λ\lambdaλ为波长,单位m,ν\nuν为频率,单位Hz,n折射率,真空为1. 二.光辐射度量 ...

  9. 计算机三级网络技术(一、二章)

    第1章:网络系统结构与设计的基本原则 1.计算机网络的分类 网络的覆盖范围:局域网.城域网.广域网.个人区域网 局域网 局域网覆盖有限的地理范围,它适应于机关.校园.工厂等有限范围内的计算机.终端与各 ...

最新文章

  1. java 项目加载dll文件,在eclipse java项目中加载dll文件
  2. 利用OpenCV的Grabcut()函数实现图像的前景与背景的分割-并对Grabcut()作详细介绍
  3. 【转载】Role of RL in Text Generation by GAN
  4. linux系统crontab怎么用,Linux系统crontab使用手册
  5. Linux学习134 Unit 8
  6. HTML+CSS+JS实现 ❤️3D网状球体动画特效❤️
  7. 怎么把线稿提取出来_如何快速提取漫画线稿?【漫画技巧】
  8. 统计每天的数据 无数据也要显示日期程序解决方法
  9. 优化element ui中的弹框样式
  10. iphone开发常用代码
  11. c语言 界面编程 毕业设计,基于c语言的毕业设计.docx
  12. Keepalived主主虚拟路由器与虚拟服务器
  13. 台式计算机主板电池型号,台式机主板电池没电会怎么样 主板电池怎么换
  14. 如何使用 Reflector Keygen
  15. 微信小程序实现音乐搜索页面
  16. 外卖优惠券cps系统每日领团饿了么外卖券CPS系统公众号小程序源码
  17. 学神经网络需要什么基础,深度神经网络怎么用
  18. 神念TGAM模块+树莓派GPIO控制灯泡(脑电波控制物联网应用示例)
  19. React18正式版发布,未来发展趋势是?
  20. 【转载】专家答疑:Silverlight的用户体验优化

热门文章

  1. English语法_ 定语从句
  2. Cesium 浏览器版本要求
  3. 使用java awt画风向玫瑰图及风能玫瑰图程序
  4. 尼康单反AF自动对焦模式与AF区域对焦模式详解
  5. 国内开发人员都不知道阿里软件吗?
  6. Lua和Luajit的优势和不足(1)
  7. QMS-云质说质量 - 3 来料检验的九大坑,你踩过几个?
  8. 水彩画的特殊绘画工具,这几类绘画方法见都没见过~
  9. 信息系统项目管理师10大管理47个过程域输入输出工具(项目质量管理)
  10. 硬件工程师必须了解的物理知识汇总(持续更新)