数据采集与预处理技术考点复习——第一、二章
第一章:大数据概述
1. 大数据有哪些特征
(1)大量:数据量大
(2)多样:数据种类和来源多样化
(3)价值:数据价值密度相对较低
(4)高速:数据增长速度快,处理速度也快,时效性要求高
(5)准确性:数据处理结果保证一定的准确性和可信赖度
(6)复杂:由于数据大量、多样,产生速度快,对数据处理和分析的难度大
2. 简述大数据处理过程
①大数据采集
②大数据预处理
③大数据存储
④大数据分析与挖掘
⑤大数据可视化
第二章:数据采集基础
1. 互联网数据来源有哪些
①门户网站出于媒体属性所发布的新闻、评论、报道等。如新浪财经、搜狐新闻——实时性、专业性
②政府部门出于信息公开的目的在互联网上公开的数据。如法院公告——权威性、可信性
③社交网站出于其媒体属性和社会属性允许普通用户发表自媒体信息,在提供用户社交服务的同时,将用户的言论、生活轨迹记录下来——时效性、针对性
④电商网站出于营销的目的允许用户自由采购产品并查询、发布产品评论及销售量信息——真实性、实时性
⑤论坛——实时性、针对性
2. 大数据采集面临的挑战有哪些
①因为各个门户网站建设水平和结构不一样,所以用统一的方法从互联网中采集信息几乎是不可能的
②互联网数据一般结构复杂,有文本、表格、图片、视频等非结构形式存在
③对于海量数据的采集需要研究分布式框架,满足其采集需求
④能够通过网络爬虫程序自动获取数据,但不同网站出于对爬虫程序的监管,往往设置很多障碍
3. 互联网大数据的主要特点是什么
①多源异构性
②交互性
③时效性
④社会性
⑤突发性
⑥高噪声
4. 什么是网络爬虫
网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的
数据采集与预处理技术考点复习——第一、二章相关推荐
- 算法设计与分析复习第一二章(时间复杂度和蛮力法)
算法复习一二章 第一章时间复杂度 第二章蛮力法 (1)查找问题 顺序查找 (2)排序问题 选择排序 起泡排序 (3)组合问题 0-1bag问题概述(略) (4)图问题 哈密顿回路 TSP问题 (5)几 ...
- 以下不属于计算机综合处理多媒体信息的有,国家开放大学《多媒体应用技术基础》第一-二次形成性考核任务试题...
国家开放大学<多媒体应用技术基础>第一-二次形成性考核任务试题 http://doc.xuehai.net 国家开放大学<多媒体应用技术基础>第一-二次形成性考核任务试题 第一 ...
- 第一二章(PTA复习)
第一二章 因为3默认是整形,整形长度大于short型,如果让short型 = short型 + int型,可能会溢出,所以编译报错 例如: 答案:D switch 语句中的变量类型可以是: byte. ...
- 『RNN 监督序列标注』笔记-第一/二章 监督序列标注
『RNN 监督序列标注』笔记-第一/二章 监督序列标注 监督序列标注(Supervised Sequence Labeling)与传统的监督模式分类(supervised pattern classi ...
- PMP 考点 第十二章 项目采购管理
PMP 第十二章 项目采购管理 章节 序号 知识点 考点级别 备注 第十二章 项目采购管理 12.1 采购活动的职责和典型步骤.供方选择分析.采购管理计划.采购策略 3 12.2 合同类型.采购文件. ...
- 内存中有两个4字节以压缩的bcd_高中对口计算机微机原理04第一二章测验
原理第一.二章练习 一.选择题 1.下列四个不同进制的数中,数值最大的是__________ A. 1001001B B. 110 O C. 71D D. 4AH 2.下列四种不同数制表示的数值最小的 ...
- 江西理工大学JSP程序设计第一二章期末复习
1.下面哪两个应用程序目录依赖类和库的位置?( A E ) A)/WEB-INF/lib as a JAR file B) /META-INF ...
- 光电检测技术(第一二章未完)
一.光的基本性质 电磁波在媒质中的传播速度: v=λν/nv=\lambda\nu/nv=λν/n λ\lambdaλ为波长,单位m,ν\nuν为频率,单位Hz,n折射率,真空为1. 二.光辐射度量 ...
- 计算机三级网络技术(一、二章)
第1章:网络系统结构与设计的基本原则 1.计算机网络的分类 网络的覆盖范围:局域网.城域网.广域网.个人区域网 局域网 局域网覆盖有限的地理范围,它适应于机关.校园.工厂等有限范围内的计算机.终端与各 ...
最新文章
- java 项目加载dll文件,在eclipse java项目中加载dll文件
- 利用OpenCV的Grabcut()函数实现图像的前景与背景的分割-并对Grabcut()作详细介绍
- 【转载】Role of RL in Text Generation by GAN
- linux系统crontab怎么用,Linux系统crontab使用手册
- Linux学习134 Unit 8
- HTML+CSS+JS实现 ❤️3D网状球体动画特效❤️
- 怎么把线稿提取出来_如何快速提取漫画线稿?【漫画技巧】
- 统计每天的数据 无数据也要显示日期程序解决方法
- 优化element ui中的弹框样式
- iphone开发常用代码
- c语言 界面编程 毕业设计,基于c语言的毕业设计.docx
- Keepalived主主虚拟路由器与虚拟服务器
- 台式计算机主板电池型号,台式机主板电池没电会怎么样 主板电池怎么换
- 如何使用 Reflector Keygen
- 微信小程序实现音乐搜索页面
- 外卖优惠券cps系统每日领团饿了么外卖券CPS系统公众号小程序源码
- 学神经网络需要什么基础,深度神经网络怎么用
- 神念TGAM模块+树莓派GPIO控制灯泡(脑电波控制物联网应用示例)
- React18正式版发布,未来发展趋势是?
- 【转载】专家答疑:Silverlight的用户体验优化