数据采集与管理【15】
1.HTTP状态码400表示请求成功。。
2.通用网络爬虫的技术细节都是公布出来的。
3.广度优先的爬行策略按照网页内容目录层次深浅来爬行页面,当同一层次中的页面爬行完毕后,再深入下一层继续爬行。
4.(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。
A.聚焦网络爬虫
B.通用网络爬虫
C.深层网络爬虫
D.增量式网络爬虫
5.增量式网络爬虫数据下载量和时间及空间上的耗费都较大。
6.正则表达式支持匹配边界。例如,()匹配行首。。
A.\w
B.^
C.\d
D.$
7.字符串“a”可以匹配正则表达式“\w{6}”。
8.随着网络的迅速发展,不断优化的网络爬虫技术正在有效地应对各种挑战,为高效搜索用户关注的特定领域与主题提供了有力支撑。
9.广度优先的爬行策略无需存储大量中间节点。
10.HTTP响应中的Expires指明应该在什么时候认为文档已经过期。
11.通用网络爬虫常用的爬行策略有()。
A.增量爬取
B.主体爬虫
C.深度优先策略
D.广度优先策略
12.HTTP请求中的()方法用于请求服务器回送收到的请求信息,主要用于测试或诊断。
A.GET
B.TRACE
C.TRACE
D.PUT
13.GET提交表单时,以()符号分割URL和传输数据。
A.*
B.||
C.?
D.&
14.HTTP请求中的()字段可能为类似"Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit……”这样的信息。
A.Connection
B.User-Agent
C.Cookie
D.Host
15.数据采集是实现大数据分析与处理的最后步骤。
16.数据都是连续的值。
17.关于HTTP请求方法的解释,正确的有()
A.GET请求获取Request-URI所标识的资源
B.DELETE请求服务器删除Request-URI所标识的资源
C.POST在Request-URI所标识的资源后附加新的数据
D.TRACE请求服务器回送收到的请求信息,主要用于测试或诊断
18.发送了一个HTTP请求后,客户端收到一个200的响应,这表示()。
A.拒绝访问
B.登录失败
C.请求成功
D.重定向到其他URL
19.正则表达式中有一些预定义的字符分类,其中,()表示任意单词字符。。
A.\s
B.\w
C.\d
D.$
20.目前主流的网页开发语言都不支持正则表达式。。
21.正则表达式中的饥饿模式匹配尽可能多的文本。
22.以下不属于数据质量的规范、完整性要求的是()
A.遗留系统相关信息与其他模块要一致
B.数据在内部一致
C.不存在交叉系统匹配违规,数据被很好集成
D.参照完整性未被破坏:数据不会找不到参照
23.、HTTP中()方法可用于请求查询服务器的性能,或者查询与资源相关的选项和需求。
A.OPTIONS
B.TRACE
C.PUT
D.TRACE
24.HTTP请求中的Keep-Alive功能避免了建立或者重新建立连接。
25.以下哪个HTTP响应状态表示客户端错误()。
A.403
B.500
C.300
D.200
26.以下不属于数据清洗要处理的对象的是()。
A.规范的数据
B.不完整的数据
C.重复的数据
D.错误的数据
27.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构,其中()表示标签/数值集合,用来表示填充表单的数据源。
A.URL列表
B.LVS表
C.响应分析器
D.爬行控制器
28.正则表达式中有一些预定义的字符分类,其中,()表示任意单词字符。。
A.\d
B.\s
C.$
D.\w
29.正则表达式中的\d表示任意数字。
30.HTTP响应中的Content-Language用于WEB服务器告诉浏览器自己响应的对象所用的自然语言。
31.()的搜索策略是指按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止,比较适合垂直搜索或站内搜索。
A.深度优先
B.广度优先
C.基于领域
D.基于目标特征
32.表层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的网页。
33.HTTP请求中的Range头域可以请求实体的一个或者多个子范围。
34.深层网络爬虫的LVS表是一个URL列表。
35.对于数据量大的系统,一般也常做一次性的数据抽取。
36.聚焦爬虫爬行策略实现的关键是评价()的重要性,不同的方法计算出的重要性不同,由此导致链接的访问顺序也不同。
A.表单信息
B.页面内容
C.页面内容和链接
D.链接
37.数据质量的()表示数据是否正确的表示了现实或可证实的来源。
A.完整性
B.正确性
C.一致性
D.完备性
38.GET方式需要使用Request.QueryString来取得变量的值。
39.数据预处理时对于空值数据直接忽略即可。
40.HTTP请求中的“Connection:keep-alive”表示当前连接不持续。
41.以下不能匹配正则表达式"^[\w]+$"的是()。
A.S1
B.12
C.S_1
D.S+1
42.以下关于正则表达式中常用正则规则的说法,不正确的有()
A.\D表示非数字
B.\D表示数字,相当于[0-9]
C.\d表示数字,相当于[0-9]
D.\w表示字母、数字、下划线
43.正则表达式中的量词可以匹配一个表达式多次出现,其中()表示0次或多次。
A.?
B.*
C.^
D.+
44.正则表达式的规则中,()表示数字,相当于[0-9]。
A.^
B.\d
C.\W
D.\w
45.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构,其中()表示标签/数值集合,用来表示填充表单的数据源。
A.响应分析器
B.爬行控制器
C.URL列表
D.LVS表
46.HTTP只允许传输文本类型的数据对象。
47.HTTP响应中的()指明实体正文的长度,以字节方式存储的十进制数字来表示。
A.Content-Encoding
B.Content-Length
C.Content-Range
D.Content-Language
48.数据质量的()表示所有需要的数据是否都存在。
A.一致性
B.正确性
C.完备性
D.完整性
49.DeepWeb爬虫基于领域知识填写表单时,一般会维持一个本体库,通过语义分析来选取合适的关键词填写表单。
50.增量式爬虫的目标只有保持本地页面集中存储的页面为最新页面。
51.HTTP响应中的Expires表示消息发送的时间。
52.正则表达式中使用一对方括号[]表示字符分类。
53.网络爬虫总是要从某个起点开始爬,这个起点叫做种子。
54.HtmlParser是一个Java编写的html解析的库。
55.在HTP响应信息中,若状态信息码是200则表示()。
A.所请求的页面已经转移至新的url
B.请求成功
C.访问被禁止
D.登录失败
56.HTTP响应中的Content-Length要预先在服务器中缓存所有数据。
57.按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。
A.随机爬行策略
B.PageRank优先策略
C.广度优先策略
D.深度优先策略
58.HTTP响应中的Date指明应该在什么时候认为文档已经过期。
59.正则表达式中,()表示匹配反斜线。
A.^
B.\
C.\w
D.\
60.HTTP响应中的Content-Type默认为text/html。
61.HTTP请求中的()方法要求被请求服务器接受附在请求后面的数据,常用于提交表单。
A.GET
B.PUT
C.POST
D.TRACE
62.数据的完整性表示数据是否正确的表示了现实或可证实的来源。
63.以下不能匹配正则表达式"^[\w]+$"的是()。
A.S+1
B.12
C.S_1
D.S1
64.深度优先策略比较适合垂直搜索或站内搜索。
65.影响质量问题的原因不包括()。
A.数据的依赖性问题
B.数据的获取方式多样性问题
C.数据的时间差异性问题
D.数据的不稳定性问题
66.DeepWeb爬虫结构中的URL列表是用来表示填充表单的数据源。
67.数据的()指的是数据是否易于获取、易于理解和易于使用。
A.李清照
B.关汉卿
C.完备性
D.苏轼
68.正则表达式中,^匹配行首。
69.HTTP请求的PUT方法请求服务器存储一个资源,并用Request-URI作为其标识。
70.、HTTP中()方法可用于请求查询服务器的性能,或者查询与资源相关的选项和需求。
A.TRACE
B.PUT
C.TRACE
D.OPTIONS
71.()描述了一种字符串匹配的模式,通常被用来检索、替换那些符合某个模式(规则)的文本。
A.网络爬虫
B.正则表达式
C.字符集
D.数据采集
72.以下字符串能匹配正则表达式"^[a-z][0-9]$”的是()
A.a1
B.ab
C.1
D.a
73.正则表达式支持匹配边界。例如()匹配行尾。
A.\d
B.^
C.\w
D.$
74.网络爬虫只可以抓取Web网页。
75.网络数据采集是指通过()或网站公开API等方式从网站上获取数据信息。。
A.播放器
B.网络爬虫
C.浏览器
D.服务器
76.增量式爬虫只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面。
77.PageRank优先策略常用于()。
A.所有网络爬虫
B.DeepWeb爬虫
C.增量式网络爬虫
D.通用网络爬虫
78.正则表达式的规则中,x|y表示匹配()
A.x或y
B.x+y
C.x和y
D.xy
79.使用ETL工具处理数据后很难管理和维护。
80.数据()的任务是过滤那些不符合要求的数据。
A.加载
B.清洗
C.转换
D.抽取
81.通用网络爬虫适用于为搜索引擎搜索广泛的主题,有较强的应用价值。
82.抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。
83.HTTP请求中的()字段可能为类似"Mozilla/5.0(iPhone;U;CPUiPhoneOS4_3_3likeMacOSX;en-us)AppleWebKit……”这样的信息。
A.Cookie
B.User-Agent
C.Host
D.Connection
84.表层网页是指传统搜索引擎可以索引的页面。
85.以下关于通用网络爬虫和聚焦网络爬虫的说法,正确的有()。
A.通用网络爬虫对于爬行速度和存储空间要求较高
B.聚焦网络爬虫对于爬行速度和存储空间要求更高
C.聚焦爬虫只需要爬行与主题相关的页面
D.如果要采集指定的数据,则需要使用到聚焦爬虫
86.以下关于爬虫工作方式的说法,正确的有()
A.网络爬虫抓取各种资源后,通过相应的索引技术组织这些信息,提供给用户进行查询
B.网络爬虫总是要从某个起点开始爬,这个起点叫做种子
C.网络爬虫抓取各种资源后,通过相应的索引技术组织这些信息,提供给用户进行查询
D.网络爬虫顺着网页及其超链接组成的网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。
87.数据的预处理ETL的T表示()。
A.抽取
B.清洗
C.加载
D.转换
88.以下关于正则表达式的说法,不正确的是()
A.正则表达式的使用非常灵活性,逻辑性和功能性非常强
B.主流开发语言C++、Java均不支持正则表达式
C.正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串
D.正则表达式是对字符串操作的一种逻辑公式
89.正则表达式的规则中,()表示匹配所有非空白字符。
A.\w
B.\W
C.\d
D.\S
90.以下关于正则表达式中数量表示规则的说法,不正确的是()
A.X+表示可以出现1次或多次
B.X+表示可以出现0次,1次或多次
C.X*表示可以出现0次,1次或多次
D.X表示必须出现一次
91.HTTP请求的GET方法请求获取由Request-URI所标识的资源的响应消息报头。
92.正则表达式中有一些预定义的字符分类,其中,()表示任意数字。。
A.\s
B.$
C.\d
D.\w
93.现有聚焦爬虫对抓取目标的描述只包括基于目标网页特征这种方式。
94.相对于通用网络爬虫,聚焦爬虫还需要解决的主要问题有()
A.对抓取目标的描述或定义
B.链接评价模块
C.对URL的搜索策略
D.对网页或数据的分析与过滤
95.不同系统的相同类型的数据也不需要统一。
96.正则表达式中的量词可以匹配一个表达式多次出现,其中()表示0次或多次。
A.+
B.?
C.*
D.^
97.超文本传输协议是互联网上应用最为广泛的一种网络协议。
98.正则表达式[a-z]可以匹配()。
A.字母字符"a”或"z”
B."a”到"z”范围内的任意字母字符
C."a”到"z”范围内的任意小写字母字符
D.小写字母字符"a”或"z”
99.增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。
A.随机更新法
B.统一更新法
C.基于分类的更新法
D.个体更新法
100.正则表达式[a-z]可以匹配()。
A.小写字母字符"a”或"z”
B."a”到"z”范围内的任意小写字母字符
C.字母字符"a”或"z”
D."a”到"z”范围内的任意字母字符
数据采集与管理【15】相关推荐
- 计算机应用基础 马跃东,《纵观文化产业管理15》.pdf
纵观文化产业管理15 陈兰琴 主编 吉林摄影出版社 图书在版编目(CIP)数据 纵观文化产业管理15/陈兰琴主编 长春 吉林摄影 出版社 2004 ISBN 7-80606-716-7 最 郭 执法工 ...
- 致远项目管理SPM系统案例:中关村创客小镇数据采集云管理
卷首语 致远项目管理SPM系统助力中关村创客小镇数据采集云管理. 企业简介 中关村创客小镇坐落于中关村科学城北部的核心区域,是智能网联汽车.人工智能和新材料三大产业聚集地,同时也是海淀北部重要的& ...
- 零基础学Arcgis(六)|空间数据采集与管理(3)数据编辑
写在前面的话: B站搜索"中图地信"便可观看全套71章节详细操作视频(有操作数据获取,同步学习) (一)使用要素模板 1.使用要素模板 [1]启动ArcMap,新建空白地图文档: ...
- 数据采集与管理【13】
1.数据的预处理ETL的E表示(). A.加载 B.抽取 C.清洗 D.转换 2.通用爬虫爬行策略实现的关键是评价页面内容和链接的重要性. 3.广度优先的爬行策略适合垂直搜索或站内搜索. 4.HTTP ...
- 数据采集与管理【11】
1.正则表达式的量词?表示0次或1次. 2.网络数据采集是指通过()或网站公开API等方式从网站上获取数据信息.. A.浏览器 B.播放器 C.网络爬虫 D.服务器 3.聚焦网络爬虫对于爬行速度和存储 ...
- 数据采集与管理【12】
1.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构,其中()表示标签/数值集合,用来表示填充表单的数据源. A.爬行控制器 B.URL列表 C.响应分析器 D.LVS表 2.HT ...
- Linux启动流程与模块管理(15)
系统的启动其实是一项非常复杂的过程,因为内核得要检测硬件并加载适当的驱动程序,接下来则必须要调用程序来准备好系统运行的环境,以让用户能够顺利的操作整台主机系统,如果你能够理解系统启动的原理,那么将有助 ...
- 零基础学Arcgis(七)|空间数据采集与管理(4)数据检查
写在前面的话: B站搜索"中图地信"便可观看全套71章节详细操作视频(有操作数据获取,同步学习) (一)创建地理数据库拓扑 1.创建地理数据库拓扑 [1]设计拓扑: [2]启动Ar ...
- linux 内存管理(15) - mmap
了解mmap机制.参考此处 1.概述 mmap 即地址的映射, 是一种内存映射文件的方法,将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系 ...
最新文章
- 开源分布式数据库中间件
- pytorch torch.cumsum(input, dim, out=None)函数(沿轴逐级累加)
- 张一春教授计算机辅助教学,我校特邀评审专家张一春教授来校做专题讲座
- Request获取参数封装方式
- 基于android公交车线路查询论文文献,本科毕业论文---基于android的手机公交线路查询系统.doc...
- 遗传算法python实现_Python遗传算法代码实例讲解
- linux nvm 管理 nodejs,Nodejs 版本管理器: nvm 介绍
- pg安装部署linux_简简单单基于docker部署微服务网关
- hashmap和hashtable,arraylist和vector的区别
- c语言生成 pdf文件,使用PDFLib生成PDF文档(C语言版)--使用指导
- 动态规划_数字的划分
- 通讯网关 api网关_伟大的api网关迁移
- cogs1439 货车运输 LCA
- ssh secure 安装mysql_centos7 安装mysql
- 静坐常思己过,闲谈莫论人非。
- 7z001怎么解压在安卓手机上面_安卓手机怎么可以远程阿里云服务器桌面
- 人工智能就业前景如何?
- C# 中的委托和事件[转自张子扬]
- Java代码是如何运行的?
- 团体程序设计天梯赛 -- 练习集 (L1合集)