数据采集与管理【11】
1.正则表达式的量词?表示0次或1次。
2.网络数据采集是指通过()或网站公开API等方式从网站上获取数据信息。。
A.浏览器
B.播放器
C.网络爬虫
D.服务器
3.聚焦网络爬虫对于爬行速度和存储空间要求更高。
4.采集来的数据可以直接使用。
5.以下能匹配正则表达式"^[A-Za-z]+$"的是()。
A.ab
B.abc
C.a3
D.33
6.DeepWeb爬虫爬行过程中的一个重要步骤是表单填写。
7.HTTP状态码200表示请求成功。
8.通用网络爬虫常用的爬行策略有()。
A.深度优先策略
B.主体爬虫
C.增量爬取
D.广度优先策略
9.以下关于爬虫工作方式的说法,正确的有()
A.网络爬虫总是要从某个起点开始爬,这个起点叫做种子
B.网络爬虫抓取各种资源后,通过相应的索引技术组织这些信息,提供给用户进行查询
C.网络爬虫顺着网页及其超链接组成的网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。
D.网络爬虫抓取各种资源后,通过相应的索引技术组织这些信息,提供给用户进行查询
10.表层网页(SurfaceWeb)是互联网上最大、发展最快的新型信息资源。
11.如果要采集指定的数据,则需要使用到(),因为它只需要爬行与主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快。
A.通用网络爬虫
B.聚焦网络爬虫
C.深层网络爬虫
D.增量式网络爬虫
12.增量式爬虫有两个目标:保持本地页面集中存储的页面为最新页面和提高本地页面集中页面的质量。
13.增量式爬虫中的()指的是:爬虫根据网页改变频率将其分为更新较快网页子集和更新较慢网页子集两类,然后以不同的频率访问这两类网页。
A.统一更新法
B.个体更新法
C.随机更新法
D.基于分类的更新法
14.数据的完备性指的是数据是否被一致的定义或理解。
15.增量式网络爬虫的体系结构包含()等。
A.爬行模块
B.更新模块
C.排序模块
D.待爬行URL集以及本地页面URL集
16.正则表达式中有一些预定义的字符分类,其中,()表示任意空白字符。
A.\w
B.\s
C.$
D.\d
17.()的基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。
A.PageRank优先策略
B.深度优先策略
C.随机爬行策略
D.广度优先策略
18.以下关于广度优先的爬行策略的说法,正确的有()
A.当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行
B.处于较浅目录层次的页面首先被爬行
C.能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题
D.按照网页内容目录层次深浅来爬行页面
19.DELETE请求服务器删除Request-URI所标识的资源。
20.()只会在需要的时候爬行新产生或发生更新的页面,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。
A.增量式网络爬虫
B.聚焦网络爬虫
C.深层网络爬虫
D.通用网络爬虫
21.大数据的主要难点在于数据量太大。
22.网络爬虫的广泛应用可能造成个人隐私泄露。
23.字符串“a_b”可以匹配正则表达式“\w{3}”。
24.HTTP请求的()能使客户端到服务器端的连接持续有效,当出现对服务器的后继请求时,避免了建立或者重新建立连接。
A.Referer
B.Cookie
C.Keep-Alive
D.Host
25.HTTP请求中()头域的内容包含发出请求的用户信息。
A.Accept
B.Cookie
C.Referer
D.User-Agent
26.正则表达式中有一些预定义的字符分类,其中,()表示任意数字。。
A.\w
B.$
C.\d
D.\s
27.HTTP响应中的Expires用于指示资源的最后修改日期和时间。
28.深度优先的爬行策略能够有效控制页面的爬行深度。
29.数据质量的()表示所有需要的数据是否都存在。
A.正确性
B.完备性
C.一致性
D.完整性
30.一次HTTP由一次请求(Request)和一次响应(Response)组成。
31.HTTP响应中的()指明实体正文的长度,以字节方式存储的十进制数字来表示。
A.Content-Length
B.Content-Encoding
C.Content-Range
D.Content-Language
32.以下关于正则表达式的说法,不正确的是()
A.正则表达式是对字符串操作的一种逻辑公式
B.正则表达式的使用非常灵活性,逻辑性和功能性非常强
C.正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串
D.主流开发语言C++、Java均不支持正则表达式
33.GET方式通过Request.Form来获取变量的值。
34.以下不属于HTTP协议的主要特点的是()。
A.有状态
B.支持基本认证和安全认证
C.简单快速
D.支持客户/服务器模式
35.只能通过使用浏览器发起一个到服务器上指定端口的HTTP请求。
36.通用网络爬虫对于爬行速度和存储空间要求较高。
37.GET和POST的区别,以下说法正确的有()。
A.GET方式需要使用Reques
B.QueryString来取得变量的值
C.POST方式通过Reques
D.Form来获取变量的值
E.POST提交的数据会放在URL之后
F.GET提交的数据会放在URL之后
38.HTTP响应中的Server用于指明HTTP服务器用来处理请求的软件信息。
39.正则表达式中的量词可以匹配一个表达式多次出现,()表示1次或多次。
A.?
B.*
C.+
D.^
40.HTTP请求中的()方法用于请求服务器删除Request-URI所标识的资源。
A.GET
B.TRACE
C.DELETE
D.PUT
41.以下关于正则表达式的说法,不正确的是()
A.主流开发语言C++、Java均不支持正则表达式
B.正则表达式的使用非常灵活性,逻辑性和功能性非常强
C.正则表达式是一种文本模式,模式描述在搜索文本时要匹配的一个或多个字符串
D.正则表达式是对字符串操作的一种逻辑公式
42.实际的网络爬虫系统通常是单一类型的爬虫。
43.HTTP请求的响应状态码为403表示()。
A.对被请求页面的访问被禁止
B.请求成功
C.服务器忙
D.服务器连接超时
44.关于聚焦爬虫,以下说法正确的有()
A.其工作流程较为复杂
B.可以很好地满足一些特定人群对特定领域信息的需求
C.需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列
D.将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止
45.以下关于正则表达式中常用正则规则的说法,不正确的有()
A.\D表示数字,相当于[0-9]
B.\w表示字母、数字、下划线
C.\D表示非数字
D.\d表示数字,相当于[0-9]
46.以下不属于数据质量的规范、完整性要求的是()
A.参照完整性未被破坏:数据不会找不到参照
B.不存在交叉系统匹配违规,数据被很好集成
C.遗留系统相关信息与其他模块要一致
D.数据在内部一致
47.深度优先策略不足之处在于需较长时间才能爬行到目录层次较深的页面。
48.正则表达式[a-z]可以匹配()。
A."a”到"z”范围内的任意小写字母字符
B.小写字母字符"a”或"z”
C."a”到"z”范围内的任意字母字符
D.字母字符"a”或"z”
49.以下关于正则表达式中数量表示规则的说法,不正确的是()
A.X+表示可以出现1次或多次
B.X+表示可以出现0次,1次或多次
C.X表示必须出现一次
D.X*表示可以出现0次,1次或多次
50.Referer头域允许客户端指定请求uri的源资源地址。
51.正则表达式中的量词可以匹配一个表达式多次出现,其中()表示0次或多次。
A.^
B.?
C.+
D.*
52.较早的数据不够完整或不符合新系统的数据规范,一般可以根据规则,在存入中转区的过程中予以更新或补充。
53.数据的预处理ETL的E表示()。
A.转换
B.加载
C.抽取
D.清洗
54.影响质量问题的原因有数据的时间差异性、平台多样性、不稳定性等。
55.对于无效数据、缺失数据,可以从业务因素的角度分析后替换。
56.关于表层网页及深层网页,以下说法不正确的是()。
A.表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。
B.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。
C.深层网页中包含的信息远远少于表层网页。
D.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
57.关于HTTP请求方法中GET和POST的区别,以下说法不正确的是()。
A.GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连
B.POST方式提交数据,会带来安全问题
C.POST方法是把提交的数据放在HTTP包的Body中
D.GET提交的数据大小有限制
58.由HTTP客户端发起一个请求,建立一个到服务器指定端口的TCP连接,这个端口默认是()端口。
A.81
B.10
C.88
D.80
59.增量式爬虫中的()指的是:爬虫根据个体网页的改变频率来重新访问各页面。
A.基于分类的更新法
B.个体更新法
C.统一更新法
D.随机更新法
60.HTTP请求的PUT方法请求服务器删除Request-URI所标识的资源。
61.正则表达式的规则中,()表示数字,相当于[0-9]。
A.\w
B.\W
C.\d
D.^
62.网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型()
A.增量式网络爬虫
B.深层网络爬虫
C.通用网络爬虫
D.聚焦网络爬虫
63.HTTP请求的()方法是在Request-URI所标识的资源后附加新的数据。
A.POST
B.PUT
C.TRACE
D.GET
64.计算机往往既要处理结构化数据,同时还要处理视频、语音等非结构化数据。
65.正则表达式的规则中,()表示数字,相当于[0-9]。
A.\d
B.\W
C.\w
D.^
66.通用网络爬虫通常采用并行工作方式。
67.正则表达式中有一些预定义的字符分类,其中,()表示任意空白字符。
A.\s
B.\w
C.\d
D.$
68.HTTP响应中的()表示WEB服务器告诉浏览器自己响应的对象的类型和字符集。
A.Content-Range
B.Content-Length
C.Content-Type
D.Content-Encoding
69.关于表层网页及深层网页,以下说法不正确的是()。
A.深层网页中包含的信息远远少于表层网页。
B.表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。
C.深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的Web页面。
D.深层网页爬虫主要用于爬去因此在搜索表单后的深层网页。
70.深层网页的数量比表层网页要少的多。
71.门户站点搜索引擎和大型Web服务常常通过通用网络爬虫提供商采集数据。
72.深层网络爬虫的基于网页结构分析的表单填写法一般将网页表单表示成(),从中提取表单各字段值。
A.文本
B.图像
C.DOM树
D.BOM树
73.通用网络爬虫的结构大致包括以下组成部分:()。
A.页面爬行模块
B.页面分析模块
C.链接过滤模块
D.URL队列
74.增量式爬虫中的()指的是:爬虫根据个体网页的改变频率来重新访问各页面。
A.个体更新法
B.统一更新法
C.随机更新法
D.基于分类的更新法
75.如果HTTP请求的响应信息是404,则应采取下列哪项措施()。
A.向管理员请求用户名和密码
B.检查浏览器权限
C.向网管报障
D.再次核对请求的页面地址是否正确
76.通过HTTP或者HTTPS协议请求的资源由()来标识。
A.URL
B.FTP
C.HTML
D.TCP
77.数据质量具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等。
78.网络爬虫可以分为通用网络爬虫、聚焦网络爬虫等类型。
79.对于不完整的数据,例如一些应该有的信息缺失,如信息缺失、主表与明细表不能匹配等,应进行数据()。
A.抽取
B.加载
C.转换
D.清洗
80.数据的预处理ETL的L表示()。
A.抽取
B.转换
C.清洗
D.加载
81.HTTP请求中的()方法用于请求服务器存储一个资源,并用Request-URI作为其标识。
A.GET
B.TRACE
C.PUT
D.POST
82.可以从一个HTTP请求中了解到一些信息,例如:发出请求的客户端,请求的语言,是否保持连接(keep-alive),等等。
83.追求高数据质量是对大数据的一项重要要求,要消除某些数据的不可预测性,去掉一些"杂乱”的"脏”数据,就涉及到()技术。
A.数据清洗
B.数据预测
C.数据统计
D.数据采集
84.数据质量的()表示数据是否正确的表示了现实或可证实的来源。
A.一致性
B.完整性
C.完备性
D.正确性
85.POST方式提交表单数据,会带来安全问题。
86.按照()爬取的网页内容根据目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行,当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。
A.PageRank优先策略
B.随机爬行策略
C.深度优先策略
D.广度优先策略
87.HTTP请求中的Connection:keep-alive表示()
A.客户端到服务器端的连接持续有效
B.客户端网络类型
C.客户端设备类型
D.客户端指定请求uri的源资源地址
88.影响质量问题的原因不包括()。
A.数据的依赖性问题
B.数据的获取方式多样性问题
C.数据的不稳定性问题
D.数据的时间差异性问题
89.数据转换时,对于空值的处理,可通过加载或替换为其他含义数据,并根据字段空值实现分流加载到不同目标库。
90.不同格式的数据也可以一起处理,不需要转换。
91.HTTP请求中的()头域允许客户端指定请求uri的源资源地址,这可以允许服务器生成回退链表,可用来登陆、优化cache等。
A.Cookie
B.Referer
C.User-Agent
D.Referer
92.数据的一致性指的是数据是否被一致的定义或理解。
93.字符串“a_b”可以匹配正则表达式“\w{6}”。
94.以下不能匹配正则表达式"^[\w]+$"的是()。
A.S+1
B.S_1
C.12
D.S1
95.正则表达式的规则中,()表示数字,相当于[0-9]。
A.\W
B.\w
C.^
D.\d
96.以下能匹配正则表达式"^[A-Za-z]+$"的是()。
A.abc
B.ab
C.a3
D.33
97.广度优先策略不能避免遇到一个无穷深层分支时无法结束爬行的问题。
98.以下不能匹配正则表达式"^[\d]+$"的是()。
A.12abc
B.10
C.12
D.123
99.正则表达式的量词?表示0次或多次。
100.(),又称主题网络爬虫,是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。
A.通用网络爬虫
B.聚焦网络爬虫
C.增量式网络爬虫
D.深层网络爬虫
数据采集与管理【11】相关推荐
- 致远项目管理SPM系统案例:中关村创客小镇数据采集云管理
卷首语 致远项目管理SPM系统助力中关村创客小镇数据采集云管理. 企业简介 中关村创客小镇坐落于中关村科学城北部的核心区域,是智能网联汽车.人工智能和新材料三大产业聚集地,同时也是海淀北部重要的& ...
- 数据采集与管理【13】
1.数据的预处理ETL的E表示(). A.加载 B.抽取 C.清洗 D.转换 2.通用爬虫爬行策略实现的关键是评价页面内容和链接的重要性. 3.广度优先的爬行策略适合垂直搜索或站内搜索. 4.HTTP ...
- 数据采集与管理【15】
1.HTTP状态码400表示请求成功.. 2.通用网络爬虫的技术细节都是公布出来的. 3.广度优先的爬行策略按照网页内容目录层次深浅来爬行页面,当同一层次中的页面爬行完毕后,再深入下一层继续爬行. 4 ...
- 零基础学Arcgis(六)|空间数据采集与管理(3)数据编辑
写在前面的话: B站搜索"中图地信"便可观看全套71章节详细操作视频(有操作数据获取,同步学习) (一)使用要素模板 1.使用要素模板 [1]启动ArcMap,新建空白地图文档: ...
- 数据采集与管理【12】
1.DeepWeb爬虫体系结构包含六个基本功能模块和两个爬虫内部数据结构,其中()表示标签/数值集合,用来表示填充表单的数据源. A.爬行控制器 B.URL列表 C.响应分析器 D.LVS表 2.HT ...
- 零基础学Arcgis(七)|空间数据采集与管理(4)数据检查
写在前面的话: B站搜索"中图地信"便可观看全套71章节详细操作视频(有操作数据获取,同步学习) (一)创建地理数据库拓扑 1.创建地理数据库拓扑 [1]设计拓扑: [2]启动Ar ...
- 零基础学Arcgis(四)|空间数据采集与管理(1)Shapefile和dBASE文件的创建与管理
(一)新建Shapefile文件 [1]启动ArcMap,新建空白地图文档: [2]打开[目录]窗口.单击[标准工具条]->[目录],弹出[目录]窗口,拖放[目录]窗口停靠在ArcMap右侧: ...
- 网络设备配置与管理————11、配置主机名、时钟、IP地址
主机名设置 命令:Router(config)#hostname hostname 操作流程: 命令 作用 Router#configure terminal 进入全局配置模式 Router(co ...
- 英特佩斯远程数据采集和车队管理平台
概述 随着智能驾驶对于数据量需求越来越大,采用试验车队进行数据采集与数据管理的需求越发流行,在减少随车人员.工程师远程分析.车队远程管理等诸多方面都面临着新的问题.英特佩斯针对上述需求提出远程的数据采 ...
最新文章
- 别再SOTA了,那叫“微调”!Science发文炮轰论文灌水
- Ubuntu 安装mysql和简单操作
- python 文件格式转换_Python的处理数据,如何进行数据转换,学会三种方式
- 8月份Github上最热门的Python开源项目
- MySQL 索引详解
- 单片机c语言篮球比分_基于单片机的篮球比赛计时计分器的设计
- Laravel Session 遇到的坑
- python pandas 拿取表格中两个列_在家憋着也是憋着,不如来学习一下python数据聚合的方法...
- nn.Conv2d(nc, ndf, 4, 2, 1, bias=False),nc、ndf是什么?
- NeurIPS 2020 | 微软亚研院论文摘录之强化学习GAN篇
- python中怎样创建字典内建函数_python中常用的字典内建函数
- ajax--跨域问题及三种简单的解决方案
- dts无法识别excel中的数字值?
- 小D课堂 - 新版本微服务springcloud+Docker教程_5-02 Netflix开源组件断路器
- 优质编程网站推荐(适合学习和查资料)
- GB28181协议常见几种信令流程(三)
- [ 数据集 ] MINIST 数据集介绍
- python _滑动时间窗
- centos 卸载apache
- 基于ESP32的蓝牙鼠标键盘(一)BleKeyboard.h函数解析