行业大数据应用-复习

第一章：大数据概述

1.行业大数据主要研究内容：

一个目标：以有效的信息技术手段和计算方法，获取、处理和分析各种应用行业的大数据，发现和提取高附加值的应用和服务。

三个方面：概念，方法，应用。

2.数据：是所有能输入到计算机并被计算机程序处理的符号的总称。

3.数据的分类：结构化，半结构化，非结构化，（“准”结构化）。

4.数字孪生：充分利用物理模型和基于运行历史的大数据，在虚拟空间中完成映射，从而反映相对应的实体装备的全生命周期过程。

5.大数据：规模庞大，结构复杂，难以通过现有商业工具和技术在可容忍的时间内获取，管理和处理的数据集。

6.大数据4V特征：

Volume（规模大）：数据的采集，计算，存储量都非常庞大。

Velocity（变化快）：数据增长速度快，处理速度也快，获取数据的速度也要快。

Variety（种类杂）：种类和来源多样化。

Value（价值密度低）：我们需要对一系列价值密度低的数据进行分析处理，才能获得大量信息所蕴含的部分有价值的信息。

7.数据处理的一般过程：

数据获取——数据获取后，需要对数据进行变换，清洗等预处理，输出满足数据应用要求的数据。

数据管理——对数据进行分类，编码，存储，索引和查询。

数据分析——描述性分析，诊断性分析，预测性分析和规范性分析。

数据可视化与交互分析——帮助业务人员而非数据处理专家更好的理解数据分析的结果。

第二章：数据获取与治理

1.大数据的来源：

对现实世界的测量——通过感知设备获得数据。

人类的记录——由人录入计算机形成数据。

计算机生成的数据——计算机通过现实世界模拟等程序生成数据。

2.数据质量的评估标准：

完整性——数据信息是否存在缺失的情况。数据完整性是数据质量最为基础的一项评估标准。

一致性——数据是否遵循了统一的规范，数据之间的逻辑关系是否正确和完整。

准确性——数据中记录的信息和数据是否准确，数据记录的信息是否存在异常或错误。

及时性——数据从产生到可以查看的时间间隔，也叫数据的延时时长，是数据世界与客观世界的同步程度。数据的及时性主要跟数据的同步和处理过程的效率有关。

3.数据变换

4.分箱练习：800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000

等深分箱法箱子深度为4 箱子1：800 1000 1200 1500

箱子2：1500 1800 2000 2300

箱子3：2500 2800 3000 3500

箱子4：4000 4500 4800 5000

等宽分箱法箱子宽度为1000 箱子1：800 1000 1200 1500 1500 1800

箱子2：2000 2300 2500 2800 3000

箱子3：3500 4000 4500

箱子4：4800 5000

用户自定义分箱法将客户收入划分为1000以下，1000~2000，2001~3000，3001~4000和4000以上五组箱子1：800

箱子2：1000 1200 1500 1500 1800 2000

箱子3：2300 2500 2800 3000

箱子4：3500 4000

箱子5：4500 4800 5000

5.在分箱之后，要对每个箱子中的数据进行平滑处理（处理噪声数据）

按平均值：对同一个箱子中的数据求平均值，用均值代替箱子中所有的数据。
按中值：取箱子中所有数据的中值，用中值代替箱子中的所有数据。
按边界值：对箱子中的每一个数据，使用离边界值较小的边界值代替。

6.聚类：将数据集合分组成若干个簇，在簇外的值即为孤立点，这些孤立点就是噪声数据，对这些孤立点进行删除或替换。

相似或临近的数据聚合在一起形成各个聚类集合，在这些聚类集合之外的数据即为异常数据。（处理噪声数据）

7.回归：通过发现两个不相关的变量之间的相关关系，构造一个回归函数使得该函数能够更大程度地满足两个变量之间的关系，使得这个函数来平滑数据。（处理噪声数据）

8.处理冗余数据

9.缺失值填充的方法

第三章：Python数据分析概述

1.广义的数据分析包括狭义数据分析（对收集来的数据进行处理与分析，提取有价值的信息）和数据挖掘（挖掘潜在价值）。

2.数据分析的流程：

需求分析：数据分析中的需求分析也是数据分析环节的第一步和最重要的步骤之一，决定了后续的分析的方向，方法。

数据获取：数据是数据分析工作的基础，是指根据需求分析的结果提取，收集数据。

数据预处理：数据预处理是指对数据进行数据合并，数据清洗，数据变换和数据标准化，数据变换后使得整体数据变得干净整齐，可以直接用于分析建模这一过程的总称。

分析与建模：分析与建模是指通过对比分析，分组分析，交叉分析，回归分析等分析方法和聚类，分类，关联规则，智能推荐等模型与算法发现数据中的有价值信息，并得出结论的过程。

模型评价与优化：模型评价是指对已经建立了的一个或多个模型，根据其模型的类别，使用不同的指标评价其性能优劣的过程。

部署：部署是将通过了正式应用数据分析结果与结论应用至实际生产系统的过程。

3.Markdown是一种可以使用普通文本编辑器编写的标记语言，通过简单的标记语言，它可以使普通文本内容具有一定的格式。

第四章：Python爬虫环境与爬虫简介

1.网络爬虫，是一个模拟浏览器向目标网站发起请求从而自动下载网页数据的计算机程序或自动化脚本。

2.爬虫类型：

通用网络爬虫（全网爬虫）——其爬行对象由一批种子URL扩充至整个Web。（抓取互联网上的所有数据）深度优先策略，广度优先策略。

聚焦网络爬虫（主题网络爬虫）——只选择性地爬行与预设主题相关的页面（抓取互联网上的某一种数据）基于内容评价的爬行策略（将用户输入的查询词作为主题），基于链接结构评价的爬行策略（将包含很多结构信息的半结构化文档Web页面用来评价链接的重要性），基于增强学习的爬行策略（利用贝叶斯分类器对超链接进行分类，计算出每个链接的重要性），基于语境图的爬行策略（建立语境学习网页之间的相关度，计算当前页面到相关页面的距离）。

增量式网络爬虫——只对已下载网页来取增量式更新或只爬行新产生的及已经发生变化的网页，需要通过重新访问页面对本地页面进行更新，从而保持本地集中存储的页面为最新页面（抓取刚刚更新的数据）。统一更新法，个体更新法，基于分类的更新法。
应用场景：

需要爬取多个同类型的网站数据。

网站数据持续，不定期更新。

数据量不大，每日更新几千。

获取的数据可以用来进行数据分析等等。

深层网络爬虫——深层页面为大部分内容无法通过静态链接获取，隐藏在搜素表单后的，需要用户提交关键词后才能获得的web页面。基于领域知识的表单填写，基于网页结构分析的表单填写。

3.反爬虫：被爬网站采取措施禁止爬虫对其访问。

为什么反爬虫？
1. 爬虫访问频率过高，给目标网站/应用服务器带来巨大访问压力。
2. 爬虫的访问记录无价值，甚至会扰乱网站营运者的正常动作。
3. 爬虫会带来数据安全问题。
爬取策略判定：
1. 发送模拟user-agent
2. 调整访问频度（备用IP测试网站的访问频率阈值）
3. 通过验证码校验（更换爬虫IP，通过算法识别验证码，使用cookie绕过验证码）
4. 应对网站结构变化（网站结构调整之前，爬取，使用脚本对网站结构进行检测）
5. 通过账号权限限制（模拟登录的方法）
6. 通过代理IP规避（代理进行IP更换）

4.与爬虫相关的库

通用	urllib	python内置的HTTP请求库，提供系列用于操作URL的功能
	requests	基于urllib，采用Apache2 Licensed开源协议的HTTP库
	urllib3	提供很多python标准库里所没有的重要特性：线程安全，连接池，客户端SSL/TLS验证，文件分部编码上传，协助处理重复请求和HTTP重定位，支持压缩编码，支持HTTP和SOCKS代理，100%测试覆盖率
框架	scrapy	一个为了爬取网站数据，提取结构性数据而编写的应用框架
HTML/XML解析器	lxml	c语言编写高效HTML/XML处理库，支持XPath
HTML/XML解析器	BeautifulSoup4	纯python实现的HTML/XML处理库，效率相对较低

第五章：简单静态网页爬取

1.HTTP包含数据头和数据体两部分内容。HTTP请求过程如下：

由HTTP客户端向服务器发起一个请求，创建一个到服务器指定端口的TCP连接。

HTTP服务器从该端口监听客户端的请求。

一旦收到请求，服务器会向客户端返回一个状态，比如“HTTP/1.1 200 OK”以及返回的响应内容，如请求的我呢见，错误消息，或其他信息。

2.HTTP头部类型按用途可分为：

通用头：既适用于客户端的请求头，也适用于服务端的响应头。（与HTTP消息体内最终传输的数据是无关的，只适用于要发送的消息）
请求头：提供更为精确的描述信息，其对象为所请求的资源或请求本身。
响应头：为响应消息提供了更多的信息。
实体头：提供了关于消息体的描述。

3.HTTP状态码种类：

1XX：请求已被接受，需接后续处理。这类响应是临时响应，只包含状态行和某些可选的响应头信息，并以空行结束。

2XX：请求已成功被服务器接收，理解并接受。

3XX：需要客户端采取进一步的操作才能完成请求。

4XX：客户端可能发生了错误，妨碍了服务器的处理

5XX：服务器在处理请求的过程中有错误或者异常状态发生，也有可能是服务器以当前的硬软件资源无法完成对请求的处理。

4.爬虫基本流程：

发起请求——通过HTTP库向目标站点发起请求，请求可以包含额外的headers等信息，等待服务器响应。

获取响应内容——如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据等类型。

解析内容——得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析。可能是Json，可以直接转为Json对象解析，可能是二进制数据，可以做保存或者进一步处理。

保存数据——保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件。

5.使用requests库实现HTTP请求：

(1)生成请求 requests.method(url,**kwargs)

import requests
rq = requests.get('http://www.cnki.net/')

(2)查看响应内容

print('响应状态码:',rq.status-code)
print('编码:',ra.encoding)
print('请求头:',rq.headers)
print('实体:',rq.text)

注意：chardet库的detect函数可检测给定字符串中的编码

import chardet
chardet.detect(rq.content)

(3)请求头与响应头处理

headers = {'uesr-agent':' '} #设置请求头
rq.requests(url,headers = headers)
rq.headers #返回的响应头

(4)timeout设置 ——超过该参数设定的秒数后，程序会停止等待

rq = requests.get(url,headers = headers,timeout = 2.0)

(5)该请求包含链接，请求头，响应头，超过时间，状态码，并且编码应正确设置。

url = 'http://www.cnki.net/'
headers = {'User-Agent':' '}
rq = requests.get(url,headers = headers,timeout = 2.0)
rq.encoding = chardet.detect(rq.content)['encoding'] #设置编码方式

6.XPath只能处理文档的DOM表现形式。

7.解析网页 lxml.etree.HTML(text,parser = None,*,base-url = None)

Xpath常用匹配表达式如下：

nodename	选取nodename节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

xpath("//a/test()") #获取a标签下的文本
xpath("//a//test()") #获取a标签以及标签中的内容
xpath("//a/@href") #获取a标签中的链接

8.lxml HTML解析器的优点是：速度快，文档容错能力强。

9.使用Beautiful Soup解析网页：

from bs4 import BeautifulSoup
wiith open('html_doc.html') as html_doc:
soup = BeautifulSoup(html_doc,features = 'lxml') #用lxml解析器进行解析

获取某些标签内容：soup.head/soup.body/soup.a

定位目标内容：

soup.select(目标标签路径）
soup.select('body a') #查找body下面的a
soup.select('body>a') #查找body下面直接a
soup.select("p:nth-of-type(2)") #第二个p标签
soup.select('p>a:nth-child(2)')
soup.select('p')[0].text #获得标签p中的内容
soup.select('p')[1].get('class') #获得标签的id属性值

10.元素面板：该面板可查看渲染页面所需的HTML，CSS和DOM对象，并可实时编辑这些元素调试页面渲染效果。

网络面板：该面板可查看页面请求，下载的资源文件及优化页面加载性能。还可查看HTTP的请求头，响应内容等等。

11.如何存储爬取到的网页数据：

将数据存储为JSON文件的过程为一个编码过程

json.dump(obj,fp,ensure_ascii = True,encoding = "utf-8")

第六章：信用卡评分建模分析

1.引入WOE转换的目的并不是为了提高模型质量，只是一些变量不应该被纳入模型，这或者是因为它们不能增加模型值，或者只是应为与其模型相关系数的误差较大。

2.缺失值处理：

查看缺失值情况，一种是info()，一种是isnull().sum()
处理缺失值：
1. ）直接删除含缺失值的样本。
2. 根据样本之间相似性填补缺失值。
3. 根据变量之间的相关性填补缺失值。

3.查看缺失值：data.duplicated().sum()

删除缺失值：data.drop_duplicates(）

第七章：《红海行动》B站弹幕采集与分析

1.发布弹幕四大作用：情感表达，寻求认同陪伴，发表观点，安利种草。

2.采集B站弹幕数据：

B站的弹幕数据文件的URL为：固定url地址+视频的cid+.xml（cid与具体视频有关，一般可在网页源码中找到）

例子：

#数据采集
import requests
cid = 306242158
url = 'http://comment.bilibili.com/{}.xml'.format(cid)
rq = requests.get(url)#解析数据
from bs4 import BeautifulSoup
ra.encoding = 'utf-8'
soup = BeautifulSoup(rq.text,'lxml') #解析网页数据
tmp = soup.select('d')
danmu = [i.text for i in tmp] #获取弹幕文本
data = [i.get('p').split(',') for i in tmp] #获取弹幕数据其他信息#保存数据
import pandas as pd
data = pd.DataFrame(data) #转为数据框
data.columns=['出现时间点','模式','字体“,'颜色','发送时间','弹幕池','用户ID'，'rowID']
data['content'] = content #添加弹幕文本数据
data.to_csv('./content.csv',index=None,encoding='utf-8-sig') #保存数据

3.词云图绘制流程：

数据读取
分词
去除停用词
词频统计
绘制词云