python数据分析挖掘与可视化课件_python数据分析与可视化
#数据可视化分析
#python中matplotlib绘制图像
'''
import matplotlib.pyplot as plt
import matplotlib as mpl
import numpy as np
import warnings
warnings.filterwarnings("ignore")
plt.style.use("classic")
#正常的二维函数图像
x=np.linspace(0,10,100)
y=np.sin(x)
y1=np.cos(x)
plt.plot(x,y,"-")
plt.plot(x,y1,"--")
plt.show()
#多子图绘制
plt.figure()
plt.subplot(2,1,1) #绘制两行一列的图像,第几个图
plt.plot(x,y)
plt.subplot(2,1,2)
plt.plot(x,y1)
plt.show()
#子图绘制的第二种方式
fig,ax=plt.subplots(2)
ax[0].plot(x,y)
ax[1].plot(x,y1)
plt.show()
#底图的风格展示
plt.style.use("seaborn-whitegrid")
fig=plt.figure()
ax=plt.axes()
x=np.linspace(0,10,100)
ax.plot(x,np.sin(x))
plt.show()
#颜色调整
plt.plot(x,np.sin(x-0),color="blue")
plt.plot(x,np.sin(x-1),color="g")
plt.plot(x,np.sin(x-2),color="0.75")
plt.plot(x,np.sin(x-3),color="#FFDD44")
plt.plot(x,np.sin(x-4),color=(1.0,0.2,0.3))
plt.plot(x,np.sin(x-5),color="chartreuse")
plt.show()
#线条的样式
plt.figure()
plt.plot(x,x+0,linestyle="solid")
plt.plot(x,x+1,linestyle="dashed")
plt.plot(x,x+2,linestyle="dashdot")
plt.plot(x,x+3,linestyle="dotted")
plt.plot(x,x+4,linestyle="-")
plt.plot(x,x+5,linestyle="--")
plt.plot(x,x+6,linestyle="-.")
plt.plot(x,x+7,linestyle=":")
plt.show()
#不同的标记展示
rng=np.random.RandomState(0)
for marker in ["o",".",",","x","+","v","^","","s","d"]:
plt.plot(rng.rand(5),rng.rand(5),marker,label="marker='{}'".format(marker))
plt.legend(numpoints=1)
plt.xlim(0,1.8)
plt.show()
#绘制散点图
x=np.linspace(0,10,20)
plt.scatter(x,np.sin(x))
plt.show()
#绘制直方图
data=np.random.randn(1000)
plt.hist(data,color="g")
plt.show()
data=np.random.randn(1000)
plt.hist(data,bins=30,normed=True,alpha=0.5,histtype="stepfilled",color="steelblue",edgecolor="none")
plt.show()
x1=np.random.normal(0,0.8,1000)
x2=np.random.normal(-2,1,1000)
x3=np.random.normal(3,2,1000)
kwargs=dict(bins=40,normed=True,alpha=0.3,histtype="stepfilled")
plt.hist(x1,**kwargs)
plt.hist(x2,**kwargs)
plt.hist(x3,**kwargs)
plt.show()
#柱状图绘制
#箱式图(离散变量对连续变量的关系)
#python中的seaborn绘制图像
import seaborn as sns
import pandas as pd
df_iris=pd.read_csv('D:\Byrbt2018\Study\Python机器学习全流程项目实战精讲\配套课件\第五讲 数据分析与可视化\iris.csv')
fig,axes=plt.subplots(2)
sns.distplot(df_iris["petal length"],ax=axes[0],kde=True,rug=True)#加轴虚的直方图带拟合线
sns.kdeplot(df_iris["petal length"],ax=axes[1],shade=True)#拟合图
plt.show()
#四种直方图形式
sns.set(palette="muted",color_codes=True)
rs=np.random.RandomState(10)
d=rs.normal(size=100)
f,axes=plt.subplots(2,2,figsize=(7,7),sharex=True)
sns.distplot(d,kde=False,color="b",ax=axes[0,0])
sns.distplot(d,hist=False,rug=True,color="r",ax=axes[0,1])
sns.distplot(d,hist=False,color="g",kde_kws={"shade":True},ax=axes[1,0])
sns.distplot(d,color="m",ax=axes[1,1])
plt.show()
#绘制箱式图-不同类别鸢尾花的叶片宽度分布
sns.boxplot(x=df_iris["class"],y=df_iris["sepal width"])
plt.show()
#图矩阵
sns.set()
sns.pairplot(df_iris,hue="class")
plt.show()
'''
#1-3 招聘数据的探索性数据分析
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#拿到数据表格,导入数据
data=pd.read_csv('D:\Byrbt2018\Study\Python机器学习全流程项目实战精讲\配套课件\第五讲 数据分析与可视化\lagou_preprocessed.csv',encoding="gbk")
print(data.head())
#输出数据的基本信息
print(data.info())
#数值型变量的统计量描述
print(data.describe())
#目标变量分析salary
#回归连续性变量统计分析
print(data["salary"].describe())
#绘制目标变量的直方图,查看值分布
plt.hist(data["salary"])
plt.show()
#使用seaborn绘制直方图
import warnings
warnings.filterwarnings("ignore")
sns.distplot(data["salary"])
plt.show()
#计算目标变量的偏度和峰度
from scipy import stats
print("Skewness:%f" % data["salary"].skew())
print("Kurtosis: %f" % data["salary"].kurt())
#分类变量处理-直接统计各个分类结果的数目
#分类值统计
cols=["city","education","position_name","size","stage","work_year"]
for col in cols:
print(data[col].value_counts())
#将一些分类结果归结为其他
city=["北京","上海","广州","深圳","杭州","成都","南京","武汉","南京"]
for i,j in enumerate(data["city"]):
if j not in city:
data["city"][i]="其他"
print(data["city"].value_counts())
#解决绘图中的文字体显示问题
from pylab import *
mpl.rcParams["font.sans-serif"]=["SimHei"]
#城市分类与工资水平的箱线图
sns.boxplot(x=data["city"],y=data["salary"])
plt.show()
#学历与学历的关系
sns.boxplot(x=data["education"],y=data["salary"])
plt.show()
#经验与工资水平的关系
sns.boxplot(x=data["work_year"],y=data["salary"])
plt.show()
#企业发展阶段与工资水平的关系
sns.boxplot(x=data["stage"],y=data["salary"])
plt.show()
#企业规模与工资水平的关系
sns.boxplot(x=data["size"],y=data["salary"])
plt.show()
#岗位与工资水平的关系
sns.boxplot(x=data["position_name"],y=data["salary"])
plt.show()
#处理industry变量
for i,j in enumerate(data["industry"]):
if "," not in j:
data["industry"][i]=j
else:
data["industry"][i]=j.split(",")[0]
print(data["industry"].value_counts())
indus=["移动互联网","金融","数据服务","电子商务","企业服务","医疗健康","O2O","硬件","信息安全","教育"]
for i,j in enumerate(data["industry"]):
if j not in indus:
data["industry"][i]="其他"
else:
data["industry"][i]=j
print(data["industry"].value_counts())
#行业与工资水平的关系
sns.boxplot(x=data["industry"],y=data["salary"])
plt.show()
#大文本的特征信息数据分析-使用结巴库和词云图来进行展示
ADV=[]
for i in data["advantage"]:
ADV.append(i)
ADv_text="".join(ADV)
print(ADv_text)
'''import jieba
result=jieba.cut(ADv_text)
print("切分结果:"+",".join(result))
#加入一些jieba库中没有的词汇
jieba.suggest_freq(("五险一金"),True)
jieba.suggest_freq(("六险一金"),True)
jieba.suggest_freq(("带薪年假"),True)
jieba.suggest_freq(("年度旅游"),True)
jieba.suggest_freq(("氛围好"),True)
jieba.suggest_freq(("技术大牛"),True)
jieba.suggest_freq(("免费三餐"),True)
jieba.suggest_freq(("租房补贴"),True)
jieba.suggest_freq(("大数据"),True)
jieba.suggest_freq(("精英团队"),True)
jieba.suggest_freq(("晋升空间大"),True)
result=jieba.cut(ADv_text)
print("切分结果:"+",".join(result))
from wordcloud import WordCloud
wordcloud = WordCloud(font_path="MSYH.TTF",background_color="black").generate(ADv_text)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
'''
python数据分析挖掘与可视化课件_python数据分析与可视化相关推荐
- python数据分析与展示 pdf课件_python数据分析与展示 课件 相关实例(示例源码)下载 - 好例子网...
开发语言:Python | 大小:9.84KB | 发布时间:2020-05-13 | 立即下载 开发语言:Python | 大小:0.24M | 发布时间:2019-09-09 | 立即下载 开发语 ...
- python数据分析与可视化清华大学_Python数据分析与可视化 微课视频版
随着互联网的飞速发展,人们在互联网上的行为产生了海量数据,对这些数据存储.处理与分析带动了大数据技术的发展.其中,数据挖掘和分析技术可以帮助人们对庞大的数据进行相关分析,找到有价值的信息和规律,使得人 ...
- python数据分析最基本的库_Python数据分析库pandas基本操作方法_python
下面就为大家分享一篇Python数据分析库pandas基本操作方法,具有很好的参考价值,希望对大家有所帮助.一起过来看看吧 pandas是什么? 是它吗? ....很显然pandas没有这个家伙那么可 ...
- python爬虫可视化界面_python爬虫---垃圾分类可视化界面
在以前我写了一个对垃圾进行分类的exe程序,功能齐全了可是外观看起来不怎么好看,所以我用python中的tkinter库写了一个对垃圾分类可视化的一个程序,而后打包成了一个exe. 1.展现界面效果 ...
- python数据分析与可视化清华大学_Python数据分析与可视化
讲解Python数据分析与可视化中的九大模块,内容全面详实: 提供11个课程实训和2个完整的项目案例,理论结合实践 : 赠送420分钟的教学视频及丰富的配套资源,便于教师教学. 超值赠送: 教学大纲. ...
- python数据分析可视化实例_Python数据分析及可视化实例之基于Kmean分析RFM进行用户关怀...
系列文章总目录:Python数据分析及可视化实例目录 数据集下载 Python数据分析及可视化实例之全国各城市房价分析(含数据采集) Python数据分析及可视化实例之帝都房价预测 Python数据分 ...
- python做数据可视化视频_Python数据分析系列视频课程--玩转数据可视化
matplotlib包是基于Python平台的统计绘图利器,是在python平台上完成数据可视化不可或缺的工具,而基于matplotlib进一步开发的seaborn,更是将数据呈现与可视化的可用性推到 ...
- python数据分析基础试题及答案_Python数据分析与数据可视化题库免费期末考试2020答案...
Python数据分析与数据可视化题库免费期末考试2020答案 更多相关问题 风险管理是一个不断发展变化的演变过程.在风险管理演变过程中,大多数现代风险管理形式是从()中 以下哪项是虚证闭经的主要病机A ...
- python的seaborn用于可视化分析_Python数据分析-可视化“大佬”之Seaborn
如果有想关注Java开发相关的内容,可以转 上次学习了如何使用Matplolib进行数据可视化,接下来让我们来看看另一个可视化工具--seaborn Seaborn 既然有了matplotlib,那为 ...
- python简笔画绘制 数据驱动绘图_python数据分析绘图可视化
简介: 想在1天内快速搞定实时业务数据大屏吗?想用最短路径逆袭成为数据可视化大神吗?想在除了PRD外什么都没有的情况下,体验职场真人版绝境求生吗? 概念:LADV是 以上例子中,生成的可视化图表,均可 ...
最新文章
- pandas替换列值+1
- 范围管理6个过程及相关重点
- MyBatis 实际使用案例-plugins
- python中单行注释_Python中的单行、多行、中文注释方法
- 类库探源——System.ValueType
- 谷歌街景新功能——帮警方抓毒贩
- 【定时同步系列4】QPSK调制+OM定时(FFT实现及频域补偿)+信号分段处理+误码率曲线之MATLAB仿真(复信号模型)
- 放大镜_指甲钳上有放大镜?再也不怕夹到肉了
- 3D游戏建模就是那么简单
- Perfect Appearance NIKE KD 9 PERFORMANCE REVIEW
- 自动生成四则运算题目
- 解决 Error L6915E 问题
- *第十周*数据结构实践项目一【二叉树的链式存储算法库】
- 复制文件并重命名到新的文件夹
- 成都信息工程大学校友小程序设计方案
- RMAN-06004、RMAN-20011
- 安装Windows+Ubuntu双系统
- 数据库系统知识点总结与英文课件翻译
- visual studio 2010 没有代码提示(智能提示)或代码提示很慢解决方案一例
- 2、TWS API接口的使用说明
热门文章
- 电气领域相关数据集(目标检测,分类图像数据及负荷预测),输电线路图像数据
- Android SwipeRefreshLayout 刷新控件
- vue刷新左菜单消失_vue+Element框架menu菜单刷新后保持选中状态
- 做python少儿编程教程-基于海龟编辑器python少儿编程
- 痞子衡嵌入式:MCUXpresso Config Tools初体验(Pins, Clocks, Peripherals)
- android怎么改变字体,如何修改安卓手机字体 详细安卓字体修改图文教程
- 友华 PT926G 超管密码 V3.0
- js判断数组的六种方法
- php零售,ThinkPHP开源新零售小程序_萤火商城系统
- 【DIY分享】示波器(原理图+源码+仿真)