Python 数据分析与挖掘概述

一、数据分析与挖掘介绍

从人类历史演变的角度出发,我们回顾整个计算机的发展历程可以看到,从第一台电子计算机(ENIAC)于1946年2月诞生到今天,也不过是短短的六十载,但就是在这短短的几十年过程中,计算机技术得到了飞速的发展,极大地促进了社会生产力的提高,提升了生产制造水平。可以说计算机技术是近代以来发展最为迅速的技术之一。(更多内容,可参阅程序员在旅途)

尤其是近年来,随着半导体技术,通讯技术的不断发展,人类收集数据和存储数据的能力都得到了极大的提高。无论是在科学研究还是社会生活的各个领域中都产生积累了大量的数据,对这些数据进行分析以挖掘出蕴含在这些数据中的有用信息,已成为我们各个领域的共同需求,对改善人类的生活,促进社会的发展有着极大的作用。

数据分析与挖掘是指利用数学和计算机的手段,对收集来的数据进行适当的处理和开发,以求最大化地开发数据的功能,发挥数据的作用。具体来说,数据挖掘是从海量的数据中挖掘出隐含的、先前未知、对决策有潜在价值的关系、模式、趋势,并利用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具、和过程。

留心观察就会觉察到,大数据分析在我们生活中的应用案例屡见不鲜。例如许多电商网站会根据用户的历史浏览足迹、购买记录等数据,挖掘出用户的喜好等信息,然后基于用户的兴趣偏好,把用户感兴趣的物品或者视频、资讯等推荐给用户,给用户带来沉浸式的体验,让用户感到一定的满足感,优化用户的体验。

二、数据分析的流程

在了解了数据分析与挖掘的相关背景知识后,我们又应该如何开始数据分析相关的工作的呢?首先,我们要清楚的知道一次数据挖掘任务是在什么样的背景下进行的,任务的最终目的是什么,最终的项目成果是什么,能满足什么样的需求,能带来什么样的收益。其次,要了解待分析的数据的来源,如何获取这些数据,准备好相应的数据获取方法;再对获取到的数据进行必要的处理,剔除不满足需求或者明显有差错的数据。然后,根据业务需求,建立相关的模型,利用数据进行训练,不断地对模型进行修正与优化。最后,对构建好的模型进行评估分析,选择时机部署在相应的系统上面运行。

2.1 需求分析

通过与相关部门人员进行交流探讨,准确理解用户和项目的功能、性能、可靠性等具体要求。

2.2 数据获取

要进行数据分析与挖掘的前提是要有数据的支持。数据来源可以是公司数据库里面的历史数据信息,也可以根据具体的项目需要进行网络爬虫爬取。

2.3 数据预处理

上一步获取到的数据往往不能直接用于建模,其中常常包含有一些脏数据。因此,在建模之前需要对数据进行预处理,这一阶段主要做的工作有:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。这些名词看起来比较抽象,但只要处理过一次具体的项目案例,对这些名词就会很熟悉了。在具体的项目中,根据数据的特征,有选择的做其中部分或者全部处理,不一定要全部都涉及。

2.4 分析与建模

在对数据进行预处理之后,我们就可以着手准备建模的相关事情了。在建模之前,我们要考虑,此次数据分析任务是属于数据挖掘中的哪类问题,具体的要思考,是属于这四类问题中的哪一类,分类问题、聚类问题、关联问题、预测问题。在确认了问题的归属之后,需要确定具体的分析方法。常见的问题归属有:
       1)分类问题:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等
       2)聚类问题:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。
       3)关联问题:Aprior算法、Carma算法,序列算法等
       4)预测问题:线性回归分析、多重线性回归分析、时间序列等。

在我们使用Python进行数据分析的时候,并不需要每个算法都要自己去实现,有一些算法已经封装在相关的模块中了,我们在使用的时候,只需要调用这些模块即可。这也是Python在数据分析领域流行的原因之一,丰富的组件,拿来即用,戏称胶水语言。

2.5 模型评价与优化改进

模型评价的目的是从训练的模型中找出一个最好的,然后根据具体的业务对模型进行解释和应用。不同的问题会选择不同的模型,因此评价方法也会有所不同。例如,我们如果研究的是一个分类问题,那我们就会使用分类模型,相应地,就会选择适当的分类模型评价标准。

2.6 系统部署

当模型构建好,经过评估之后,如果没问题,就可以部署在具体的系统里面,投入使用了。

三、数据分析的编程语言选择

目前主流的数据分析语言有R,Python,MATLAB三种程序语言。

四、如何利用Python进行数据分析

Python是一种面向对象的解释性计算机程序设计语言,他拥有高效的高级数据结构,并且能够用简单又高效的方式进行编程。用Python进行数据分析的主要原因, 是它的数据分析库很全面。例如:他有三个经典的科学计算扩展库:NumPy,SciPy,Matplotlib。这三个库是我们进行数据分析过程中必须要使用的工具模块,分别提供了快速数组处理、数值运算以及绘图功能。在数据处理方面,Pandas 是一个功能强大的为了解决数据分析任务而创建工具库,Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。除此之外,Scikit-learn库中包含了很多聚类相关的算法,这在构建聚类模型的时候相当有用。正是由于Python拥有这些库的支持,所以才成为数据挖掘领域常用的编程语言。因此,如果使用Python进行数据分析与挖掘的话,必须要熟练的掌握上述库的使用。

参考文献:
Python数据分析与挖掘(第二版)。 张良均等
Python数据分析技术综述。 高鸿斌、申肖阳等
机器学习与数据挖掘。周志华

Python 数据分析与挖掘概述相关推荐

  1. 从零开始学python数据分析-【01】从零开始学Python—数据分析与挖掘概述

    马云曾说"中国正迎来从IT时代到DT时代的变革",DT就是大数据时代.数据已成为企业的核心资产和宝贵资源,企业愈加重视和善加利用数据分析与挖掘技术. 1.1什么是数据分析与挖掘 数 ...

  2. 【01】从零开始学Python—数据分析与挖掘概述

    马云曾说"中国正迎来从IT时代到DT时代的变革",DT就是大数据时代.数据已成为企业的核心资产和宝贵资源,企业愈加重视和善加利用数据分析与挖掘技术. 1.1什么是数据分析与挖掘 数 ...

  3. 从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版

    给大家带来的一篇关于数据挖掘相关的电子书资源,介绍了关于Python.数据分析.数据挖掘方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小67.8 MB,刘顺祥编写,目前豆瓣.亚马逊.当当 ...

  4. 从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 下载

    资料目录: 目 录第1章 数据分析与挖掘概述 11.1 什么是数据分析和挖掘 11.2 数据分析与挖掘的应用领域 21.2.1 电商领域--发现破坏规则的"害群之马" 21.2.2 ...

  5. 董老师又双叒叕送书啦,8本《Python数据分析、挖掘与可视化(慕课版)》

    活动详情: 在本文文末留言,留言获得点赞. 自本文推送之时活动立即生效,5月23日21:00结束,获赞最多的前8条留言,每人获赠一本书. 5月23日21:01在本文文末置顶留言公布获奖名单. 获奖朋友 ...

  6. 大数据培训课程分享:Python数据分析与挖掘实战课程介绍

    <Python数据分析与挖掘实战>课程内容以Python数据分析与挖掘的常用技术与真实案例相结合的方式,深入浅出地介绍Python数据分析与挖掘的重要内容,共分为基础篇(第1~5章)和实战 ...

  7. 从零开始学python数据分析与挖掘

    目   录 第1章  数据分析与挖掘概述 1.1  什么是数据分析和挖掘 1.2  数据分析与挖掘的应用领域 1.2.1  电商领域--发现破坏规则的"害群之马" 1.2.2  交 ...

  8. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  9. 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  10. 《Python数据分析与挖掘实战》一1.2 从餐饮服务到数据挖掘

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.2节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

最新文章

  1. 对比 5 种分布式事务方案,还是宠幸了阿里的 Seata(原理 + 实战)
  2. Python3 函数function
  3. 谁是真正的深度学习?英特尔高管与AI大神再“论剑”
  4. 上海将打造“泛在化、融合化、智敏化”智慧城市
  5. Tech UP——EGO北京分会成立啦
  6. mysql中怎么查询单行单列_MySql中的子查询-结果单行单列
  7. Python字符串的两种方式——百分号方式,format的方式
  8. 第九章网络设备文件管理
  9. 用R在地图上绘制网络图的三种方法
  10. 业务类型创业公司,最好不要招程序员
  11. it项目经理成长手记 mobi_步入IT行业的心路历程
  12. AdneneBoumessouer / MVTec-Anomaly-Detection学习笔记
  13. ZZNU-oj-2141:2333--【O(N)求一个数字串能整除3的连续子串的个数,前缀和数组+对3取余组合数找规律】...
  14. 识图在线识图_水电腾讯课堂开课啦~学习建筑水电识图从这里开始(文末有福利)...
  15. 黑客技术思维导图总结
  16. c语言课程设计家谱管理系统,数据结构-家谱管理系统
  17. 搜狗输入法5.0_注意!月活超5亿的搜狗输入法向用户电脑植入病毒
  18. 女人健身操必知的健康常识
  19. 第十二周助教工作总结——NWNU李泓毅
  20. STM8L051的硬件I2C调试

热门文章

  1. Adobe Acrobat如何快速将PDF文档的书签修改为“承前缩放”——PDF增效插件AutoBookmark
  2. 华硕服务器主板型号命名规则,详细解读主板厂商命名规则——华硕篇
  3. windows server 部署java Web项目
  4. 海康威视 java B/S 开发 流程
  5. 全国资格考试网报平台证件照片审核处理系统报错:打开照片文件类型还是JPG或JPEG格式,请选择JPG或JPEG格式照片文件。
  6. react好租客项目Day11-发布房源模块(js输入框防抖图片上传)项目打包项目优化(按需加载路由代码分割)
  7. 完整的蓝屏错误代码大全详解
  8. 【智慧工厂】一篇让你搞明白ERP、SAP、MES的文章
  9. 不同SIP客户端使用说明
  10. matlab小波包分析,小波分析及小波包分析