了解什么是数据挖掘

1.假设背景

1. 在传统企业现状,以连锁餐饮为例?
今年来餐饮企业面临原材料上涨,房租上涨,人力成本升高的必然趋势,导致净利润大幅度下降,同时同业竞争的加剧的环境下,如何在保证产品的品质的基础下提高企业效率,成为当前餐饮企业必须解决的问题.
2. 目前做了什么改变,有什么样的基础?
餐饮企业目前通过企业信息化系统来提高效率,已具有的信息系统包括如下:
1.客户关系管理系统:保存客户会员信息,客户生日关怀,客户点餐喜好等.
2.前厅管理系统:平板或者微信点餐,实现快速点单,直达厨房.
3.后厨管理系统:后厨按照电子菜单做餐,同时收银台打印纸质菜单送抵用户,已备客户查询.
4.财务管理系统:日销售统计,菜品销售统计,日客户流量,财务审计等.
5.物流管理系统:物资进销存,包括供应商管理,入库,消耗,剩余,连锁配送等.
3. 以上系统积累了大量同质化数据,如何让企业在数据中捡漏,实现差异化服务?
数据分析可以做什么,这个还得从业务出发,企业最为关注于顾客和产品.譬如那些顾客是优质顾客,如何给不同的顾客提供差异化服务,四川的喜欢吃辣的,就推荐辣的.产品就是那几个产品销量最好,什么时候准备什么产品,如何备货,如何搭配获得更好地销量.
目前该企业大量依靠服务员的基础素质,依靠经验提供差异化服务,存在"人治"的随意性和不确定性导致的风险,必须依靠一种工具来提供精细化营销,这种工具数据分析可以提供.

2.数据挖掘过程

1. 数据分析基本目标?
对于餐饮企业来说,数据分析基本任务就是通过客户会员消费,菜品销量,成本单价,促销情况,货物存储等内部数据,加之节假日信息,商圈信息,天气等外部数据,通过数据分析,实现菜品智能推荐,促销预测,客户价值分析,商圈选点,菜品销量预测,最后把信息结果推送到管理者提供决策参考,实现降低运营成本,精准营销.
2. 数据分析过程?
首先要对整个流程做到心里有数.我们在对以上内容有了初步了解之后,决定对餐饮企业做以下步骤,实现整个数据分析流程:
1.理解需求,确定目标任务,指标:餐饮,前厅,后厨,仓储等部门访谈,调研.
2.数据采集,抽样,数据质量把控,实时采集:原材料,销量,客户以及外部数据收集.
3.数据整理,数据探索,清洗,变换:通过采集到的数据进行整理,去除异常,错误等数据.
4.模型发现,构建模型,验证模型:菜品推荐,客户价值,选址优化,销量预测等模型构建.
5.模型评价,设定评价标准,多模型对比,模型优化:实现最优模型.
6.模型发布,部署,重构:提供菜品推荐,客户价值,选址优化,销量预测等服务.
3.对于餐饮企业具体分析来说,挖掘目标为?
1.实现菜品智能推荐,帮助用户快速发现自己最感兴趣的菜品,同时确保推荐给用户的是餐饮企业所期望的,实现双赢.
2.对餐饮客户进行细分,了解不同客户的消费特征和贡献度,针对不同用户实现不同策略,确保有限营销资源投放在最有价值的用户身上.
3.基于菜品销售数据以及竞争对手,天气,节假日等,对菜品销量进行预测,方便备货.
4.基于餐饮大数据,优化新店选址,同时基于地址,进行菜品调整.
4. 如何进行数据采集取样?
在明确了数据挖掘目标,我们需要从业务系统抽取与数据目标相关的数据子集,抽取数据子集需要考虑相关性,有效性,可靠性.数据子集可以减少数据处理量,更好凸出数据特征.即使是对一个数据仓库进行抽取,也必须考虑数据质量,衡量数据标准为:数据资料完整无缺,准确无误,反映正常状态.
至于抽样方法,多种多样:

  • 随机抽样:按照10%比例对数据进行随机抽样,每一个数据有10%的概率被抽取.
  • 等距抽样:按照10%比例对100组数据抽样,则抽取10,20,30等10组数据.
  • 分层抽样:将样本数据分成不同层次,同一层次概率相同,不同层次概率不同.
  • 分类抽样:将样本数据依据某些类进行分类后再抽样.
  • 从起始顺序抽样:从输入数据集起始处开始抽样.
    从餐饮企业信息化系统进行抽样:
  • 餐饮企业信息:名称,位置,规模,联系方式,部门,人员,角色等.
  • 餐饮客户信息:姓名,会员等级,联系方式,消费时间,消费金额等.
  • 餐饮菜品信息:名称,单价,成本,部门等.
  • 餐饮销量数据:名称,日期,销量,销售金额.
  • 餐饮物流数据:供应商姓名,地址,名称,客户评价等.
  • 促销活动数据:日期,内容,描述.
  • 外部数据:天气,节假日,竞争对手,商圈信息等.

5. 如何进行数据探索,确保数据质量?
数据模型质量不会超过样本数据质量,确保数据质量非常重要,我们基于经验抽取样本数据,所以要看样本数据是否符合我们要求,是否体现出新的特征,是否有较强的规律性特征趋势,属性之间是否具有相关性等,后续介绍相关函数实现数据探索.
6. 如何对数据进行预处理,实现可挖掘的标准化数据?
当采集数据的维度过大,设计多个表多个属性,必然存在一些缺失数据,不一致数据,噪音数据,同时需要进行降维.针对餐饮企业数据,我们预处理包括:数据筛选,数据缺失值处理,数据变量转化,坏数据处理,主成分分析,属性选择,数据标准化,数据规约等.
7. 获得标准化数据后,我们挖掘建模应该采用哪种算法来挖掘数据,解决问题?
一般挖掘建模有分类,聚类,关联规则,时序模式,智能推荐等.基于餐饮行业的数据挖掘应用,我们选择基于关联规则的动态菜品智能推荐,基于聚类算法的客户价值分析,基于分类与预测算法的菜品销售预测,基于整体优化的新店选址.
以菜品销量预测为例,模型构建是以菜品历史销量,综合考虑了节假日,气候,竞争对手等数据,它反映了采样数据内部结构一般特征,并与采样数据结构吻合.模型具体化就是菜品预测公式,通过公式产生预测值.
8. 获得模型之后,如何选择最优模型,进行模型评价?
不同模型评价方法不同,通过评价,自动找出最优模型,同时根据业务对模型进行解释与应用.

3.常用数据分析工具

1. SAS Enterprise Miner
Enterprise Mincr(EM)是SAS推出的一个集成的数据挖掘系统,允许使用和比较不同的技术 。同时还集成了复杂的数据库管理软件 。它的运行方式是通过在一个工作空间(workspace)中按照一定的顺序添加各种可以实现不同功能的节点,然后对不同节点进行相应的设置,最后运行整个工作流程(workflow),便可以得到相应的结果。
2. IBM SPSS Modeler
IBM SPSS Modeler原名Clemen丨inc, 2009年被IBM公司收购后对产品的性能和功能进行大幅度改进和提升。它封装最先进的统计学和数据挖掘技术来获得预测知识,并将相应的决策方案部署到现有的业务系统和业务过程中,从而提高企业的效益。IBM SPSS Modeler拥有直观的操作界面,自动化的数据准备和成熟的预测分析模切,结合商业技术外以快速建立预测性模型。
3. SQL Server
Microsoft公司的SQL Server中集成广数挖掘约组件—Analysis Servers,借助SQL Server的数据库管理功能,可以无缝地集成在SQL Server数据库中。在SQL Server 2008中提供了决策树货法、聚类分析W法、Naive Bayes 法、关联规则算法、时序算法、神经网络算法、线性回归算法等9种常用的数据挖掘算法。但是,预测建模的实现是基于SQL Server平台.
的,平台移植性相对较差。
4. Python
Python(Matrix Laboratory,矩阵实验室)是美国Mathworks公司开发的应用软件,具备强大的科学及工程计算能力,它具行以矩阵计算为基础的强大数学计算能力和分析功能,而且还具有丰富的可视化图形表现功能和方便的程序设计能力。Python并不提供一个专门的数据挖掘环境 ,但是它提供非常多的相关算法的实现函数,是学习和开发数据挖掘算法的很好选择。
5. WBKA
WEKA ( Waikato Environment for Knowledge Analysis)足一款知名度较高的开源机器学习和数椐挖掘软件。高级用户可以通过Java编程和命令行来调用其分析组件。同时, WBKA也为普通用户提供了图形化界面,称为WEKA Knowledge Flow Environment和WEKA Explorer,可以实现预处理、分类、聚类、关联规则、文本挖掘、可视化等。
6. KNIME
ICNIME (Konstanz InformalionMiner, http://www.knime.org) 是基于Java开发的,可以扩展使用Weka中的挖掘算法。KNIME采用类似数据流(data flow)的方式来建立分析挖掘流程。挖掘流程由一系列功能许点组成,每个节点苻输入/输出端口,用于接收数据或模型,导出结果。
7. RapidMiner
RapidMiner也称为YALE(Yet Another Learning Environment,https://rapidminer.com),提供图形化界面,采用类似Windows资源管理器中的树状结构来组织分析组件,树上每个节点表示不同的运算符(operator)。YALE中提供了大量的运算符,包括数据处理、变换、探索、建模、评估等各个环节。YALE是用Java开发的,基于Weka来构迮,可以调用Weka中的各种分析组件。RapidMiner拓展的套件Radoop,可以和Hadoop集成起来,在Hadoop集群上运行任务。
8. TipDM
TipDM (顶尖数据挖掘平台 )使用Java语言开发,能从各种数据源获取数据,建立多种数椐挖掘模塑。 TipDM目前已集成数十种预测算法和分析技术,基本薄盖了国外主流挖掘系统支持的算法。TipDM支持数据挖掘流程所需的主要过程:数据探索(相关性分析、主成分分析、周期性分析);数据预处理(属性选择、特征提取、坏数据处理、空值处理);预测违模(参数设置、交叉验证、模型训练、模型验证、模型预测)聚类分析、关联规则挖掘等一系列功能。

数据分析系列之数据挖掘基础相关推荐

  1. 视频教程-数据挖掘基础:零基础学Python数据分析-大数据

    数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...

  2. 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  3. 复旦大学python教学视频_学习使用各种计时工具_Python数据分析系列视频课程--学习Pandas_数据挖掘与分析视频-51CTO学院...

    Pandas包是基于Python平台的数据管理利器,已经成为了Python进行数据分析和挖掘时的数据基础平台和事实上的工业标准,学习其使用方法,是使用Python进行数据分析和数据挖掘的必备条件. 本 ...

  4. python做数据可视化视频_Python数据分析系列视频课程--玩转数据可视化

    matplotlib包是基于Python平台的统计绘图利器,是在python平台上完成数据可视化不可或缺的工具,而基于matplotlib进一步开发的seaborn,更是将数据呈现与可视化的可用性推到 ...

  5. python dataframe的某一列变为list_Python数据分析系列文章之Pandas(上)

    本篇是[机器学习与数据挖掘]头条号原创首发Python数据分析系列文章的第三篇 Python数据分析系列文章之Python基础篇 Python数据分析系列文章之Numpy Python数据分析系列文章 ...

  6. 51cto python数据分析系列课程 55g_热图_ Python数据分析系列视频课程--玩转数据可视化_数据可视化视频-51CTO学院...

    matplotlib包是基于Python平台的统计绘图利器,是在python平台上完成数据可视化不可或缺的工具,而基于matplotlib进一步开发的seaborn,更是将数据呈现与可视化的可用性推到 ...

  7. 数据分析系列:《精益数据分析》读书笔记和理解

    这本书很符合分析中的二八定律,前面20%的内容,蕴含了整本书80%的内容. 在数据的时代,我们希望我们的产品发展和用户增长都是数据驱动的.确保产品服务和营销有依据可寻.依据数据分析和数据挖掘的产品迭代 ...

  8. arcgis 快速制图插件_51GIS学院|ArcGIS空间数据分析系列课程的27个视频

    51GIS学院 课程背景 迎接科学分析与国土空间规划,迅速掌握ArcGIS基础操作并进阶实战,推出本次ArcGIS空间数据分析系列课程.系列课程一,为ArcGIS基础与制图,课程目标为掌握ArcGIS ...

  9. 您访问的网页出错了! 网络连接异常、网站服务器失去响应_数据分析系列——静态网页爬虫进阶(requests)...

    在之前"数据分析系列--数据分析入门"16篇中有与爬虫的相关内容,介绍的相对简单.静态网页爬虫进阶系列将分别从网页的自动爬取(Requests).网络数据解析(BeautifulS ...

最新文章

  1. rabbitmq怎样确认是否已经消费了消息_【朝夕专刊】RabbitMQ生产者/消费者消息确认...
  2. QTP的那些事--QTP回放iFrame控件时间非常慢的问题分析
  3. 枚举类型是怎样定义的?有什么用途?_新型合金材料——什么是液态金属、液态金属的定义、发展以及用途...
  4. UTF-8带BOM和不带BOM的转换
  5. gradle的二进制版本_Gradle入门:创建二进制分发
  6. java变量命名规则_变量的概念和声明
  7. python(十):模块相关、操作Redis、操作Excel
  8. 微信模板消息400001:invalid credential, access_token is invalid or not latest
  9. vim批量删除与插入
  10. 打包工具SetupFactory 9 的使用
  11. 卡巴斯基7.0反病毒一年激活码免费领取(官方活动,现已停止)
  12. 使用内核模块添加系统调用
  13. JAVA启动杀怒尖塔_杀戮尖塔如何修改class 杀戮尖塔修改class文件方法步骤图解
  14. 分享2022武体考研一战上岸学习心得
  15. VMware虚拟机的安装,并编写简单的C程序
  16. 《失控》(凯文·凯利)阅读分享
  17. 动一动手指,玩转 Kindle Paperwhite 2 (2015.7.13)
  18. 处理MTK中DuraSpeed(快霸)引起的app被莫名其妙kill掉
  19. matlab进行数据平滑,matlab数据平滑程序Word版
  20. git将本地文件推送到远程仓库时报错: error: failed to push some refs to ‘https://gitee.com/no-talent-all-by-hand/dome

热门文章

  1. 开发笔记 —— Linux 下的基础指令
  2. 每日答疑20161105
  3. 机器学习训练营Python 阿里云天池 task4学习笔记
  4. 南京睿督分享|欧盟建材CE认证体系有哪几种模式?
  5. 项目管理的十条成功经验(建议收藏)
  6. Python或Eversheet,二者任选其一,皆可成为你失业时的救命稻草
  7. 西安IATF16949认证_西安IATF16949咨询_8.3产品和服务的设计和开发 -8.3.1总则
  8. 数据结构:树状数组:姐来展示下什么叫高端前缀和
  9. 关于DirectShow中摄像头的帧率设置
  10. python求10000以内的质数_10000以内的质数