一起聊有趣的数字~~

数字好玩​mp.weixin.qq.com

最近跟很多朋友在聊对专业术语和流行话题的认知。的确随着应用场景的变化很快,大数据处理环节的边界也在不断演变,不断在挑战认知的宽度。 本着不断学习,不断尝试的心态去探索新的好玩的方法,会其乐无穷~~

· 正 · 文 · 来 · 啦 ·

数学建模:是数学的一个分支,理论上是根据实际问题来建立数学模型,对数学模型来进行求解,然后根据结果去解决实际问题。用数学符号,数学式子,程序,图形等对实际课题本质属性的抽象而又简洁的刻画,它或能解释某些客观现象,或能预测未来的发展规律,或能为控制某一现象的发展提供某种意义下的最优策略或较好策略。数学模型一般并非现实问题的直接翻版,它的建立常常既需要人们对现实问题深入细微的观察和分析,又需要人们灵活巧妙地利用各种数学知识。这种应用知识从实际课题中抽象、提炼出数学模型的过程就称为数学建模。

如果想要用一句话总结说明,就是从具体事务中总结归纳相似相异性,抽象提炼出特征的过程。举个特别好理解的例子吧:比如在教小朋友们认识立体图形时:

1、只有球面的立体图形,只能滚动;称为--球体, 足球、篮球等;

2、有球面和一个平面的立体图形,可以滚动和移动;称为--椎体,三角锥,圣诞树等;

3、有球面和两个平面的立体图形,可以滚动、移动和堆放;称为--圆柱体,保温杯,泡沫滚轴等;

4、没有球面只有平面的立体图形,可以移动和堆放;称为--立方体,魔方、铅笔盒等;

小朋友在学习这些立体图形时,总结的特征:滚动、移动和堆放,具备什么条件,就会有什么特征,这样简单的归类统计,其实就是最简单的数学建模过程。这样的思维训练就是在训练逻辑思考力。

应用数学去解决各类实际问题时,建立数学模型是十分关键的一步,同时也是十分困难的一步。建立数学模型的过程,是把错综复杂的实际问题简化、抽象为合理的数学结构的过程。要通过调查、收集数据资料,观察和研究实际对象的固有特征和内在规律,抓住问题的主要矛盾,建立起反映实际问题的数量关系,然后利用数学的理论和方法去分析和解决问题。

现在越来越多的数学建模比赛走进校园,开设了各种形式的数学建模课程和讲座,为培养学生利用数学方法分析、解决实际问题的能力开辟了一条有效的途径。全国大学生数学建模竞赛由国家教育部高教司和中国工业与应用数学学会共同主办。竞赛评奖以假设的合理性、建模的创造性、结果的正确性和文字表述的清晰程度为主要标准。

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

在我看来,数据挖掘首先是提取有含义的数据,通过针对性的清洗,高质量剔除干扰数据,分析并发现高度相关的数据。这里有个最经典且流传已久的数据挖掘成功案例:"尿布与啤酒"的故事。

在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

根据一般经验,很难想到尿布与啤酒的关联性会那么大,但是沉淀下来的历史销售数据通过挖掘提炼清洗过滤,尿布和啤酒的销售关联度就凸显出来了。

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

当然想要在日常处理的场景中快速定位到可能存在关联度的范围,是需要很多算法和经验的。现在有两种说法,一种认为现在数据的集聚太快,人们的行为变化太快,经验已经过时了,跟不上现在的变化趋势,不能凭经验找目标数据去做关联证明;另一种认为,就是因为数据量太大,耗用大量人力物力和时间成本去处理海量数据,得到的结论往往因为质量过低的数据干扰,产生与实际情况差异较大的结论;其实这两种观点都有各自的立场,也都是存在的大数据运营问题。当然数据挖掘算法的使用要依据不同的场景进行选择,初期要减少弯路,经验的判断也是很重要的一种校验维度。

目前最常用,最流行的挖掘算法有聚类降维、最大邻近值、决策树、还有Google最经典的paperank算法(我的偶像充分利用Google算法的特点,成功让自己的推文在一个月内推送到了首页Top3的位置,改天给大家安利一下:大牛的脑洞就是与一般人不一样)

C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。
K-means算法:是一种聚类算法。
SVM:一种监督式学习的方法,广泛运用于统计分类以及回归分析中
Apriori :是一种最有影响的挖掘布尔关联规则频繁项集的算法。
EM:最大期望值法。
Adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器然后把弱分类器集合起来,构成一个更强的最终分类器。
KNN:是一个理论上比较成熟的的方法,也是最简单的机器学习方法之一。
Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯(Naive Bayes)
Cart:分类与回归树,在分类树下面有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。

数据分析,相对前两个概念来看,更偏重于对数据结果的透视,对技术上的处理和效果实现相对而言要求低一些。但是数据分析是对挖掘数据的价值提升,再举个特别简单的,就在身边的例子来说明:(如下是经过清洗,并剔除了干扰项的按照时间切分整理后的数据,不多,但可以发现很多分析角度,制定相应的营销策略)

某男士的一周消费记录:

月初 工作日:周一:20 30 1200 100 小计:1350

工作日:周二:22 33 50 18 小计:123

工作日:周三:20 33 200 500 小计:753

工作日:周四:2.8 30 0 60 小计:92.8

公共假期: 周五:2.8 60 150 699 小计:911.8

公共假期: 周六:50 66 500 350 小计:966

公共假期: 周日:0 0 200 450 小计:650

乍一看,从消费账单上清洗并提炼出如上数据,数据不多,很清晰,这时候周密的数据分析就可以再一次提升数据挖掘的价值。

  • 初步一看,月初有固定大额支出,可能是房贷、房租或信用卡账单等,要剔除一次性因素后做分析;
  • 扣除一次性大额支出1200元,一周总消费:3646.6;日均消费:521元;月均消费预测:15628元;加上固定支出,合计约为17000元。如果该名男士的月均收入20000元(税后),收支比85%。基本覆盖,但是积蓄不多,抗风险或购买大额消费品的空间就较小了。
  • 看到自己这样的账单,会想到什么,该节约了吧!怎么节约呢?从那些地方入手呢?规律支出是否有压缩空间呢?
  • 周一~~周三起晚了,打车上班要20元左右,周四一想到快放假了,起得早,做的公交上门只需要2.8元, 这中间是不是有很多可以通过早起自律压缩的支出空间;
  • 每天早上的一杯咖啡,是固定支出,而且预测是星巴克之类的常客,每日消费一杯30元左右的咖啡也是不小的开支,但这是生活品质的需要,针对这个需求,打折券的营销肯定有市场,响应率会很高,考虑卡劵的推送营销策略可以覆盖特定区域或特定人群;
  • 一看就是单位有午餐提供的,如果没有工作餐或团队聚餐,基本没什么午餐消费,适量且有控制地外出就餐也能控制成本;晚餐要视是否加班了,加班的日子,晚餐消费不高,偶尔请合作伙伴应酬吃个饭而已;
  • 消费主体的主要消费来自假期和周末,要么是有女朋友的要出去约会吃饭浪,要么是已婚已育周末带一家出门上课吃饭已是习惯;要控制开支,增加结余,周末和假期的生活安排可以尝试做较大的调整;

由于篇幅的关系,不能写得太多,其实如果结合调整策略后的数据,还可以分析出更多有意思得场景预测,结合预测做一些策略,观察数据的变化,又能发现新的场景预测。当然如果分析目的不同,比如上面的例子,如果收支比只有30%,或者是老婆想观察老公是否有小三的消费倾向,那分析的角度又会完全不一样了。

是不是有种数据挖掘是技术活, 数据分析是艺术活的感觉~~

数据模型 是数据特征的抽象。数据是描述事物的符号记录,模型是现实世界的抽象。数据模型从抽象层次上描述了系统的静态特征、动态行为和约束条件,为数据库系统的信息表示与操作提供了一个抽象的框架。

数据以什么样的关系形成彼此联系,并以什么样的结构进行存储,同时也要考虑用什么方式方便查询和调取,这些都与数据模型有关。

数据发展过程中产生过三种基本的数据模型,它们是层次模型、网状模型和关系模型。这三种模型是按其数据结构而命名的。层次模型的基本结构是树形结构;网状模型的基本结构是一个不加任何限制条件的无向图。关系模型为非格式化的结构,用单一的二维表的结构表示实体及实体之间的联系。其中应用最广泛的是关系模型。

层次模型和网状模型因为数据读取不够便利,修改、检索和定位都比较困难,对数据的体量也有一定程度的制约。现在被广泛运用更多的是关系型的数据结构。

关系型数据结构以记录组或数据表的形式组织数据,以便于利用各种地理实体与属性之间的关系进行存储和变换,不分层也无指针,是建立空间数据和属性数据之间关系的一种非常有效的数据组织方法。优点在于结构特别灵活,概念单一,满足所有布尔逻辑运算和数学运算规则形成的查询要求;能搜索、组合和比较不同类型的数据;增加和删除数据非常方便;具有较高的数据独立性、较好的安全保密性。缺点是数据库大时,查找满足特定关系的数据费时;对空间关系无法满足。

(1)关系的数据结构:关系模型采用二维表来表示。二维表由表框架和表的元组组成。表框架由多个命名的表属性组成。每个属性有一个取值范围称为值域。二维表中的每一行数据成称为元组。
(2)关系操纵:关系模型的数据操纵是建立在关系上的数据操纵,一般有数据查询(基本单位是元组分量)、数据删除(基本单位是元组)、数据插入(基本单位是元组)和数据修改(基本单位是元组分量)四种操作。
(3)关系中的数据约束:关系模型中提供实体完整性约束、参照完整性约束和用户完整性约束三种数据约束。


目前随着算法和计算机技术的不断提高,数据挖掘利用人工智能(AI)和统计分析的进步,将这两门学科都致力于模式发现和预测。

数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。

一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,他们几乎不用人的关照自动就能完成许多有价值的功能。

数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。

由于本人的工作管理范围更多在挖掘和分析,特别是对分析方式,价值挖掘更多的涉猎。在谈到分析从哪下手时就会有点啰嗦~~

◆ ◆ ◆ ◆ ◆

希望简单罗列的对比,方便大家了解。相关专业术语解释和图片来自网络搜索。

分享值得期待

爱总结的逻辑Go​mp.weixin.qq.com

数字世界其乐无穷 总结分享学无止境

公众号:数字好玩

数学建模模型_浅谈对数学建模,数据挖掘,数据分析和数据模型的区别相关推荐

  1. 【数学教学论文】浅谈小学生数学学习兴趣的培养

    浅谈小学生数学学习兴趣的培养 作者:刘亚儒 摘要:古代教育家朱熹曾说:"教人未见其兴趣,必不乐学."由此可见,兴趣的培养在教学过程中至关重要,有利于提高数学课堂的教学效率和学生的学 ...

  2. scale和java比较_浅谈java中BigDecimal的equals与compareTo的区别

    这两天在处理支付金额校验的时候出现了点问题,有个金额比较我用了BigDecimal的equals方法来比较两个金额是否相等,结果导致金额比较出现错误(比如3.0与3.00的比较等). [注:以下所讲都 ...

  3. led手电筒烧灯珠_浅谈务优LED手电筒灯珠型号与区别技巧

    原标题:浅谈务优LED手电筒灯珠型号与区别技巧 LED灯珠有多种型号规格: LED灯珠的型号太多了,有直插和贴片式的,还有大功率灯珠,灯珠电流从几十毫安到几安的都有,电压就比较一致,大多都在三点几伏. ...

  4. 关于投篮的数学建模模型_投篮问题的数学建模[共10页]

    投篮问题的数学建模[共10页] 摘 要如今全民大爱篮球运动,投球的命中率是一场比赛输赢的关键所在,能否投入篮筐与投球时运动员所处的位置.投球时的角度和投球时的出手速度有很大关系,该论文主要以罚球为出发 ...

  5. 关于投篮的数学建模模型_投篮问题的数学建模

    数. 由(1.3)式计算出两个出手速度角度记作1α.2α且设12αα>,可以看出1α是h 和v 的减函数 球入篮筐时的入射角度β可从下式得到 tan x L dy dx β== (1.6) 这里 ...

  6. java nio 李林峰_浅谈Java中BIO、NIO和AIO的区别和应用场景

    最近一直在准备面试,为了使自己的Java水平更上一个档次,拜读了李林峰老师的<Netty权威指南>,了解了Java关于IO的发展和最新的技术,真是受益匪浅,现在把我总结的关于BIO.NIO ...

  7. numpy的深复制与浅复制的区别_浅谈数据备份与复制对于企业用户的区别

    随着服务器海量数据的不断增长,数据的体积变得越来越庞大.同时,各种数据的安全性和重要程度也越来越被人们所重视.对数据备份的认同涉及到两个主要问题,一是为什么要备份,二是为什么要选择磁带作为备份的介质. ...

  8. 计算机数学与高中数学衔接,浅谈大学数学与高中数学的衔接.doc

    浅谈大学数学与高中数学的衔接 浅谈大学数学与高中数学的衔接 摘要:通过调查分析高中数学课程的现状,了解哪些高中数学知识是学习大学数学的基础,哪些内容还会重新学习,哪些内容还要补充加强.对如何做好大学数 ...

  9. 浅谈数据仓库维度建模

    浅谈数据仓库维度建模流程 谈到Big Data就离不开数据仓库.数据集市等概念,而谈到数据仓库.数据集市,就又离不开数据仓库设计的方法,维度建模则是其中的典型.与维度建模相对立的则是范式建模,范式建模 ...

  10. 《计算机辅助教学及应用实践研究》,《论文_浅谈计算机辅助教学(定稿)》

    <论文_浅谈计算机辅助教学(定稿)> (3页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.9 积分 摘要:计算机辅助教学中要用到多媒体课件 ...

最新文章

  1. Jquery怎么比较日期大小?
  2. C#网络编程系列文章索引
  3. R语言实战应用精讲50篇(二十九)-R语言算法应用案例:路径路网轨迹绘图分析(英国自行车数据库)
  4. 适用于WinForm的一个定时器类
  5. Python自动生成10000个java类使用APT注解后引发的问题
  6. 初学Java6:Java OOP基础语法总结
  7. 使用SQL存储过程有什么好处 用视图有什么好处
  8. Linux在线安装Mysql数据库(Linux)
  9. socket接收时信号量阻塞了会丢数据吗_浅谈Java网络编程——非阻塞I/O
  10. Docker配置国内加速器加速镜像下载的方法
  11. 一般什么时候加骨窗_高三成绩大幅度提高一般出现在什么时候?老师道出了实情...
  12. U盘启动制作软件推荐:Rufus
  13. aws saa aws sap认证助理专业架构师sap考试经验
  14. 将“闲置资源”重新利用,这家公司重组闲置市场
  15. CentOS停更;阿里发布全新操作系统(Anolis OS),用后直呼:牛X
  16. link rel=canonical概念和用法(增加页面权重,利于排名)
  17. C语言调试openssl ,打印错误方法
  18. 《中国化工贸易》征稿函
  19. 【WordPress报错】cURL error 52: Empty reply from server(http_request_failed)
  20. 山西计算机一级考试试题,2014山西省计算机等级考试试题 二级C试题一点通科目一...

热门文章

  1. 【零基础小白的华丽蜕变】AIX 操作系统 + ODM 库 + SMIT 工具
  2. 编写jQuery插件
  3. 光纤跳线接口_不同速率光模块与光纤跳线的连接使用方案
  4. 6大关键词解析儿童学习桌消费市场
  5. 13.1.X:ByteScout PDF Extractor SDK
  6. 《菊与刀》读后感作文5000字
  7. Spring Data JPA进阶(三):Specification查询
  8. word2010里脚注横线如何顶格
  9. 计算机中图形和图像这两个概念的异同,图形图象处理
  10. 9个offer,12家公司,35场面试,从微软到谷歌,应届计算机毕业生的求职之路