从数据中挖掘更多的业务信息、对未来的发展做出辅助分析,这就是数据挖掘
的强大功能之一。那么,企业是否已经开始对数据挖掘感兴趣甚至开始运用了呢?近日 ,我们对国家统计局、中国地质调查局等单位的CIO进行了调查。
让数据像人脑一样智慧,具有自动分析、判断和预测能力,这看似不可思议的应用
,正是数据挖掘的功能。数据挖掘正吸引着越来越多的企业的眼球。近日,北京长城仪 器厂、国家统计局、北京统计局等不少单位的有关人员纷纷表示正在关注数据挖掘。
  究竟什么是数据挖掘?国内哪些单位已经应用了数据挖掘?如何挖掘数据?效果如 何?有哪些可借鉴的经验?本期采访了中国地质调查局、中石化石油勘探开发研究院、 北京长城仪器厂、重庆港务局、国家统计局、湖南统计局、泰安国税总局等20家大中型 企事业单位的有关人员及我国数据库专家王珊教授。
   20%已应用,20%在建设,25%正在关注
  数据挖掘离我们并不遥远。调查显示,中国地质调查局、重庆港务局、湖南统计局 、南宁地税等4家单位(占20位被调查企业的20%)已经在应用数据挖掘为分析、决策作 支持。 据中国地质调查局信息中心数据挖掘项目负责人张永波介绍,为了查找矿产资源, 需要对海量地质信息进行综合处理、分析和评价。传统方法是由许多专家根据自身经验 进行人工评估。人工评估不仅周期长,不利于及时发现开采矿产资源,也不可避免地 带有主观色彩,甚至使判断失误,这间接造成了大量经济损失。为此,早在上世纪80年 代,地质行业就引入了计算机,并开始探索数据挖掘,通过数据挖掘对海量地质信息进 行自动处理、评价,从而帮助人们预测哪些地方最可能蕴藏着矿产资源。经过近二十年 的研发、完善和应用,目前数据挖掘在地质行业开始广泛应用。 与中国地质调查局不同,重庆港务局、湖南统计局和南宁地税都在近两年才开始建 设数据仓库,并在此基础上摸索着开展了数据挖掘应用,目前已经初步投入使用,有辅助了领导进行分析决策。 除此之外,中石化石油勘探开发研究院、国家统计局、国家工商银行、中国民生银 行等20%的被采访企业表示,数据挖掘系统正在建设中。北京长城仪器厂、国家统计局、 北京统计局等25%的被采访企业表示正在关注,希望了解国内有哪些成功案例。其他35% 的被采访企业则表示,目前的信息化重点是铺设网络,完善办公系统、应用系统等,对
数据挖掘不了解,暂时也没考虑。
  
认识数据挖掘
  什么是数据挖掘?怎样实现数据挖掘?它如何让数据像人脑一样具有自动分析、判 断和预测能力? 据中国计算机学会副理事长数据库专业委员会主任王珊教授介绍,数据挖掘是信息 化发展到一定程度的产物,是数据利用的一个高级阶段。随着数据库技术的迅速发展, 积累的数据越来越多。尽管目前的数据库系统可以实现数据的录入、修改、统计、查询 等功能,但无法发现数据中潜存的关联和规则,无法根据现有的数据预测未来的发展趋 势。如何发现数据背后隐藏的重要信息,并对其进行更高层次的分析,以便更好地利用 这些数据,促使了数据挖掘的出现。目前数据挖掘有许多不同定义,简而言之,就是从 数据挖掘就是从大量不完全的实际应用数据中,提取隐含在其中的、人们事先不知道的 但又可能有用的信息和知识的过程。 数据挖掘的海量数据有两种来源,可以是从数据仓库中来的,也可以是直接从数据 库中来。所有的数据都需要再次进行选择,具体的选择方式与任务相关。 而所谓的数据仓库不是可以买到的现成产品,是一种解决问题的方案。数据仓库以
传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据 和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径。数据仓 库的建立不是要取代原有的数据库,而是数据库技术的一种新的应用,用于支持决策分 析。
  正是由于数据仓库集成了丰富的海量信息,能大大简化数据挖掘过程,因此中国地 质调查局、重庆港务局、湖南统计局、南宁地税等4家单位的数据挖掘都是在数据仓库的 基础上实现的。 “而让数据像人脑一样具有自动分析、判断和预测的关键就是建立分析模型”,王 珊表示:“建模就是把你的专业经验、一般规律或普遍情况抽象成一种分析模型。一旦 模型建好之后,就可以把它应用到那些情形相似,而结果未知的判断中。”
  比如,假设你是一个电信公司的营销主管,公司想发展一些新的长途电话用户。依 据自身经验,当你要寻找谁是最有潜力的新客户时,你可以先了解一下在长途电话上花 费时间比较多的老客户是哪些人。因为你对老客户的很多信息了解得一清二楚,如年龄 、性别、信用记录以及长途电话使用状况。这相当于你也掌握了很多潜在客户的同样的 信息。通过对这些老客户的年龄、性别、信用记录等信息进行统计分析,你就可以推断 出最有潜力的新客户是哪些群体。这比盲目地推销要有效得多。 而建模就是在数据仓库里把上述分析过程建成一个模型,从具体应用中抽象出若干 变量。比如,长途电话用户的一个简化模型可以用客户的职业、职务、年薪、每个月长 话费、性别、地区等变量来表示。根据这个模型,系统就能设法从老客户的大量通话记 录中挖掘出潜在的新客户的年龄、性别等信息,帮助你发现新的长途电话客户群体。 实际上,数据挖掘系统再有能耐,最终还是要靠人来设计、指挥。挖掘数据的过程 就是按照人们设计的“模型”对数据进行处理、分析、预测的过程,它是人的经验、分 析过程在计算机中的实现。 效果不错,标准、建模是关键
  谈起数据挖掘的应用效果和建设经验,中国地质调查局、湖南统计局、重庆港务局 和南宁地税局的有关负责人一致认为:效果不错;有必要,也是未来的发展趋势。但实 现很不容易,系统还有待完善。总结经验,他们认为:首先数据规划要有统一标准(想到中国移动正在实施的数据挖掘系统,很多参与人员态度很悲观,数据标准化是最大的问题);其 次,建模很重要。 据中国地质调查局信息中心数据挖掘项目负责人张永波介绍,从效果来看,首先, 数据挖掘的分析效率比人工评价提高了很多倍;其次,数据挖掘还能做原来人工没法做 的工作,比如叠加处理。地质数据的种类很多,任何一个空间点上都有几十种地质数据 ,不同专家对此会有不同的评价,如何把几十种数据叠加起来形成一个综合评价,依靠 传统的人工操作,根本不可能实现,而数据挖掘就可以。因此,数据挖掘对矿产资源的 查找、分析、决策比人工操作相对高效、完整。 与此同时,他也认为,实现的难度很大,最难的就是建模,因为它是一个不断反复 、不断完善的过程。如何把专家的经验、思想体现出来,不仅要用到专业知识,还要用 到神经网络、概率统计、模糊数学等多学科理论。 对此,湖南统计局数据仓库办公室副主任肖胜利也深有同感。他认为,建模是一个 用户与开发商共同参与的过程,一般要求使用者具备专家的理论水平,否则,可能不知 道该怎么用。另外,建模的过程一般是专家经验、普遍经济规律的抽象,它受到外界的 人为干扰因素越少,挖掘效果就越好,因此,更适合按市场规律运行的行业企业。 根据两年来的建设经验,湖南统计局、南宁地税局、重庆港务局的有关人员都认为 ,前期的数据规划、数据标准的制订非常重要,否则,数据就没有可比性,挖掘分析的 结果就不准确。
  总之,目前达到理想状态的应用还很少,多数用户仍处于摸索阶段。另外,我国许 多中小企业的基础系统还没建立,数据无法集成,这也使得数据挖掘难以开展。因此, 普及还有待时日。但已经有不少大中型行业用户已经开始关注和应用了数据挖掘技术, 数据挖掘并不是遥不可及的应用。

感谢小白

Tags: BI  数据挖掘
发布:Leon | 分类:我的关注 | 评论:0 | 引用:0 | 浏览:<script src="http://www.Leon6.com/c_count_js.asp?id=87&act=view" type="text/javascript"> </script> 32 | 字号:大 中 小

数据挖掘并不遥远( 转载)相关推荐

  1. java数据挖掘算法_[转载]干货,基于Java和C++的数据挖掘Apriori算法实现

    Apriori算法实现 Apriori算法的思想还是很容易理解的,实现起来虽然麻烦,但是还是比较容易的.下面是我使用Java语言实现的Apriori算法,实现了AprioriAlgorithm 类,包 ...

  2. 【读书笔记-数据挖掘概念与技术】数据挖掘的发展趋势和研究前沿

    复杂的数据类型 数据挖掘的其他方法 关于数据挖掘基础的观点: 可视和听觉数据挖掘 数据可视化 数据挖掘结构可视化 数据挖掘过程可视化 交互式可视数据挖掘 数据挖掘的应用 转载于:https://www ...

  3. WEKA开源数据挖掘工作平台

    weka中文网站 http://www.wekacn.org/ 中文论坛 http://forum.wekacn.org/viewforum.php?f=6&sid=d47d2d7ca82e4 ...

  4. 【转】如何实现小型WEB搜索引擎(C# SQL Server全文检索 Asp.net)

    SOSO-----为您量身定做的 WEB搜索引擎 1 引言 21世纪,中国互联网搜索引擎领域可谓群雄逐鹿,百度.Yahoo.中搜.搜狗等等都使出浑身解数吸引着网民的眼球.这些大网站可谓是各有所长,总的 ...

  5. 努力成为优秀的工程师

    努力成为优秀的工程师 文/李航 华为诺亚方舟实验室首席科学家李航结合自己的亲身经验,提出了成为优秀工程师应该遵循的五项原则:面对问题,解决问题:系统地解决问题:站在用户角度看问题:以最小的代价获得最大 ...

  6. 手把手,74行代码实现手写数字识别

    手把手,74行代码实现手写数字识别 689 次阅读 - 2015.12.29 - 人工智能 - 龙猫 http://dataunion.org/20992.html 1. 引言:不要站在岸上学游泳 & ...

  7. Kaggle 数据挖掘比赛经验分享 (转载)

     [干货]Kaggle 数据挖掘比赛经验分享 (转载) 标签: 数据挖掘数据科学家机器学习kaggle 2017-05-21 19:25 99人阅读 评论(0) 收藏 举报 本文章已收录于: 分类 ...

  8. 数据挖掘十大经典算法(转载)

    数据挖掘十大经典算法 一.C4.5      C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法ID3的改进算法,所以基 ...

  9. [转载]神奇的数据挖掘

    谈到BI,就会谈到数据挖掘(Data mining).数据挖掘是指用某些方法和工具,对数据进行分析,发现隐藏规律并利的一种方法.下面我们将通过具体的例子来学习什么是数据挖掘. 案例"上大学分 ...

最新文章

  1. 【神经网络】(4) 卷积神经网络(CNN),自定义网络,案例:彩色图像10分类
  2. SpringMVC访问静态页面
  3. Codeforces 712C. Memory and De-Evolution
  4. mysql search yum_mysql安装-yum方式
  5. seo专题之开篇有益
  6. 快递管理系统 java_快递管理基于java物流快递管理系统设计.doc
  7. PyTorch 深度学习:38分钟快速入门——RNN 做图像分类
  8. PHP多次调用Mysql存储过程报错解决办法
  9. Qt学习笔记之Hello World
  10. js基础-15-new操作符,延迟加载,严格模式
  11. 电路设计中的防爆设计原理与注意事项分析
  12. 从有到优:百度前端接入技术的升级之路
  13. 菲尼克斯交换机FL SWITCH SFN 5TX
  14. 国际化批量获取en-US.json,zn-CN.json字典内容
  15. 计算机网络 电子邮件
  16. 金融科技B端市场群雄争霸 PATH四家各出奇招
  17. 此计算机必须为委派而被信任_允许受信任的用户进行委派
  18. Socket和ServerSocket的介绍
  19. Ubuntu安装sogo输入法
  20. android视频gif编辑器,GIF制作编辑

热门文章

  1. 设计灵感:12个App的登录注册界面案例参考
  2. 微头条自媒体常见领域,好创作,快速实现自媒体变现
  3. 有趣的深度学习——使用TensorFlow 2.0 + RNN 实现一个古体诗生成器
  4. Kotlin 开发Android app(十九):文件读写和SharedPreferences内容存储
  5. linux配置防火墙和重启防火墙
  6. Hydra(九头蛇)弱口令
  7. 能不能推荐几个专门与外国人交友的app?这3款软件很有趣!
  8. 记录下在线扩容服务器遇到的问题 NOCHANGE: partition 1 is size 419428319. it cannot be grown
  9. Docker官方教程
  10. 3.3 费马质数测试