从数据中挖掘更多的业务信息、对未来的发展做出辅助分析,这就是数据挖掘
的强大功能之一。那么,企业是否已经开始对数据挖掘感兴趣甚至开始运用了呢?近日
,我们对国家统计局、中国地质调查局等单位的CIO进行了调查。
  让数据像人脑一样智慧,具有自动分析、判断和预测能力,这看似不可思议的应用
,正是数据挖掘的功能。数据挖掘正吸引着越来越多的企业的眼球。近日,北京长城仪
器厂、国家统计局、北京统计局等不少单位的有关人员纷纷表示正在关注数据挖掘。
  究竟什么是数据挖掘?国内哪些单位已经应用了数据挖掘?如何挖掘数据?效果如
何?有哪些可借鉴的经验?本期采访了中国地质调查局、中石化石油勘探开发研究院、
北京长城仪器厂、重庆港务局、国家统计局、湖南统计局、泰安国税总局等20家大中型
企事业单位的有关人员及我国数据库专家王珊教授。
  
20%已应用,20%在建设,25%正在关注
  数据挖掘离我们并不遥远。调查显示,中国地质调查局、重庆港务局、湖南统计局
、南宁地税等4家单位(占20位被调查企业的20%)已经在应用数据挖掘为分析、决策作
支持。
  据中国地质调查局信息中心数据挖掘项目负责人张永波介绍,为了查找矿产资源,
需要对海量地质信息进行综合处理、分析和评价。传统方法是由许多专家根据自身经验
进行人工评估。人工评估不仅周期长,不利于及时发现、开采矿产资源,也不可避免地
带有主观色彩,甚至使判断失误,这间接造成了大量经济损失。为此,早在上世纪80年
代,地质行业就引入了计算机,并开始探索数据挖掘,通过数据挖掘对海量地质信息进
行自动处理、评价,从而帮助人们预测哪些地方最可能蕴藏着矿产资源。经过近二十年
的研发、完善和应用,目前数据挖掘在地质行业开始广泛应用。
  与中国地质调查局不同,重庆港务局、湖南统计局和南宁地税都在近两年才开始建
设数据仓库,并在此基础上摸索着开展了数据挖掘应用,目前已经初步投入使用,有效
辅助了领导进行分析决策。
  除此之外,中石化石油勘探开发研究院、国家统计局、国家工商银行、中国民生银
行等20%的被采访企业表示,数据挖掘系统正在建设中。北京长城仪器厂、国家统计局、
北京统计局等25%的被采访企业表示正在关注,希望了解国内有哪些成功案例。其他35%
的被采访企业则表示,目前的信息化重点是铺设网络,完善办公系统、应用系统等,对
数据挖掘不了解,暂时也没考虑。
  
认识数据挖掘
  什么是数据挖掘?怎样实现数据挖掘?它如何让数据像人脑一样具有自动分析、判
断和预测能力?
  据中国计算机学会副理事长数据库专业委员会主任王珊教授介绍,数据挖掘是信息
化发展到一定程度的产物,是数据利用的一个高级阶段。随着数据库技术的迅速发展,
积累的数据越来越多。尽管目前的数据库系统可以实现数据的录入、修改、统计、查询
等功能,但无法发现数据中潜存的关联和规则,无法根据现有的数据预测未来的发展趋
势。如何发现数据背后隐藏的重要信息,并对其进行更高层次的分析,以便更好地利用
这些数据,促使了数据挖掘的出现。目前数据挖掘有许多不同定义,简而言之,就是从
数据挖掘就是从大量不完全的实际应用数据中,提取隐含在其中的、人们事先不知道的
但又可能有用的信息和知识的过程。
  数据挖掘的海量数据有两种来源,可以是从数据仓库中来的,也可以是直接从数据
库中来。所有的数据都需要再次进行选择,具体的选择方式与任务相关。
  而所谓的数据仓库不是可以买到的现成产品,是一种解决问题的方案。数据仓库以
传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据
和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径。数据仓
库的建立不是要取代原有的数据库,而是数据库技术的一种新的应用,用于支持决策分
析。
  正是由于数据仓库集成了丰富的海量信息,能大大简化数据挖掘过程,因此中国地
质调查局、重庆港务局、湖南统计局、南宁地税等4家单位的数据挖掘都是在数据仓库的
基础上实现的。
  “而让数据像人脑一样具有自动分析、判断和预测的关键就是建立分析模型”,王
珊表示:“建模就是把你的专业经验、一般规律或普遍情况抽象成一种分析模型。一旦
模型建好之后,就可以把它应用到那些情形相似,而结果未知的判断中。”
  比如,假设你是一个电信公司的营销主管,公司想发展一些新的长途电话用户。依
据自身经验,当你要寻找谁是最有潜力的新客户时,你可以先了解一下在长途电话上花
费时间比较多的老客户是哪些人。因为你对老客户的很多信息了解得一清二楚,如年龄
、性别、信用记录以及长途电话使用状况。这相当于你也掌握了很多潜在客户的同样的
信息。通过对这些老客户的年龄、性别、信用记录等信息进行统计分析,你就可以推断
出最有潜力的新客户是哪些群体。这比盲目地推销要有效得多。
  而建模就是在数据仓库里把上述分析过程建成一个模型,从具体应用中抽象出若干
变量。比如,长途电话用户的一个简化模型可以用客户的职业、职务、年薪、每个月长
话费、性别、地区等变量来表示。根据这个模型,系统就能设法从老客户的大量通话记
录中挖掘出潜在的新客户的年龄、性别等信息,帮助你发现新的长途电话客户群体。
  实际上,数据挖掘系统再有能耐,最终还是要靠人来设计、指挥。挖掘数据的过程
就是按照人们设计的“模型”对数据进行处理、分析、预测的过程,它是人的经验、分
析过程在计算机中的实现。
  
效果不错,标准、建模是关键
  谈起数据挖掘的应用效果和建设经验,中国地质调查局、湖南统计局、重庆港务局
和南宁地税局的有关负责人一致认为:效果不错;有必要,也是未来的发展趋势。但实
现很不容易,系统还有待完善。总结经验,他们认为:首先数据规划要有统一标准;其
次,建模很重要。
  据中国地质调查局信息中心数据挖掘项目负责人张永波介绍,从效果来看,首先,
数据挖掘的分析效率比人工评价提高了很多倍;其次,数据挖掘还能做原来人工没法做
的工作,比如叠加处理。地质数据的种类很多,任何一个空间点上都有几十种地质数据
,不同专家对此会有不同的评价,如何把几十种数据叠加起来形成一个综合评价,依靠
传统的人工操作,根本不可能实现,而数据挖掘就可以。因此,数据挖掘对矿产资源的
查找、分析、决策比人工操作相对高效、完整。
  与此同时,他也认为,实现的难度很大,最难的就是建模,因为它是一个不断反复
、不断完善的过程。如何把专家的经验、思想体现出来,不仅要用到专业知识,还要用
到神经网络、概率统计、模糊数学等多学科理论。
  对此,湖南统计局数据仓库办公室副主任肖胜利也深有同感。他认为,建模是一个
用户与开发商共同参与的过程,一般要求使用者具备专家的理论水平,否则,可能不知
道该怎么用。另外,建模的过程一般是专家经验、普遍经济规律的抽象,它受到外界的
人为干扰因素越少,挖掘效果就越好,因此,更适合按市场规律运行的行业企业。
  根据两年来的建设经验,湖南统计局、南宁地税局、重庆港务局的有关人员都认为
,前期的数据规划、数据标准的制订非常重要,否则,数据就没有可比性,挖掘分析的
结果就不准确。
  总之,目前达到理想状态的应用还很少,多数用户仍处于摸索阶段。另外,我国许
多中小企业的基础系统还没建立,数据无法集成,这也使得数据挖掘难以开展。因此,
普及还有待时日。但已经有不少大中型行业用户已经开始关注和应用了数据挖掘技术,
数据挖掘并不是遥不可及的应用。文字

这些行业已经开始用数据挖掘了,我们的前途光明相关推荐

  1. 大数据模型交易行业类型及数据挖掘工具

    大数据模型交易平台拥有大量大数据人工智能项目案例资源,涉及行业领域包括农业.电力.电信.地质.医疗.环保.政务等行业.各行业通过模型预测可以获知预测风险率,可以找到应对风险措施同时也可以及时解决相关问 ...

  2. 【文献阅读】数据挖掘技术在制冷空调行业的应用

    数据挖掘技术在制冷空调行业的应用 数据挖掘技术 数据预处理 数据清理.数据集成.数据变换.数据归约 数据挖掘 监督学习算法:决策树DT.支持 向 量 机SVM.BP 神 经 网 络BPNN和贝叶斯网络 ...

  3. 数据挖掘并不遥远( 转载)

    从数据中挖掘更多的业务信息.对未来的发展做出辅助分析,这就是数据挖掘 的强大功能之一.那么,企业是否已经开始对数据挖掘感兴趣甚至开始运用了呢?近日 ,我们对国家统计局.中国地质调查局等单位的CIO进行 ...

  4. 大数据在建筑行业落地开花

    毋庸置疑,大数据是当下最火的IT词汇.目前,全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化,而如何掘金大数据是所有个人.企业和国家的机遇和挑战.事实上,从城市交通到空气质量,从建 ...

  5. 一位数据挖掘成功人士给数据挖掘在读研究生的建议

    为什么80%的码农都做不了架构师?>>>    关于数据挖掘方面的研究,我原来也走过一些弯路.其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析.机器学习.人工 ...

  6. 中国AI应用最新白皮书:四大行业将受AI影响最大,或带来19000亿增益价值

    白皮书指出,中国AI企业的发展势头良好,在全球处于优先地位;金融.汽车.医疗和零售将是受AI影响最大.同时最具成熟发展基础与市场应用潜力的传统产业,制造.教育和通信行业也值得关注. 编者按:在第三次人 ...

  7. 机器人编程语言python-机器人行业,10大流行编程语言对比

    原标题:机器人行业,10大流行编程语言对比 大数据文摘作品 翻译:姚佳灵 黄念 校对:陆兴海 这是一个许多新入行的机器人专家在他们职业生涯中至少会问一次的问题.不幸的是,这也是一个没有简单答案的问题. ...

  8. 数据挖掘SPSS Clementine 12.0.3 多国语言(含中文)破解版

    数据挖掘SPSS Clementine 12.0.3 多国语言(含中文)破解版 2013-01-11 13:05 2111人阅读 评论(0) 收藏 举报 本文章已收录于: 分类: 数据挖掘(3) 作者 ...

  9. python数据挖掘工程师待遇_数据挖掘工程师岗位的具体职责

    数据挖掘工程师负责内容的处理,包括关键词提取.主题分析.类目预测.质量打分等.以下是学习啦小编整理的数据挖掘工程师岗位的具体职责. 数据挖掘工程师岗位的具体职责1 职责: 1. 参与市场营销分析.策划 ...

最新文章

  1. ClickHouse系列教程二:使用航班飞行数据
  2. 返回txt格式的文本使用编码 js_Node.js学习笔记第一天
  3. Spring3的表达式语言
  4. 【CyberSecurityLearning 2】IP地址与DOS命令
  5. openCV3学习笔记一,图像的加载,修改,保存
  6. 图书管理系统jsp代码_【程序源代码】使用Java开发的图书管理系统
  7. 你一定要了解的Kubernetes
  8. (22)Xilinx FPGA PCIE中断接口(学无止境)
  9. java延迟队列,java高级面试笔试题
  10. win7主机与linux虚拟机共享方法之右键添加Sharing Options
  11. php版本kms,通过 AWS KMS API 和 AWS SDK for PHP 版本 3 使用密钥 - 适用于 PHP 的 AWS 开发工具包...
  12. 图神经网络——node2vec
  13. 三菱f800变频器 频率设定_三菱F800变频器调试参数总结.docx
  14. mysql 统计函数 双条件_使用COUNTIFS函数统计符合多个条件的单元格的方法
  15. springboot工作流程
  16. 三相逆变器双pi控制器参数如何调节_光伏逆变器MPPT基本原理李星硕
  17. (转载)程序员面试、算法研究、编程艺术、红黑树、机器学习5大系列集锦
  18. 计算机网络练习3|河工|周老师
  19. 亚马逊pii权限开通,公共开发者申请材料;sp api开通
  20. 【概率论】4-5:均值和中值(The Mean and the Median)

热门文章

  1. vscode 注释多行代码_如何在Visual Studio Code中注释多行?
  2. 网易的换邮箱手机号流程
  3. 输入法半角和全角的快捷转换_搜狗输入法经常用到的冷门小技巧,复制文章空白行取消方法...
  4. (个人笔记) java 打印不了韩文,乌龙事件
  5. 游戏ui切图,颜色通道_什么是ui通道设计,为什么如此重要
  6. [学习笔记]Java如何处理EXCEL的读取
  7. “const wchar_t *“ 类型的实参与 “LPCSTR“ 类型的形参不兼容的原因和解决方法
  8. 长沙理工大学计算机电路b试题,长沙理工大学考试试卷(计算机网络)
  9. 01-oracle账号的注册
  10. 吴恩达深度学习课程完整笔记(DeepLearning.ai)