本节书摘来自华章出版社《python 与数据挖掘 》一书中的第1章,第1.2节,作者张良均 杨海宏 何子健 杨 征,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.2 工具简介

数据挖掘软件的历史并不长,甚至连“数据挖掘”这个术语也是在19世纪90年代中期才正式被提出。如今,商用数据挖掘软件和开源工具都已经非常成熟,不仅提供易用的可视化界面,还集成了数据处理、建模、评估等一整套功能。
部分开源的数据挖掘软件,采用可视化编程的设计思路。之所以这么做,是因为它能足够灵活和易用,更适合缺乏计算机科学知识的用户,如WEKA和RapidMiner。
当用户拥有较多特定的分析需求,或正在自行实现一个改进的机器学习算法时,脚本型语言如Python和R将更符合需要。同时,脚本型语言兼具运行效率和开发效率,支持敏捷型的迭代更新。


1.2.1 WEKA

用Java编写的WEKA是一款知名的数据挖掘工作平台,它因解决数据挖掘任务的实际需求而生,集成了大量能处理数据挖掘任务的机器学习算法,这些算法能被用户直接应用于数据集之上。同时,WEKA允许开发者使用Java语言,调用其分析组件,基于WEKA的架构进行二次开发,融入更多的数据挖掘算法,并嵌入到软件或者应用之中,自动完成数据挖掘任务,开发新的机器学习框架。
WEKA 支持多种标准数据挖掘任务,包括数据预处理,分类、回归分析、聚类、关联规则等算法的应用,以及特征工程和可视化。其欢迎界面如图1-1所示。

1.2.2 RapidMiner

RapidMiner的目标是:“成为一个能将数据变成宝贵的战略资产的现代平台”,已被广泛使用于商业应用、学术研究、教育、敏捷开发等领域。
RapidMiner是一个支持数据挖掘、文本挖掘、机器学习、商业分析等任务的集成环境,如图1-2所示。其图形化界面采用了类似Windows资源管理器中的树状结构来组织分析组件,提供500多种分析组件作为计算单元(Operator),服务于数据挖掘的各个环节,如数据预处理、变换、探索、建模、评估及结果可视化。这些计算单元有详细的XML 文件记录。
RapidMiner是基于WEKA二次开发的应用,这意味着它可以调用WEKA中的各种分析组件。


1.2.3 Python

Python是一门编程语言。随着NumPy、SciPy、Matplotlib和Pandas等众多程序库的开发,Python在科学计算和数据分析领域占据着越来越重要的地位。在大多数数据任务上,Python的运行效率已经可以媲美C/C++语言。2016年2月11日,科学家宣布:人类在去年9月首次直接探测到了引力波!引力波高峰只持续了四分之一秒,同时仪器接收了大量干扰噪声, 需要处理的数据量以TB计,如图1-3所示。其中,Python的GWPY模块提供专业的数据分析支持。


1.2.4 R

R语言是一种为统计计算和图形显示而设计的语言环境,是贝尔实验室(Bell Laboratory)的Rick Becker、John Chambers和Allan Wilks开发的S语言的一种实现,包含一系列统计与图形显示工具,如图1-4所示。它是由一个庞大且活跃的全球性研究型社区维护,主要包括核心的标准包和各个专业领域的第三方包,提供丰富的统计分析和数据挖掘功能。
R语言至少拥有以下优势:①方便地从各种类型的数据源中获取数据;②高可拓展性;③出色的统计计算功能;④顶尖水准的制图功能;⑤不断贡献强大功能的开源社区。它与Python同属数据挖掘主流编程语言,而从功能与代码风格的角度来评价,R与MATLAB是最像的。


《python 与数据挖掘 》一 1.2 工具简介相关推荐

  1. python爬虫自学笔记分析解密_python爬虫学习笔记——1 各种文本分析工具简介之汇总...

    此处只简单汇总一下各种文本工具名目,他们的详细使用参见具体帖子.本文主要参考<8种目前Python使用率最高的文本处理工具>一文0.SnowNLP包 用于中文文本的处理 1.Jieba 2 ...

  2. Python静态类型解析工具简介和实践

    简介: Python是一门强类型的动态类型语言,开发者可以给对象动态指定类型,但类型不匹配的操作是不被允许的.动态类型帮助开发者写代码轻松愉快,然而,俗话说:动态一时爽,重构火葬场.动态类型也带来了许 ...

  3. [PYTHON]Scons工具简介

    Scons工具简介: Scons是一个类似于make的构建工具,通过定义Scons描述文件(Sconstruct),即可实现类似于make命令的本地编译功能. 方法: 基本框架是先绘制图,这里的绘制图 ...

  4. Python 静态类型解析工具简介和实践

    一 背景 Python是一门强类型的动态类型语言,开发者可以给对象动态指定类型(动态),但类型不匹配的操作是不被允许的(强类型,如str和int两个变量无法相加). 动态类型帮助开发者写代码轻松愉快, ...

  5. 常用数据挖掘工具简介

    转自: http://www.itongji.cn/article/062522R2013.html Dataminning指一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分 ...

  6. 《python 与数据挖掘 》一1.3 Python开发环境的搭建

    本节书摘来自华章出版社<python 与数据挖掘 >一书中的第1章,第1.3节,作者张良均 杨海宏 何子健 杨 征,更多章节内容可以访问云栖社区"华章计算机"公众号查看 ...

  7. 基于python的数据挖掘网课-利用 Python 练习数据挖掘

    覆盖使用Python进行数据挖掘查找和描述数据结构模式的实践工具. 第一节 介绍 数据挖掘是一个隐式提取以前未知的潜在有用的数据信息提取方式.它使用广泛,并且是众多应用的技术基础. 本文介绍那些使用P ...

  8. Python 网络爬虫 001 (科普) 网络爬虫简介

    Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的 我举几个生活中的例子: 例子一: 我平时会将 学到的知识 和 积累的经验 写成博客发送到CSDN博客网站上,那么对于我 ...

  9. Python之tushare:tushare库的简介、安装、使用方法之详细攻略

    Python之tushare:tushare库的简介.安装.使用方法之详细攻略 目录 tushare库的简介 tushare库的安装 tushare库的使用方法 1.基础用法 tushare库的简介 ...

最新文章

  1. BSP、PSP到底指什么?
  2. PAT Basic 1069. 微博转发抽奖(20)
  3. initMNN: init numpy failed mnn笔记
  4. python while函数_详解python while 函数及while和for的区别
  5. SAP-SAP预制凭证相关的表
  6. C# 虚方法(virtual)覆盖(override) - 隐藏(new) - 重载
  7. mysql用户可以localhost登陆_【单选题】登陆MySQL服务器,默认的用户名为 A. user B. pwd C. root D. localhost...
  8. python trie
  9. 关于卡巴斯基KEY被列入黑名单的问题
  10. 数字图像处理 色差计算
  11. C语言预处理指令-单片机必备技能
  12. web前端培训 - 12个有用的 JavaScript 代码片段
  13. 闪迪加强版 120G 使用心得
  14. 为美女纹身--壁纸+视频生成器
  15. PacBio相关知识
  16. python之pil的使用
  17. 我们问了人工智能ChatGPT十个运维问题,结果发现...
  18. DSPE-PEG2K-MAL|磷脂聚乙二醇马来酰亚胺(DSPE-PEG-MAL)|二硬脂酰基磷脂酰乙醇胺 聚乙二醇 马来酰亚胺,齐岳生物
  19. 数据为王,聚数学院引领大数据新时代
  20. [福大软工] Z班 团队作业——随堂小测(同学录) 作业成绩

热门文章

  1. 【JavaScript】AJAX教程
  2. MySQL数据库MyISAM存储引擎转为Innodb
  3. java使用线程求素数和1000个0~0.9随机数_求素数(多线程练习题)
  4. Python赋值运算符(入门必读)
  5. excel vlookup多个条件匹配多列_Excel中的Vlookup函数,轻松实现多条件查询!
  6. python自带intertool模块找不到_Python itertools模块:生成迭代器(示例分析)
  7. mysql行列转换例子_mysql行列转换示例
  8. 怎样在Python中执行cmd
  9. vb科学计算机x y,vb程序用vb实现系统的计算器功能1/x,sqrt,%,+/-, 爱问知识人
  10. 关于学习Python的一点学习总结(35->关联超类)