文本预处理
提取特征
特征选择
选择分类算法
训练和评估
转载自 https://www.cnblogs.com/pinard/p/6007200.html

如果只是做研究,那么选择就很多了,主流的有三种。

    第一种是基于Spark MLlib来学习。好处是学到的东西用到生产环境可以无缝切换,但是坏处也很明显,Spark东西很多,在自己的单机上跑很吃内存,比较慢,而且MLlib的类库并不丰富,很多算法需要自己再去找类库。根据周围同事的反馈,比较吃力,因此基于Spark MLlib来学习机器学习,我个人觉得不是一个好的选择。

    第二种是基于scikit-learn为主的一系列python工具来学习,包括上面提到的numpy, scipy, pandas, MatplotLib等等。好处是类库多,API强大,可以让你专注于数据的分析,例子也多,学习起来不难。当然也有缺点,就是这一大堆的python库,要熟练的用起来需要一段时间。 个人比较推荐这种方法,周围同事来说,用scikit-learn学习交流也是主流。

    第三种是基于R的平台来做机器学习(不包括Spark R),主要平台是R studio。由于R是一门比较老的语言,因此他的数据处理和机器学习的API比较丰富,尤其是对于之前做数据分析师的人来说更是熟悉不过。但是R是一门相对封闭的语言,社区远远没有Python的活跃,而且对于程序员来说, R的那种语法让人难受。几年前,一般会认为R的机器学习比Python的好,但是现在Python已经将R远远甩在了后面。因此,除非你之前已经很熟悉R语言,否则完全不推荐用R来研究机器学习,BTW,这里没有歧视R的意思。

    总之,如果你想研究学习机器学习,并且没有特殊的R背景,scikit-learn是你的首选。当然,有人会说,我喜欢自己去一点点的实现机器学习的算法,不喜欢直接调用类库,这样不行吗? 当然,这样肯定是非常不错的,并且对加深各个算法理解很有好处。只是这样比较的花时间,如果你和我一样时间不太多的话,还是直接调用API来研究数据比较直接。

scikit-learn与mllib相关推荐

  1. Scikit Learn: 在python中机器学习

    Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...

  2. [转载]Scikit Learn: 在python中机器学习

    原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...

  3. 机器学习与Scikit Learn学习库

    摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...

  4. python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别

    之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...

  5. 【scikit-learn】如何用Python和SciKit Learn 0.18实现神经网络

    本教程的代码和数据来自于 Springboard 的博客教程.本文的作者为 Jose Portilla,他是网络教育平台 Udemy 一门数据科学类课程的讲师. GitHub 链接:https://g ...

  6. python scikit learn 关闭开源_scikit learn 里没有神经网络?

    本教程的代码和数据来自于 Springboard 的博客教程,希望能为你提供帮助.作者为 Jose Portilla,他是网络教育平台 Udemy 一门数据科学类课程的讲师. GitHub 链接:ht ...

  7. scikit - learn 做文本分类

    文章来源: https://my.oschina.net/u/175377/blog/84420 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的句子,我以自 ...

  8. python基于svm的异常检测_[scikit learn]:异常检测-OneClassSVM的替代方案

    不幸的是,scikit目前只学习implements一类支持向量机和用于离群点检测的鲁棒协方差估计 通过检查2d数据上的差异,可以尝试比较这些方法(as provided in the doc):im ...

  9. Spark技术在京东智能供应链预测的应用——按照业务进行划分,然后利用scikit learn进行单机训练并预测...

    3.3 Spark在预测核心层的应用 我们使用Spark SQL和Spark RDD相结合的方式来编写程序,对于一般的数据处理,我们使用Spark的方式与其他无异,但是对于模型训练.预测这些需要调用算 ...

  10. python scikit learn 封装_python的scikit-learn的主要模块和基本使用

    在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法. 加载数据(Data L ...

最新文章

  1. The HipHop Virtual Machine
  2. MongoDB的update和set的用法
  3. Amber18安装(非root用户)
  4. android隐藏状态栏
  5. VS Code识别编辑规范,ESlint规则,VS Code保存去掉自动加分号、逗号、双引号
  6. python 闭包(closure)
  7. Eclipse没有server 配置Tomcat
  8. 关于浮动float属性和position:absolute属性的区别
  9. E103-W01产品WiFi无线模块快连技术在智能家居中的应用
  10. cpu针脚测试软件,Sandsifter:一款专门针对X86处理器的模糊测试工具
  11. VB判断窗体是否加载函数
  12. 图文并茂安装CentOS 6.7Linux系统
  13. 第二阶段冲刺总结01
  14. maven插件打包exec_Exec Maven插件–从Maven Build运行Java程序
  15. Leetcode207---课程表(逆拓扑排序)
  16. 关于出版《ARKit原生开发入门精粹》(2021-03-24更新)
  17. 百度竞价关键词选词技巧
  18. 力扣LeetCode刷题笔记总结1
  19. 利用Python进行数据分析——数据导入导出
  20. redis持久化数据到磁盘

热门文章

  1. python3从零学习-5.4.5、文件及目录的比较模块filecmp
  2. labview2020图文教程LabVIEW2020
  3. CSS3 内阴影的应用
  4. oracle 报错:没有足够的值
  5. 【HTML——炫酷粒子】(效果+代码)
  6. 流水线激光打标机_水表电表仪器壳打码设备
  7. Mybatis返回树形结构
  8. 【光波电子学】MATLAB绘制光纤中线性偏振模式LP之单模光纤的电场分布(光斑)
  9. scala 学习笔记(scala for the impatient)
  10. 中年男人:这是我为什么一直跟你提“35岁中年危机”的三点原因……