零、全部项目通用的:

http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预測器)

http://blog.csdn.net/mmc2015/article/details/46852755(载入自己的原始数据)

适合文本分类问题的 整个语料库载入)

http://blog.csdn.net/mmc2015/article/details/46906409(5. 载入内置公用的数据)

(常见的非常多公共数据集的载入,5. Dataset loading utilities)

http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢))

一张图告诉你,你的问题选什么estimator好。再也不用试了)

http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预測新数据、评价分类器)

http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调參)

一、文本分类用到的:

http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件里提取特征(tf、idf))

CountVectorizerTfidfTransformer

http://blog.csdn.net/mmc2015/article/details/46866537(CountVectorizer提取tf都做了什么)

深入解读CountVectorizer都做了哪些处理。指导我们做个性化预处理

http://blog.csdn.net/mmc2015/article/details/46867773(2.5.2. 通过TruncatedSVD实现LSA(隐含语义分析))

(LSA、LDA分析)

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46940373(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic)

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46941367(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续))

(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))

(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46771791(特征选择方法(TF-IDF、CHI和IG))

(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用

二、数据预处理用到的(4. Dataset transformations)

http://blog.csdn.net/mmc2015/article/details/46991465(4.1. Pipeline and FeatureUnion: combining estimators(特征与预測器结合;特征与特征结合))

特征与预測器结合、特征与特征结合

http://blog.csdn.net/mmc2015/article/details/46992105(4.2. Feature extraction(特征提取,不是特征选择))

loading features form dicts、feature hashing、text feature extraction、image feature extraction

http://blog.csdn.net/mmc2015/article/details/46997379(4.2.3. Text feature extraction)

text feature extraction

http://blog.csdn.net/mmc2015/article/details/47016313(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value))

Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、Feature Binarization(二值化)、Encoding categorical features(编码类别特征)、imputation of missing values(归责缺失值))

http://blog.csdn.net/mmc2015/article/details/47066239(4.4. Unsupervised dimensionality reduction(降维))

PCA、Random projections、Feature agglomeration(特征集聚))

http://blog.csdn.net/mmc2015/article/details/47069869(4.8. Transforming the prediction target (y))

Label binarizationLable encoding(transform non-numerical labels to numerical labels)

三、其它重要知识点:

http://blog.csdn.net/mmc2015/article/details/47099275(3.1. Cross-validation: evaluating estimator performance)

交叉验证

http://blog.csdn.net/mmc2015/article/details/47100091(3.2. Grid Search: Searching for estimator parameters)

搜索最佳參数组合

http://blog.csdn.net/mmc2015/article/details/47121611(3.3. Model evaluation: quantifying the quality of predictions)
模型效果评估:score函数、confusion matrix、classification report等
http://blog.csdn.net/mmc2015/article/details/47143539(3.4. Model persistence)
保存训练好的模型到本地joblib.dump & joblib.load pickle.dump & pickle .load

None、经常使用的监督非监督模型:

http://blog.csdn.net/mmc2015/article/details/46867597(2.5.  矩阵因子分解问题)

http://blog.csdn.net/mmc2015/article/details/47271039(scikit-learn(project中用的相对较多的模型介绍):1.4. Support Vector Machines)

SVM(SVC、SVR

http://blog.csdn.net/mmc2015/article/details/47271195(scikit-learn(project中用的相对较多的模型介绍):1.11. Ensemble methods)

Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting(Gradient Boosted Regression Trees (GBRT) )

http://blog.csdn.net/mmc2015/article/details/47333499(scikit-learn(project中用的相对较多的模型介绍):1.12. Multiclass and multilabel algorithms)

Multiclass classification、Multilabel classification、Multioutput-multiclass classification and multi-task classification

http://blog.csdn.net/mmc2015/article/details/47333579(scikit-learn(project中用的相对较多的模型介绍):1.13. Feature selection)

Univariate feature selection(单变量特征选择)、recursive feature elimination(递归特征消除)、L1-based / ree-based features selection(这个也用的比价多)、Feature selection as part of a pipeline

http://blog.csdn.net/mmc2015/article/details/47333839(

scikit-learn(project中用的相对较多的模型介绍):1.14. Semi-Supervised

http://blog.csdn.net/mmc2015/article/details/47414271(scikit-learn(project中用的相对较多的模型介绍):2.3. Clustering(可用于特征的无监督降维))

scikit-learn:在实际项目中用到过的知识点(总结)相关推荐

  1. 机器学习与Scikit Learn学习库

    摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...

  2. iOS 项目中用到的一些开源库和第三方组件

    iOS 项目中用到的一些 iOS 开源库和第三方组件 分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有 ...

  3. Scikit Learn: 在python中机器学习

    Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...

  4. iOS:项目中用到的Cookie

    1.介绍: 做了这么长时间开发,Cookie真是用的不多,可是现在不一样了,这次的项目我用到了Cookie.其实,Cookie的使用在项目中愈加的频繁,一般情况下,提供的接口是用Cookie来识别用户 ...

  5. [转载]Scikit Learn: 在python中机器学习

    原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...

  6. yaml for java_细数Java项目中用过的配置文件(YAML篇)

    灵魂拷问:YAML,在项目中用过没?它与 properties 文件啥区别? 目前 SpringBoot.SpringCloud.Docker 等各大项目.各大组件,在使用过程中几乎都能看到 YAML ...

  7. python能调用身份证读卡器吗_最近的项目中用到读卡器,用的华视身份证阅读器,附上SDK使用手册...

    最近的项目中用到读卡器,用的华视身份证阅读器,附上SDK使用手册 1.定义 应用函数开发包含下列文件: termb.dll      API函数的动态联接库 sdtapi.dll     内部动态库 ...

  8. python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别

    之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...

  9. iOS项目中用到的一些第三方库

    今天来总结一下项目中用到的一些第三方库. 1. AFNetworking,在github上有3万多颗的星星,用作处理网络请求. 2. MZGuidePages, 这是一个小工具,用于创建首次使用app ...

  10. 高薪程序员面试题精讲系列96之分库分表了解吗?你项目中用到过吗?怎么用的?

    一. 面试题及剖析 1. 今日面试题 分库分表了解吗? 有哪些分库分表的实现方案? 你项目中用到过分库分表吗?怎么用的? 数据库有没有进行过分区? 2. 题目剖析 现在我们出去面试时的现状,真的很贴合 ...

最新文章

  1. 程序员自学到底有没有用?网友们吵翻了...
  2. Cisco路由器命令基础篇
  3. 程序员,告诉他们被打断的真实代价
  4. ribbon客户端的负载均衡
  5. 如何快速在GitHub上找到感兴趣的开源项目
  6. linux下dhcp配置(一)
  7. 云原生系列「五」我为啥又看上了serviceMesh?
  8. button 隐藏属性_PyQt5实现仿QQ贴边隐藏功能!有点意思
  9. C#LeetCode刷题之#496-下一个更大元素 I(Next Greater Element I)
  10. 基于HT for Web的Web SCADA工控移动应用
  11. C语言 扫雷游戏(代码+注释)
  12. 二层交换机与三层交换机交换原理
  13. java 实体类校验_实体类的验证
  14. 微型计算机芯片上的位数,微处理器芯片的位数指的是什么
  15. 车载显示屏刷鸿蒙系统,华为智能品鉴会如期进行,鸿蒙系统车载显示屏首次亮相...
  16. vue日历排班组件_vue之手把手教你写日历组件
  17. 如何修复 M1 Mac 外接显示器屏幕闪烁、白噪声、黑屏等问题?
  18. Android通信安全之HTTPS
  19. android+p开机动画,Android开机动画bootanimation.zip文件制作以及注意事项
  20. 走进Linux操作系统世界

热门文章

  1. 计算机中十类指令寻址方式总结
  2. 【POJ 1113】Wall【凸包+一点思维】
  3. vmware ubuntu 16.04 guest 修复不能桌面大小自动调整和从宿主机复制粘贴的问题
  4. mysql根据id主键查询是找到了就不再遍历后面的数据了吗_MySQL索引相关
  5. Kiterunner上下文感知型内容搜索工具
  6. Tomcat找不到Controller里面的路径
  7. 依据BaiduHack多线程爬取攻击点url和网站url,保存至txt
  8. aesmiyao php_PHP实现的AES 128位加密算法示例
  9. homestead.yaml配置详解
  10. Centos7 安装字体库中文字体