零、全部项目通用的：

http://blog.csdn.net/mmc2015/article/details/46851245（数据集格式和预測器）

http://blog.csdn.net/mmc2015/article/details/46852755（载入自己的原始数据）

（适合文本分类问题的整个语料库载入）

http://blog.csdn.net/mmc2015/article/details/46906409（5. 载入内置公用的数据）

（常见的非常多公共数据集的载入，5. Dataset loading utilities）

http://blog.csdn.net/mmc2015/article/details/46705983（Choosing the right estimator（你的问题适合什么estimator来建模呢））

（一张图告诉你，你的问题选什么estimator好。再也不用试了）

http://blog.csdn.net/mmc2015/article/details/46857949（训练分类器、预測新数据、评价分类器）

http://blog.csdn.net/mmc2015/article/details/46858009（使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调參）

一、文本分类用到的：

http://blog.csdn.net/mmc2015/article/details/46857887（从文本文件里提取特征（tf、idf））

（CountVectorizer、TfidfTransformer）

http://blog.csdn.net/mmc2015/article/details/46866537（CountVectorizer提取tf都做了什么）

（深入解读CountVectorizer都做了哪些处理。指导我们做个性化预处理）

http://blog.csdn.net/mmc2015/article/details/46867773（2.5.2. 通过TruncatedSVD实现LSA（隐含语义分析））

（LSA、LDA分析）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46940373（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46941367（《textanalytics》课程简单总结（1）：两种word relations——Paradigmatic vs. Syntagmatic（续））

（词粒度关系：Paradigmatic(聚合关系：同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系：协同出现、用互信息挖掘)）

（非scikit-learn）http://blog.csdn.net/mmc2015/article/details/46771791（特征选择方法（TF-IDF、CHI和IG））

（介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用）

二、数据预处理用到的（4. Dataset transformations）：

http://blog.csdn.net/mmc2015/article/details/46991465（4.1. Pipeline and FeatureUnion: combining estimators（特征与预測器结合；特征与特征结合））

（特征与预測器结合、特征与特征结合）

http://blog.csdn.net/mmc2015/article/details/46992105（4.2. Feature extraction（特征提取，不是特征选择））

（loading features form dicts、feature hashing、text feature extraction、image feature extraction）

http://blog.csdn.net/mmc2015/article/details/46997379（4.2.3. Text feature extraction）

（text feature extraction）

http://blog.csdn.net/mmc2015/article/details/47016313（4.3. Preprocessing data（standardi/normali/binari..zation、encoding、missing value））

（Standardization, or mean removal and variance scaling（标准化：去均值、除方差）、Normalization（正规化）、Feature Binarization（二值化）、Encoding categorical features（编码类别特征）、imputation of missing values（归责缺失值））

http://blog.csdn.net/mmc2015/article/details/47066239（4.4. Unsupervised dimensionality reduction（降维））

（PCA、Random projections、Feature agglomeration（特征集聚））

http://blog.csdn.net/mmc2015/article/details/47069869（4.8. Transforming the prediction target (y)）

（Label binarization、Lable encoding（transform non-numerical labels to numerical labels））

三、其它重要知识点：

http://blog.csdn.net/mmc2015/article/details/47099275（3.1. Cross-validation: evaluating estimator performance）

（交叉验证）

http://blog.csdn.net/mmc2015/article/details/47100091（3.2. Grid Search: Searching for estimator parameters）

（搜索最佳參数组合）

http://blog.csdn.net/mmc2015/article/details/47121611（3.3. Model evaluation: quantifying the quality of predictions）

（模型效果评估：score函数、confusion matrix、classification report等）

http://blog.csdn.net/mmc2015/article/details/47143539（3.4. Model persistence）

（保存训练好的模型到本地：joblib.dump & joblib.load pickle.dump & pickle .load）

None、经常使用的监督非监督模型：

http://blog.csdn.net/mmc2015/article/details/46867597（2.5. 矩阵因子分解问题）

http://blog.csdn.net/mmc2015/article/details/47271039（scikit-learn（project中用的相对较多的模型介绍）：1.4. Support Vector Machines）

SVM（SVC、SVR）

http://blog.csdn.net/mmc2015/article/details/47271195（scikit-learn（project中用的相对较多的模型介绍）：1.11. Ensemble methods）

Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting（Gradient Boosted Regression Trees (GBRT) ）

http://blog.csdn.net/mmc2015/article/details/47333499（scikit-learn（project中用的相对较多的模型介绍）：1.12. Multiclass and multilabel algorithms）

Multiclass classification、Multilabel classification、Multioutput-multiclass classification and multi-task classification

http://blog.csdn.net/mmc2015/article/details/47333579（scikit-learn（project中用的相对较多的模型介绍）：1.13. Feature selection）

Univariate feature selection（单变量特征选择）、recursive feature elimination（递归特征消除）、L1-based / ree-based features selection（这个也用的比价多）、Feature selection as part of a pipeline

http://blog.csdn.net/mmc2015/article/details/47333839（

scikit-learn（project中用的相对较多的模型介绍）：1.14. Semi-Supervised

）

http://blog.csdn.net/mmc2015/article/details/47414271（scikit-learn（project中用的相对较多的模型介绍）：2.3. Clustering（可用于特征的无监督降维））

scikit-learn：在实际项目中用到过的知识点（总结）相关推荐

机器学习与Scikit Learn学习库
摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...
iOS 项目中用到的一些开源库和第三方组件
iOS 项目中用到的一些 iOS 开源库和第三方组件分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有 ...
Scikit Learn: 在python中机器学习
Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...
iOS:项目中用到的Cookie
1.介绍: 做了这么长时间开发,Cookie真是用的不多,可是现在不一样了,这次的项目我用到了Cookie.其实,Cookie的使用在项目中愈加的频繁,一般情况下,提供的接口是用Cookie来识别用户 ...
[转载]Scikit Learn: 在python中机器学习
原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习载入示例数据一个改变数据集大小的示例:数码 ...
yaml for java_细数Java项目中用过的配置文件（YAML篇）
灵魂拷问:YAML,在项目中用过没?它与 properties 文件啥区别? 目前 SpringBoot.SpringCloud.Docker 等各大项目.各大组件,在使用过程中几乎都能看到 YAML ...
python能调用身份证读卡器吗_最近的项目中用到读卡器，用的华视身份证阅读器，附上SDK使用手册...
最近的项目中用到读卡器,用的华视身份证阅读器,附上SDK使用手册 1.定义应用函数开发包含下列文件: termb.dll API函数的动态联接库 sdtapi.dll 内部动态库 ...
python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别
之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...
iOS项目中用到的一些第三方库
今天来总结一下项目中用到的一些第三方库. 1. AFNetworking,在github上有3万多颗的星星,用作处理网络请求. 2. MZGuidePages, 这是一个小工具,用于创建首次使用app ...
高薪程序员面试题精讲系列96之分库分表了解吗？你项目中用到过吗？怎么用的？
一. 面试题及剖析 1. 今日面试题分库分表了解吗? 有哪些分库分表的实现方案? 你项目中用到过分库分表吗?怎么用的? 数据库有没有进行过分区? 2. 题目剖析现在我们出去面试时的现状,真的很贴合 ...

scikit-learn：在实际项目中用到过的知识点（总结）

scikit-learn（project中用的相对较多的模型介绍）：1.14. Semi-Supervised

scikit-learn：在实际项目中用到过的知识点（总结）相关推荐

最新文章

热门文章