scikit-learn:在实际项目中用到过的知识点(总结)
零、全部项目通用的:
http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预測器)
http://blog.csdn.net/mmc2015/article/details/46852755(载入自己的原始数据)
(适合文本分类问题的 整个语料库载入)
http://blog.csdn.net/mmc2015/article/details/46906409(5. 载入内置公用的数据)
(常见的非常多公共数据集的载入,5. Dataset loading utilities)
http://blog.csdn.net/mmc2015/article/details/46705983(Choosing the right estimator(你的问题适合什么estimator来建模呢))
(一张图告诉你,你的问题选什么estimator好。再也不用试了)
http://blog.csdn.net/mmc2015/article/details/46857949(训练分类器、预測新数据、评价分类器)
http://blog.csdn.net/mmc2015/article/details/46858009(使用“Pipeline”统一vectorizer => transformer => classifier、网格搜索调參)
一、文本分类用到的:
http://blog.csdn.net/mmc2015/article/details/46857887(从文本文件里提取特征(tf、idf))
(CountVectorizer、TfidfTransformer)
http://blog.csdn.net/mmc2015/article/details/46866537(CountVectorizer提取tf都做了什么)
(深入解读CountVectorizer都做了哪些处理。指导我们做个性化预处理)
http://blog.csdn.net/mmc2015/article/details/46867773(2.5.2. 通过TruncatedSVD实现LSA(隐含语义分析))
(LSA、LDA分析)
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46940373(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic)
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46941367(《textanalytics》课程简单总结(1):两种word relations——Paradigmatic vs. Syntagmatic(续))
(词粒度关系:Paradigmatic(聚合关系:同性质可相互替代、用基于tfidf的相似度挖掘) vs. Syntagmatic(组合关系:协同出现、用互信息挖掘))
(非scikit-learn)http://blog.csdn.net/mmc2015/article/details/46771791(特征选择方法(TF-IDF、CHI和IG))
(介绍了TF-IDF在特征选择时的误区、CHI Square和Information Gain在特征选择时的应用)
二、数据预处理用到的(4. Dataset transformations):
http://blog.csdn.net/mmc2015/article/details/46991465(4.1. Pipeline and FeatureUnion: combining estimators(特征与预測器结合;特征与特征结合))
(特征与预測器结合、特征与特征结合)
http://blog.csdn.net/mmc2015/article/details/46992105(4.2. Feature extraction(特征提取,不是特征选择))
(loading features form dicts、feature hashing、text feature extraction、image feature extraction)
http://blog.csdn.net/mmc2015/article/details/46997379(4.2.3. Text feature extraction)
(text feature extraction)
http://blog.csdn.net/mmc2015/article/details/47016313(4.3. Preprocessing data(standardi/normali/binari..zation、encoding、missing value))
(Standardization, or mean removal and variance scaling(标准化:去均值、除方差)、Normalization(正规化)、Feature Binarization(二值化)、Encoding categorical features(编码类别特征)、imputation of missing values(归责缺失值))
http://blog.csdn.net/mmc2015/article/details/47066239(4.4. Unsupervised dimensionality reduction(降维))
(PCA、Random projections、Feature agglomeration(特征集聚))
http://blog.csdn.net/mmc2015/article/details/47069869(4.8. Transforming the prediction target (y))
(Label binarization、Lable encoding(transform non-numerical labels to numerical labels))
三、其它重要知识点:
http://blog.csdn.net/mmc2015/article/details/47099275(3.1. Cross-validation: evaluating estimator performance)
(交叉验证)
http://blog.csdn.net/mmc2015/article/details/47100091(3.2. Grid Search: Searching for estimator parameters)
(搜索最佳參数组合)
None、经常使用的监督非监督模型:
http://blog.csdn.net/mmc2015/article/details/46867597(2.5. 矩阵因子分解问题)
http://blog.csdn.net/mmc2015/article/details/47271039(scikit-learn(project中用的相对较多的模型介绍):1.4. Support Vector Machines)
SVM(SVC、SVR)
http://blog.csdn.net/mmc2015/article/details/47271195(scikit-learn(project中用的相对较多的模型介绍):1.11. Ensemble methods)
Bagging meta-estimator、Forests of ranomized trees、AdaBoost、Gradient Tree Boosting(Gradient Boosted Regression Trees (GBRT) )
http://blog.csdn.net/mmc2015/article/details/47333499(scikit-learn(project中用的相对较多的模型介绍):1.12. Multiclass and multilabel algorithms)
http://blog.csdn.net/mmc2015/article/details/47333839(
scikit-learn(project中用的相对较多的模型介绍):1.14. Semi-Supervised
http://blog.csdn.net/mmc2015/article/details/47414271(scikit-learn(project中用的相对较多的模型介绍):2.3. Clustering(可用于特征的无监督降维))
scikit-learn:在实际项目中用到过的知识点(总结)相关推荐
- 机器学习与Scikit Learn学习库
摘要: 本文介绍机器学习相关的学习库Scikit Learn,包含其安装及具体识别手写体数字案例,适合机器学习初学者入门Scikit Learn. 在我科研的时候,机器学习(ML)是计算机科学领域中最 ...
- iOS 项目中用到的一些开源库和第三方组件
iOS 项目中用到的一些 iOS 开源库和第三方组件 分享一下我目前所在公司 iOS 项目中用到的一些 iOS 开源库和第三方组件, 感谢开源, 减少了我们的劳动力, 节约了我们大量的时间, 让我们有 ...
- Scikit Learn: 在python中机器学习
Warning 警告:有些没能理解的句子,我以自己的理解意译. 翻译自:Scikit Learn:Machine Learning in Python 作者: Fabian Pedregosa, Ga ...
- iOS:项目中用到的Cookie
1.介绍: 做了这么长时间开发,Cookie真是用的不多,可是现在不一样了,这次的项目我用到了Cookie.其实,Cookie的使用在项目中愈加的频繁,一般情况下,提供的接口是用Cookie来识别用户 ...
- [转载]Scikit Learn: 在python中机器学习
原址:http://my.oschina.net/u/175377/blog/84420 目录[-] Scikit Learn: 在python中机器学习 载入示例数据 一个改变数据集大小的示例:数码 ...
- yaml for java_细数Java项目中用过的配置文件(YAML篇)
灵魂拷问:YAML,在项目中用过没?它与 properties 文件啥区别? 目前 SpringBoot.SpringCloud.Docker 等各大项目.各大组件,在使用过程中几乎都能看到 YAML ...
- python能调用身份证读卡器吗_最近的项目中用到读卡器,用的华视身份证阅读器,附上SDK使用手册...
最近的项目中用到读卡器,用的华视身份证阅读器,附上SDK使用手册 1.定义 应用函数开发包含下列文件: termb.dll API函数的动态联接库 sdtapi.dll 内部动态库 ...
- python笔迹识别_python_基于Scikit learn库中KNN,SVM算法的笔迹识别
之前我们用自己写KNN算法[网址]识别了MNIST手写识别数据 [数据下载地址] 这里介绍,如何运用Scikit learn库中的KNN,SVM算法进行笔迹识别. 数据说明: 数据共有785列,第一列 ...
- iOS项目中用到的一些第三方库
今天来总结一下项目中用到的一些第三方库. 1. AFNetworking,在github上有3万多颗的星星,用作处理网络请求. 2. MZGuidePages, 这是一个小工具,用于创建首次使用app ...
- 高薪程序员面试题精讲系列96之分库分表了解吗?你项目中用到过吗?怎么用的?
一. 面试题及剖析 1. 今日面试题 分库分表了解吗? 有哪些分库分表的实现方案? 你项目中用到过分库分表吗?怎么用的? 数据库有没有进行过分区? 2. 题目剖析 现在我们出去面试时的现状,真的很贴合 ...
最新文章
- 程序员自学到底有没有用?网友们吵翻了...
- Cisco路由器命令基础篇
- 程序员,告诉他们被打断的真实代价
- ribbon客户端的负载均衡
- 如何快速在GitHub上找到感兴趣的开源项目
- linux下dhcp配置(一)
- 云原生系列「五」我为啥又看上了serviceMesh?
- button 隐藏属性_PyQt5实现仿QQ贴边隐藏功能!有点意思
- C#LeetCode刷题之#496-下一个更大元素 I(Next Greater Element I)
- 基于HT for Web的Web SCADA工控移动应用
- C语言 扫雷游戏(代码+注释)
- 二层交换机与三层交换机交换原理
- java 实体类校验_实体类的验证
- 微型计算机芯片上的位数,微处理器芯片的位数指的是什么
- 车载显示屏刷鸿蒙系统,华为智能品鉴会如期进行,鸿蒙系统车载显示屏首次亮相...
- vue日历排班组件_vue之手把手教你写日历组件
- 如何修复 M1 Mac 外接显示器屏幕闪烁、白噪声、黑屏等问题?
- Android通信安全之HTTPS
- android+p开机动画,Android开机动画bootanimation.zip文件制作以及注意事项
- 走进Linux操作系统世界
热门文章
- 计算机中十类指令寻址方式总结
- 【POJ 1113】Wall【凸包+一点思维】
- vmware ubuntu 16.04 guest 修复不能桌面大小自动调整和从宿主机复制粘贴的问题
- mysql根据id主键查询是找到了就不再遍历后面的数据了吗_MySQL索引相关
- Kiterunner上下文感知型内容搜索工具
- Tomcat找不到Controller里面的路径
- 依据BaiduHack多线程爬取攻击点url和网站url,保存至txt
- aesmiyao php_PHP实现的AES 128位加密算法示例
- homestead.yaml配置详解
- Centos7 安装字体库中文字体