【机器学习】特征提取代码汇总
特征提取代码汇总
import jieba
from sklearn.datasets import load_iris
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_splitdef datasets_demo():"""sklearn 数据集使用数据集的划分:机器学习一般的数据集会划分为两个部分训练数据:用于训练,构建模型测试数据:在模型校验使用,用于评估模型是否可用:return:"""# 获取数据集iris = load_iris()print("鸢尾花数据集:\n", iris)print("查询数据集描述:\n", iris["DESCR"])print("查询特征值的名字:\n", iris.feature_names)print("查看特征值:\n", iris.data, iris.data.shape)print("查看特征值:\n", iris.data.shape)# 数据集划分x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)print("训练集的特征值:\n", x_train, x_train.shape)return Nonedef dict_demo():"""字典特征值提取:return:"""data = [{'city': '北京', 'temperature': 100}, {'city': '上海', 'temperature': 60}, {'city': '深圳', 'temperature': 30}]# 1. 实例化一个转换器 默认返回 sparse矩阵 将非0值按位置表示出来 以节省内存 提高加载效率transfer = DictVectorizer(sparse=False)# 应用场景:数据集中类别特征值较多;将数据集的特征-》字典类型;DictVectorizer转换;本身拿到的就是字典# 2. 调用fit_transform()data_new = transfer.fit_transform(data)print("data_new:\n", data_new)print("特征名字:\n", transfer.get_feature_names())return Nonedef count_demo():"""文本特征值抽取:return:"""data = ["life is short, i like python", "life is too long i dislike python"]# 1、实例化一个转换器类transfer = CountVectorizer()# 演示停用词# transfer = CountVectorizer(stop_words=["is", "too"])data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、调用fit_transformreturn Nonedef count_chinese_demo():"""中文文本特征值抽取:return:"""data = ["我 爱 北京 天安门", "天安门 上 太阳 升"]data2 = ["我爱北京天安门", "天安门上太阳升"]# 1、实例化一个转换器类transfer = CountVectorizer()data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、调用fit_transformreturn Nonedef count_word(text):"""进行中文分词 我爱北京天安门-》我 爱 北京 天安门:param text::return:"""a = " ".join(list(jieba.cut(text)))print(a)return adef count_chinese_demo2():"""中文文本特征值抽取 自动分词:return:"""data = ["在过去两个月里,我和60多位小伙伴进行了1对1的一小时沟通;","TA绝大多数是想要尝试副业变现的朋友。","从一线城市到三线城市,从宝妈到职场人,从职场到体制内。"]# 1、实例化一个转换器类transfer = CountVectorizer(stop_words=["从宝妈"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、调用fit_transformreturn Nonedef tfidf_demo():"""用TF-IDF方法进行文本特征值抽取:return:"""data = ["在过去两个月里,我和60多位小伙伴进行了1对1的一小时沟通;","TA绝大多数是想要尝试副业变现的朋友。","从一线城市到三线城市,从宝妈到职场人,从职场到体制内。"]transfer = TfidfVectorizer(stop_words=["从宝妈"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())return Noneif __name__ == '__main__':# 代码1# datasets_demo()# 代码2# dict_demo()# 代码3# count_demo()# 代码4# count_chinese_demo()# 代码5# count_chinese_demo2()# count_word("我爱后端码匠微信公众号")# 代码6tfidf_demo()
【机器学习】特征提取代码汇总相关推荐
- 机器学习实用代码汇总(你想要的这里都有)
机器学习实用代码汇总(你想要的这里都有) 文章目录 机器学习实用代码汇总(你想要的这里都有) 前言 一.数据导入 1.数据文件读取 2.提取特征和标签 3.数据分布及关系图(ProfileReport ...
- 机器学习的相关代码汇总
机器学习的相关代码汇总 文章目录 机器学习的相关代码汇总 机器学习相关代码汇总 XGBoost 示例1 示例2 SVM 示例1 示例二 EM 示例1 示例二:GMM 贝叶斯网络 示例一 LDA 机器学 ...
- Machine Learning机器学习公开课汇总
机器学习目前比较热,网上也散落着很多相关的公开课和学习资源,这里基于课程图谱的机器学习公开课标签做一个汇总整理,便于大家参考对比. 1.Coursera上斯坦福大学Andrew Ng教授的" ...
- OpenCV3 Java 机器学习使用方法汇总
原文链接:OpenCV3 Java 机器学习使用方法汇总 前言 按道理来说,C++版本的OpenCV训练的版本XML文件,在java中可以无缝使用.但要注意OpenCV本身的版本问题.从2.4 到3 ...
- 算法python知乎_20个算法李小文知乎文章与Github代码汇总
李小文知乎文章与Github代码汇总 共建立了2个Github项目,实现了20个算法,写了12篇知乎文章. ---------------------------------------------- ...
- CV Code | 本周新出计算机视觉开源代码汇总(南理SGE 和Intel的实时动作识别很吸引人)...
点击我爱计算机视觉标星,更快获取CVML新技术 本周新出的计算机视觉代码不是很多,但都是精品. 出自南理工的空域组增强(SGE)网络结构在图像分类和目标检测任务中均表现出一致的有效性,强烈推荐大家关注 ...
- CV Code | 本周新出计算机视觉开源代码汇总(含目标跟踪、语义分割、姿态跟踪、少样本学习等)...
点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周出现了很多很实用.有意思.很神奇的CV代码. 比如大家期待的SiamRPN++算法,官方终于要开源了. 阿里MNN成为移动端网络部署的新选 ...
- CV Code | 本周新出计算机视觉开源代码汇总(含自动驾驶目标检测、医学图像分割、风格迁移、语义分割、目标跟踪等)...
点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周含五一假期,工作日第一天,CV君汇总了过去一周计算机视觉领域新出的开源代码,涉及到自动驾驶目标检测.医学图像分割.风格迁移.神经架构搜索. ...
- CV Code | 本周新出计算机视觉开源代码汇总(语义分割、目标检测、超分辨率、网络结构设计、训练策略等)...
点击我爱计算机视觉标星,更快获取CVML新技术 CV君汇总了过去一周计算机视觉领域新出的开源代码,涉及到图像增广.医学图像分割.图像恢复.目标检测.语义分割.超分辨率.显著目标检测.轻量级网络结构设计 ...
最新文章
- 特征和工具概览(SQL Server 2008)
- Lambda标准格式
- devexpress 打印一个form界面_通过回车键提交form表单时,你是否注意过这些问题?...
- Java之正則表達式【使用语法】
- 自学python买什么书比较好-python官方推荐30本面向初学者的书籍!你看过几本?...
- [转载] python 闭包和装饰器详解
- Linux下Bash编程之算术运算符详解(三)
- dynamic programming动态规划初步理解【-1】
- Windows10下安装linux(Utunbu)双系统
- JPEG与jpg的区别
- 普通马甲包app上架App Store5.2.1或3.21被拒原因解析
- 学了皮毛,你如何能做Web安全工程师?
- mysql spj_MySQL查询优化器--非SPJ优化--LIMIT优化
- Python+tkinter库实现简单图书管理系统
- 快速制作PDF文件的方法
- <img> 的 title 和 alt 属性的区别
- 计算机键盘突然不能用了,如果联想笔记本电脑键盘突然无法使用怎么办?
- matlab 二阶低通滤波器,二阶无源RC滤波的MATLAB仿真
- 被删短信通讯运营商仍保存半年
- openwrt 下编译ipk
热门文章
- 计算机视觉中的自监督表示学习近期进展
- 语音识别:繁华背后,危机初现
- 经典论文复现 | 基于标注策略的实体和关系联合抽取
- acm第二节2020.4.2-4.4补
- HDU1584 蜘蛛牌 DFS回溯
- java全文检索的框架_lucene框架全文检索搜索引擎方案
- 【Java代码】京东商品全部分类数据获取(建表语句+Jar包依赖+树结构封装+爬虫源代码)包含csv和sql格式数据下载可用
- 【SpringBoot集成ElasticSearch 01】2️⃣ 种方式的高级客户端 RestHighLevelClient 使用(依赖+配置+客户端API测试源码)
- 【Windows部署】Telegraf + Influxdb + Grafana 安装及使用配置(含百度云盘资源 + demo脚本)
- CG CTF WEB 伪装者