特征提取代码汇总

import jieba
from sklearn.datasets import load_iris
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_splitdef datasets_demo():"""sklearn 数据集使用数据集的划分:机器学习一般的数据集会划分为两个部分训练数据:用于训练,构建模型测试数据:在模型校验使用,用于评估模型是否可用:return:"""# 获取数据集iris = load_iris()print("鸢尾花数据集:\n", iris)print("查询数据集描述:\n", iris["DESCR"])print("查询特征值的名字:\n", iris.feature_names)print("查看特征值:\n", iris.data, iris.data.shape)print("查看特征值:\n", iris.data.shape)# 数据集划分x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)print("训练集的特征值:\n", x_train, x_train.shape)return Nonedef dict_demo():"""字典特征值提取:return:"""data = [{'city': '北京', 'temperature': 100}, {'city': '上海', 'temperature': 60}, {'city': '深圳', 'temperature': 30}]# 1. 实例化一个转换器   默认返回 sparse矩阵  将非0值按位置表示出来 以节省内存 提高加载效率transfer = DictVectorizer(sparse=False)# 应用场景:数据集中类别特征值较多;将数据集的特征-》字典类型;DictVectorizer转换;本身拿到的就是字典# 2. 调用fit_transform()data_new = transfer.fit_transform(data)print("data_new:\n", data_new)print("特征名字:\n", transfer.get_feature_names())return Nonedef count_demo():"""文本特征值抽取:return:"""data = ["life is short, i like python", "life is too long i dislike python"]# 1、实例化一个转换器类transfer = CountVectorizer()# 演示停用词# transfer = CountVectorizer(stop_words=["is", "too"])data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、调用fit_transformreturn Nonedef count_chinese_demo():"""中文文本特征值抽取:return:"""data = ["我 爱 北京 天安门", "天安门 上 太阳 升"]data2 = ["我爱北京天安门", "天安门上太阳升"]# 1、实例化一个转换器类transfer = CountVectorizer()data_new = transfer.fit_transform(data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、调用fit_transformreturn Nonedef count_word(text):"""进行中文分词 我爱北京天安门-》我 爱 北京 天安门:param text::return:"""a = " ".join(list(jieba.cut(text)))print(a)return adef count_chinese_demo2():"""中文文本特征值抽取 自动分词:return:"""data = ["在过去两个月里,我和60多位小伙伴进行了1对1的一小时沟通;","TA绝大多数是想要尝试副业变现的朋友。","从一线城市到三线城市,从宝妈到职场人,从职场到体制内。"]# 1、实例化一个转换器类transfer = CountVectorizer(stop_words=["从宝妈"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())# 2、调用fit_transformreturn Nonedef tfidf_demo():"""用TF-IDF方法进行文本特征值抽取:return:"""data = ["在过去两个月里,我和60多位小伙伴进行了1对1的一小时沟通;","TA绝大多数是想要尝试副业变现的朋友。","从一线城市到三线城市,从宝妈到职场人,从职场到体制内。"]transfer = TfidfVectorizer(stop_words=["从宝妈"])data_new = transfer.fit_transform(count_word(item) for item in data)print("data_new:\n", data_new.toarray())print("特征名字:\n", transfer.get_feature_names())return Noneif __name__ == '__main__':# 代码1# datasets_demo()# 代码2# dict_demo()# 代码3# count_demo()# 代码4# count_chinese_demo()# 代码5# count_chinese_demo2()# count_word("我爱后端码匠微信公众号")# 代码6tfidf_demo()

【机器学习】特征提取代码汇总相关推荐

  1. 机器学习实用代码汇总(你想要的这里都有)

    机器学习实用代码汇总(你想要的这里都有) 文章目录 机器学习实用代码汇总(你想要的这里都有) 前言 一.数据导入 1.数据文件读取 2.提取特征和标签 3.数据分布及关系图(ProfileReport ...

  2. 机器学习的相关代码汇总

    机器学习的相关代码汇总 文章目录 机器学习的相关代码汇总 机器学习相关代码汇总 XGBoost 示例1 示例2 SVM 示例1 示例二 EM 示例1 示例二:GMM 贝叶斯网络 示例一 LDA 机器学 ...

  3. Machine Learning机器学习公开课汇总

    机器学习目前比较热,网上也散落着很多相关的公开课和学习资源,这里基于课程图谱的机器学习公开课标签做一个汇总整理,便于大家参考对比. 1.Coursera上斯坦福大学Andrew Ng教授的" ...

  4. OpenCV3 Java 机器学习使用方法汇总

    原文链接:OpenCV3 Java 机器学习使用方法汇总  前言 按道理来说,C++版本的OpenCV训练的版本XML文件,在java中可以无缝使用.但要注意OpenCV本身的版本问题.从2.4 到3 ...

  5. 算法python知乎_20个算法李小文知乎文章与Github代码汇总

    李小文知乎文章与Github代码汇总 共建立了2个Github项目,实现了20个算法,写了12篇知乎文章. ---------------------------------------------- ...

  6. CV Code | 本周新出计算机视觉开源代码汇总(南理SGE 和Intel的实时动作识别很吸引人)...

    点击我爱计算机视觉标星,更快获取CVML新技术 本周新出的计算机视觉代码不是很多,但都是精品. 出自南理工的空域组增强(SGE)网络结构在图像分类和目标检测任务中均表现出一致的有效性,强烈推荐大家关注 ...

  7. CV Code | 本周新出计算机视觉开源代码汇总(含目标跟踪、语义分割、姿态跟踪、少样本学习等)...

    点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周出现了很多很实用.有意思.很神奇的CV代码. 比如大家期待的SiamRPN++算法,官方终于要开源了. 阿里MNN成为移动端网络部署的新选 ...

  8. CV Code | 本周新出计算机视觉开源代码汇总(含自动驾驶目标检测、医学图像分割、风格迁移、语义分割、目标跟踪等)...

    点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周含五一假期,工作日第一天,CV君汇总了过去一周计算机视觉领域新出的开源代码,涉及到自动驾驶目标检测.医学图像分割.风格迁移.神经架构搜索. ...

  9. CV Code | 本周新出计算机视觉开源代码汇总(语义分割、目标检测、超分辨率、网络结构设计、训练策略等)...

    点击我爱计算机视觉标星,更快获取CVML新技术 CV君汇总了过去一周计算机视觉领域新出的开源代码,涉及到图像增广.医学图像分割.图像恢复.目标检测.语义分割.超分辨率.显著目标检测.轻量级网络结构设计 ...

最新文章

  1. 特征和工具概览(SQL Server 2008)
  2. Lambda标准格式
  3. devexpress 打印一个form界面_通过回车键提交form表单时,你是否注意过这些问题?...
  4. Java之正則表達式【使用语法】
  5. 自学python买什么书比较好-python官方推荐30本面向初学者的书籍!你看过几本?...
  6. [转载] python 闭包和装饰器详解
  7. Linux下Bash编程之算术运算符详解(三)
  8. dynamic programming动态规划初步理解【-1】
  9. Windows10下安装linux(Utunbu)双系统
  10. JPEG与jpg的区别
  11. 普通马甲包app上架App Store5.2.1或3.21被拒原因解析
  12. 学了皮毛,你如何能做Web安全工程师?
  13. mysql spj_MySQL查询优化器--非SPJ优化--LIMIT优化
  14. Python+tkinter库实现简单图书管理系统
  15. 快速制作PDF文件的方法
  16. <img> 的 title 和 alt 属性的区别
  17. 计算机键盘突然不能用了,如果联想笔记本电脑键盘突然无法使用怎么办?
  18. matlab 二阶低通滤波器,二阶无源RC滤波的MATLAB仿真
  19. 被删短信通讯运营商仍保存半年
  20. openwrt 下编译ipk

热门文章

  1. 计算机视觉中的自监督表示学习近期进展
  2. 语音识别:繁华背后,危机初现
  3. 经典论文复现 | 基于标注策略的实体和关系联合抽取
  4. acm第二节2020.4.2-4.4补
  5. HDU1584 蜘蛛牌 DFS回溯
  6. java全文检索的框架_lucene框架全文检索搜索引擎方案
  7. 【Java代码】京东商品全部分类数据获取(建表语句+Jar包依赖+树结构封装+爬虫源代码)包含csv和sql格式数据下载可用
  8. 【SpringBoot集成ElasticSearch 01】2️⃣ 种方式的高级客户端 RestHighLevelClient 使用(依赖+配置+客户端API测试源码)
  9. 【Windows部署】Telegraf + Influxdb + Grafana 安装及使用配置(含百度云盘资源 + demo脚本)
  10. CG CTF WEB 伪装者