ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测

目录

输出结果

设计思路

核心代码


输出结果

RentListingInquries(Kaggle竞赛)数据集解释
参考:Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略

2.0、【interest_level】目标变量的直方图可视化

2.2.1、【bathrooms】列,需过滤处理

T1.1、利用np.percentile()方法,ulimit(99.5),只保留某些分位数内的点去掉奇异点

T1.2、直接定量限制法,ulimit(4)

2.2.2、【bedrooms】列

2.2.3、【price】列

2.2.4、【listing_id】列

2.2.5、【Latitude&Longitude】列

2.2.6、【display_address】列

2.2.7、【building_id】列

2.2.8、【manager_id】列

2.3、查看日期型特征:
【created】、【hour】、【month】

2.4、查看图片类型特征:【photos】

2.5、查看~~类型特征:【features】

2.6、查看单词计数类型特征
2.6.1、【description】

T1.0、不采用去掉奇异点法

T1.1、利用np.percentile()方法,ulimit(99),只保留某些分位数内的点去掉奇异点

2.6.2、【num_description_words】

T1.0、不采用去掉奇异点法

T1.1、利用np.percentile()方法,ulimit(99),只保留某些分位数内的点去掉奇异点

T1.2、直接定量限制法,ulimit(500)

2.7、词云图可视化:
【display_address】、【street_address】、【features】

2.8、特征之间的相关性:【bathrooms】、【bedrooms】、【price】

设计思路

190606更新

190607更新

核心代码

后期更新……

from wordcloud import WordCloudtext = ''
text_da = ''
text_street = ''
#text_desc = ''
for ind, row in train.iterrows():for feature in row['features']:text = " ".join([text, "_".join(feature.strip().split(" "))])text_da = " ".join([text_da,"_".join(row['display_address'].strip().split(" "))])text_street = " ".join([text_street,"_".join(row['street_address'].strip().split(" "))])#text_desc = " ".join([text_desc, row['description']])
text = text.strip()
text_da = text_da.strip()
text_street = text_street.strip()
#text_desc = text_desc.strip()plt.figure(figsize=(12,6))
wordcloud = WordCloud(background_color='white', width=600, height=300, max_font_size=50, max_words=40).generate(text)
wordcloud.recolor(random_state=0)
plt.imshow(wordcloud)
plt.title("features: Wordcloud for features", fontsize=30)
plt.axis("off")
plt.show()# wordcloud for display address
plt.figure()
wordcloud = WordCloud(background_color='white', width=600, height=300, max_font_size=50, max_words=40).generate(text_da)
wordcloud.recolor(random_state=0)
plt.imshow(wordcloud)
plt.title("display_address: Wordcloud for Display Address", fontsize=30)
plt.axis("off")
plt.show()# wordcloud for street address
plt.figure()
wordcloud = WordCloud(background_color='white', width=600, height=300, max_font_size=50, max_words=40).generate(text_street)
wordcloud.recolor(random_state=0)
plt.imshow(wordcloud)
plt.title("street_address: Wordcloud for Street Address", fontsize=30)
plt.axis("off")
plt.show()

ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测相关推荐

  1. ML之FE:数据处理—特征工程之特征三化(标准化【四大数据类型(数值型/类别型/字符串型/时间型)】、归一化、向量化)简介、代码实现、案例应用之详细攻略

    ML之FE:数据处理-特征工程之特征三化(标准化[四大数据类型(数值型/类别型/字符串型/时间型)].归一化.向量化)简介.代码实现.案例应用之详细攻略 目录 真正意义的标准化与归一化 1.标准化/Z ...

  2. AI基础:特征工程-文本特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第三部 ...

  3. AI基础:特征工程-数字特征处理

    0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第二部 ...

  4. 特征工程tf-idf_特征工程-保留和删除的内容

    特征工程tf-idf The next step after exploring the patterns in data is feature engineering. Any operation ...

  5. 【特征工程】特征工程技术与方法

    引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特 ...

  6. 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)

    机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  7. 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)

    机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...

  8. 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)

    机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...

  9. ML:基于自定义数据集利用Logistic、梯度下降算法GD、LoR逻辑回归、Perceptron感知器、SVM支持向量机、LDA线性判别分析算法进行二分类预测(决策边界可视化)

    ML:基于自定义数据集利用Logistic.梯度下降算法GD.LoR逻辑回归.Perceptron感知器.支持向量机(SVM_Linear.SVM_Rbf).LDA线性判别分析算法进行二分类预测(决策 ...

最新文章

  1. MATLAB_9-模式识别笔记
  2. Java 抖音授权登录
  3. 通过命令删除在ambari界面上无法删除节点上服务
  4. android应用程序的混淆打包(转)
  5. JDBC-01-快速入门
  6. java字符串常量池——字符串==比较的一个误区
  7. 一键安装mysql5.6_一键安装MySQL5.6.43脚本
  8. 利用Continuous Testing实现Eclipse环境自己主动单元測试
  9. 关于ST-Link下载STM32程序的使用
  10. 计算机主机光驱弹不出来怎么办,win7系统电脑按下光驱按钮托盘就是弹不出来怎么办...
  11. 用友U8安装...(转)
  12. pycharm文件名颜色含义
  13. 戴尔服务器上装vmware esxi
  14. Redis 跳跃表实现原理 时间复杂度分析
  15. 剑指offer----C语言版----第十一天
  16. 高中数学培训高中数学必修一
  17. Fruit Ripeness论文、代码和数据集汇总
  18. 阿里巴巴数字化运营能力
  19. 计算机少儿编程考级,少儿编程能力怎么评定?有什么考级可以参加?
  20. naoqi机器人不说话

热门文章

  1. android 安装步骤
  2. 我的Ubuntu9.10配置(随时更新)
  3. 要素图层范围查询属性arcgis api for js
  4. day2编写购物商城(1)
  5. linux下tar包追加与其他压缩追加方式
  6. JavaScript中的基本数据类型与引用数据类型
  7. 恢复VMware vSphere已孤立的虚拟机
  8. 图文并茂,万字详解,带你掌握 JVM 垃圾回收!
  9. 字节跳动 EB 级 HDFS 实践
  10. spring cloud教程之使用spring boot创建一个应用