ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测
ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测
目录
输出结果
设计思路
核心代码
输出结果
RentListingInquries(Kaggle竞赛)数据集解释
参考:Dataset之RentListingInquries:RentListingInquries(Kaggle竞赛)数据集的简介、下载、案例应用之详细攻略
2.0、【interest_level】目标变量的直方图可视化
2.2.1、【bathrooms】列,需过滤处理
T1.1、利用np.percentile()方法,ulimit(99.5),只保留某些分位数内的点去掉奇异点
T1.2、直接定量限制法,ulimit(4)
2.2.2、【bedrooms】列
2.2.3、【price】列
2.2.4、【listing_id】列
2.2.5、【Latitude&Longitude】列
2.2.6、【display_address】列
2.2.7、【building_id】列
2.2.8、【manager_id】列
2.3、查看日期型特征:
【created】、【hour】、【month】
2.4、查看图片类型特征:【photos】
2.5、查看~~类型特征:【features】
2.6、查看单词计数类型特征
2.6.1、【description】
T1.0、不采用去掉奇异点法
T1.1、利用np.percentile()方法,ulimit(99),只保留某些分位数内的点去掉奇异点
2.6.2、【num_description_words】
T1.0、不采用去掉奇异点法
T1.1、利用np.percentile()方法,ulimit(99),只保留某些分位数内的点去掉奇异点
T1.2、直接定量限制法,ulimit(500)
2.7、词云图可视化:
【display_address】、【street_address】、【features】
2.8、特征之间的相关性:【bathrooms】、【bedrooms】、【price】
设计思路
190606更新
190607更新
核心代码
后期更新……
from wordcloud import WordCloudtext = ''
text_da = ''
text_street = ''
#text_desc = ''
for ind, row in train.iterrows():for feature in row['features']:text = " ".join([text, "_".join(feature.strip().split(" "))])text_da = " ".join([text_da,"_".join(row['display_address'].strip().split(" "))])text_street = " ".join([text_street,"_".join(row['street_address'].strip().split(" "))])#text_desc = " ".join([text_desc, row['description']])
text = text.strip()
text_da = text_da.strip()
text_street = text_street.strip()
#text_desc = text_desc.strip()plt.figure(figsize=(12,6))
wordcloud = WordCloud(background_color='white', width=600, height=300, max_font_size=50, max_words=40).generate(text)
wordcloud.recolor(random_state=0)
plt.imshow(wordcloud)
plt.title("features: Wordcloud for features", fontsize=30)
plt.axis("off")
plt.show()# wordcloud for display address
plt.figure()
wordcloud = WordCloud(background_color='white', width=600, height=300, max_font_size=50, max_words=40).generate(text_da)
wordcloud.recolor(random_state=0)
plt.imshow(wordcloud)
plt.title("display_address: Wordcloud for Display Address", fontsize=30)
plt.axis("off")
plt.show()# wordcloud for street address
plt.figure()
wordcloud = WordCloud(background_color='white', width=600, height=300, max_font_size=50, max_words=40).generate(text_street)
wordcloud.recolor(random_state=0)
plt.imshow(wordcloud)
plt.title("street_address: Wordcloud for Street Address", fontsize=30)
plt.axis("off")
plt.show()
ML之FE:利用FE特征工程(单个特征及其与标签关系的可视化)对RentListingInquries(Kaggle竞赛)数据集实现房屋感兴趣程度的多分类预测相关推荐
- ML之FE:数据处理—特征工程之特征三化(标准化【四大数据类型(数值型/类别型/字符串型/时间型)】、归一化、向量化)简介、代码实现、案例应用之详细攻略
ML之FE:数据处理-特征工程之特征三化(标准化[四大数据类型(数值型/类别型/字符串型/时间型)].归一化.向量化)简介.代码实现.案例应用之详细攻略 目录 真正意义的标准化与归一化 1.标准化/Z ...
- AI基础:特征工程-文本特征处理
0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第三部 ...
- AI基础:特征工程-数字特征处理
0.导语 特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用. 在此之前,我已经写了以下几篇AI基础的快速入门,本篇文章讲解特征工程基础第二部 ...
- 特征工程tf-idf_特征工程-保留和删除的内容
特征工程tf-idf The next step after exploring the patterns in data is feature engineering. Any operation ...
- 【特征工程】特征工程技术与方法
引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特 ...
- 机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler)
机器学习特征工程之特征缩放+无量纲化:数据标准化(StandardScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- 机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler)
机器学习特征工程之特征缩放+无量纲化:最小最大缩放(MinMaxScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行缩 ...
- 机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler)
机器学习特征工程之特征缩放+无量纲化:最大绝对值缩放(MaxAbsScaler) 在Andrew Ng的机器学习课程里面,讲到使用梯度下降的时候应当进行特征缩放(Feature Scaling).进行 ...
- ML:基于自定义数据集利用Logistic、梯度下降算法GD、LoR逻辑回归、Perceptron感知器、SVM支持向量机、LDA线性判别分析算法进行二分类预测(决策边界可视化)
ML:基于自定义数据集利用Logistic.梯度下降算法GD.LoR逻辑回归.Perceptron感知器.支持向量机(SVM_Linear.SVM_Rbf).LDA线性判别分析算法进行二分类预测(决策 ...
最新文章
- MATLAB_9-模式识别笔记
- Java 抖音授权登录
- 通过命令删除在ambari界面上无法删除节点上服务
- android应用程序的混淆打包(转)
- JDBC-01-快速入门
- java字符串常量池——字符串==比较的一个误区
- 一键安装mysql5.6_一键安装MySQL5.6.43脚本
- 利用Continuous Testing实现Eclipse环境自己主动单元測试
- 关于ST-Link下载STM32程序的使用
- 计算机主机光驱弹不出来怎么办,win7系统电脑按下光驱按钮托盘就是弹不出来怎么办...
- 用友U8安装...(转)
- pycharm文件名颜色含义
- 戴尔服务器上装vmware esxi
- Redis 跳跃表实现原理 时间复杂度分析
- 剑指offer----C语言版----第十一天
- 高中数学培训高中数学必修一
- Fruit Ripeness论文、代码和数据集汇总
- 阿里巴巴数字化运营能力
- 计算机少儿编程考级,少儿编程能力怎么评定?有什么考级可以参加?
- naoqi机器人不说话