美国King County房价预测训练赛

  • 简介

    • DC上的一个回归题(正经的回归题)。
    • 比较简单。
    • 时间原因(暂时没什么时间看国内旧赛),看了一下网上的解答,改善了一下神经网络就提交了。
  • 过程
    • 数据获取

      • 报名成功后到官网提供的入口下载,或者我的Github也上传了。
    • 数据探索
      • 简单了解数据格式。

        • 训练集有10000条记录,14个特征,描述如下。(注意,官方数据集没有表头)

          • 其中,第二列“销售价格”就是目标。
        • 测试集有3000条记录,利用训练好的模型预测这3000条记录的房价。
    • 数据预处理
      • 设置表头

        • 原数据没有表头,自己补充即可。
      • 显然,实际数据销售日期是有意义的,但是,对模型建立不方便,提取年份,删除月日。
      • 利用销售日期组合修理及建造日期构建新特征。
      • 处理后数据集落地。
    • 数据挖掘建模
      • 几种回归尝试

        • 随机森林(RFR)
        • 线性回归
      • 神经网络
        • 由于几种回归表现一般,没有再尝试,看网上分享很多神经网络做法,参考设计了一个前馈网络。
        • 使用Keras(TensorFlow作为后端,GPU训练)
        • 训练5000次左右提交为100名成绩。
        • 注意:**5000次之前就已经收敛,为了效率可以加入EarlyStopping。(时间原因,没有处理)
      • 网络代码
        •   model = Sequential()input_size = len(df_train.columns)model.add(Dense(units=90, activation='relu', input_shape=(input_size, )))model.add(Dropout(0.5))model.add(Dense(units=45, activation='relu'))model.add(Dropout(0.5))model.add(Dense(units=30,activation='relu'))model.add(Dropout(0.25))model.add(Dense(units=15, activation='relu'))model.add(Dropout(0.1))# 此处不能使用激活函数,因为放假是放射的model.add(Dense(units=1,activation=None))# 官网使用mse计算损失model.compile(loss='mean_squared_error',optimizer='adam',metrics=[metrics.mae])model.summary()
          
  • 补充说明
    • 排名靠前的应该不少使用机器学习算法回归调参,有时间的不妨一试。
    • 具体数据集和代码见我的Github,欢迎Star或者Fork(环境为Jupyter)。
    • 附上提交时的排名。

数据挖掘竞赛-美国King County房价预测训练赛相关推荐

  1. 数据分析 回归问题: 美国King County房价预测训练赛

    这是DC竞赛网的一道基础回归问题, 美国King County房价预测训练赛 竞赛详细信息:美国King County房价预测训练赛 任务:从给定的房屋基本信息以及房屋销售信息等,建立一个回归模型预测 ...

  2. 华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛

    各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 导入相关python库 2.数据处理 下载的是两个数据文件,一个是真实数据,一个是测试数据,打开kc_train.csv,能够看 ...

  3. 数据挖掘竞赛-北京PM2.5浓度回归分析训练赛

    北京PM2.5浓度回归分析训练赛 简介 DC上的一个回归题,比较简单. 时间原因没有细看,提交到70多名就结束了. 使用stacking方法结合多个回归模型. 过程 数据获取 官方给定. 数据探索 训 ...

  4. 机器学习-员工离职预测训练赛

    [数据来源]DC竞赛的员工离职预测训练赛 一共两个csv表格,pfm_train.csv训练(1100行,31个字段),pfm_test.csv测试集(350行,30个字段) [字段说明] Age:员 ...

  5. PaddlePaddle 波斯顿房价预测训练结果

    paddlepaddle是百度提出来的深度学习的框架,个人感觉其实和tensorflow差不多(语法上面),因为本人也是初学者,也不是很懂tensorflow,所以,这些都是个人观点. 百度的padd ...

  6. 天池竞赛员工离职预测训练赛

    组员:欧阳略.陶奇辉.王曙光.吴轩毅 数据来源:天池大数据竞赛员工离职预测训练赛中的数据 大致数据截图如下 根据所给数据,我组利用Pycharm编程源代码截图如下 最终,我组预测准确率为0.89,基本 ...

  7. 利用Python进行King County房价数据分析

    本次又从kaggle上淘来了 King County 的房价数据,结合近期学习的Python分析工具,对影响房价的可能因素进行分析. 提出问题 随着国家对房产市场的宏观调控越来越严格,此前一路高歌猛进 ...

  8. 数据挖掘竞赛-员工离职预测训练赛

    员工离职预测 简介 DC的一道回归预测题.是比较基础的分类问题,主要对逻辑回归算法的使用.核心思路为属性构造+逻辑回归. 过程 数据获取 报名参与比赛即可获得数据集的百度网盘地址,这个比赛时间很久,随 ...

  9. 天猫复购预测训练赛技术报告

    天猫复购预测赛技术报告 小组成员:李xx.姚xx.黄xx.刘xx github地址:https://github.com/2017403603/Data_mining 一.问题描述 1.1 问题背景 ...

最新文章

  1. ExtJS实现完美Grid(2)--分组统计
  2. 学Python10大理由:功能多、资源多、挣钱多!
  3. java中使用什么来做错误处理_JAVA基础--如何通过异常处理错误
  4. C#泛谈 —— 变体(协变/逆变)
  5. Maze(BFS处理)
  6. ZOJ-1010 奇偶剪枝
  7. windows 2003活动目录更名操作[图]
  8. Atitit 人工智能目前的进展与未来 包含的技术 v2 r99.docx
  9. java鼠标钩子,使用setwindowshookex在C#中设置鼠标钩子:wparam和lparam总是返回常量...
  10. 【冰点文库下载器.exe】
  11. Spring-IOC与AOP是解决什么问题的?
  12. win7计算机高级还原,主编教您win7怎么一键还原
  13. AllenNLP系列文章之六:Textual Entailment(自然语言推理-文本蕴含)
  14. Java线程中,Blocked,Wait,以及TIMED_WAIT的区别
  15. ​定了,北京时间 9 月 16 日凌晨 1 点见。
  16. Linux:以K、M、G查看文件大小;
  17. 利用python爬虫可视化分析当当网的图书数据
  18. 智能时代 算力赋能 | 有孚云·智算上线-聚智云算,向新而生!
  19. 【制作】基于金沙滩51单片机的电子密码锁程序
  20. JSP通过JDBC连接mysql数据库

热门文章

  1. Java领域的对象如何传输-如何解决报错的问题呢?
  2. MyBatis 缓存详解-什么时候开启二级缓存?
  3. MyBatis 实际使用案例-Mapper.xml 映射配置文件【重点】
  4. 对称加密-DES解密
  5. 文件上传之传统方式上传代码回顾
  6. 模板方法源码解析(jdk+servlet+mybatis)
  7. java中的equals拿什么鞋的_Java中==和equals方法
  8. python在工厂中的应用_Python工厂方法
  9. pytorch教程龙曲良16-20
  10. 制作centos6的启动光盘boot.iso