算命数据

Real Estate Sale Prices, Regression, and Classification: Data Science is the Future of Fortune Telling

房地产销售价格,回归和分类:数据科学是算命的未来

As we all know, I am unusually blessed with totally-real psychic abilities.

众所周知,我拥有非凡的心理能力。

My background as a psychic extends way back to my childhood. On my sixth birthday, my mother got me a full astrological prediction printed out for the next year of my life. I, of course, was disappointed. Not because I was too young for uncanny predictions of the future. But because, I already had the psychic abilities needed to predict my fate. Each morning, I would read the patterns of cheerio-residue leftover in my breakfast cereal bowls. Obviously. I had a system for making sure my future stayed bright!

我的通灵背景可以追溯到童年时代。 在我的六岁生日那天,母亲为我提供了有关生命的第二年的完整的占星术预测。 我当然感到失望。 不是因为我还太年轻,无法对未来做出不可思议的预测。 但是,因为我已经具备了预测命运的心理能力。 每天早晨,我都会在早餐谷物碗中阅读残留的麦角酒残留的图案。 明显。 我有一个系统来确保我的前途一片光明!

In all seriousness though, as a 20-year-old young Data Scientist now, I discover more and more similarities between the skills of a fortune teller and a data scientist. Finally, I’ll be able to put my years of useless-seeming, arcane knowledge to good use. You don’t believe me?

严肃地说,作为一个现年20岁的年轻数据科学家,我发现算命先生和数据科学家之间的技能越来越相似。 最后,我将能够充分利用我多年的无用的神秘知识。 你不相信我吗?

Well algorithms and machine learning are a perfect example of modern fortune telling in practice. Nowadays, the experience of finding invasive amazon ads personally customized to your own interests is near universal:

好的算法和机器学习是实践中现代算命的完美示例。 如今,找到针对您自己的兴趣量身定制的侵入性亚马逊广告的经验几乎普及了:

Machine learning is the process of teaching a computer to be able to predict future data points from its previous body of information. The main form of machine learning I focused on in my data science project, “Predicting Real Estate Sale Prices with the Ames, Iowa Housing Dataset,” is linear regression. This model creates a line of best fit over the dataset in order to predict the likelihood of a house being a certain price (if it has, say, 20,000 sq. ft., a finished garage, no fence, etc.)

机器学习是教会计算机能够从其先前的信息主体预测未来数据点的过程。 在我的数据科学项目中,我关注的机器学习的主要形式是“使用爱荷华州住房数据集的Ames预测房地产销售价格”,是线性回归。 该模型在数据集中创建一条最合适的线,以预测房屋达到一定价格的可能性(例如,如果房屋有20,000平方英尺,已建成的车库,没有围栏等)。

The following infographic, for example, represents my analysis of the relationship between Real Estate Sale Price (the X-axis) and Gross Living Area (the Y-axis). Outliers have been removed from this particular set of data, helping preserve the quality of my linear regression predictor. This relationship between Sale Price and Gross Living Area, in addition to many other factors that are correlated with Sale Price highly, become my tools to predict how a house of a certain demographic will be priced.

例如,以下信息图代表我对房地产销售价格(X轴)和总居住面积(Y轴)之间关系的分析。 已从此特定数据集中删除了离群值,有助于保持线性回归预测变量的质量。 销售价格和总居住面积之间的这种关系,除了与销售价格高度相关的许多其他因素外,还成为我预测特定人口的房屋如何定价的工具。

Ultimately, my linear regression model became able to predict houses with only a 27,000 Root Mean-Squared Error. This means that for any given house price prediction my model makes, the house’s actual (non-predicted) Sale Price will be on average $27,000 away from my prediction. Given the fact that the majority of houses sell for above $50,000 at least, this amount of error is relatively acceptable. However, my fortune-telling wizard powers now extend even further than just “Linear Regression.”

最终,我的线性回归模型开始能够预测只有27,000均方根误差的房屋。 这意味着,对于我的模型进行的任何给定的房价预测,该房屋的实际(未预测)售价均比我的预测平均低27,000美元。 考虑到大多数房屋的售价至少在50,000美元以上,因此这一误差是可以接受的。 但是,我算命向导的功能现在不仅可以扩展到“线性回归”。

I can also use “logistic regression” and “K-Nearest-Neighbors” classifiers to sort data, predicting which camps each of my data points will fall into. For instance, in my data science project “Tinder Problems or Relationship Advice?,” I scrape data from the subreddits for “Tinder” and “Relationship Advice” off of Reddit. Using a variety of Natural Language Processing techniques, I build a model that can predict whether or not that given post originates from “Tinder” or “Relationship Advice.”

我还可以使用“逻辑回归”和“ K最近邻”分类器对数据进行排序,以预测我的每个数据点将属于哪个阵营。 例如,在我的数据科学项目“ Tinder问题或关系建议?”中,我从Reddit的“ Tinder”和“ Relationship Advice”子目录中抓取了数据。 通过使用各种自然语言处理技术,我建立了一个模型,可以预测给定帖子是源自“ Tinder”还是“ Relationship Advice”。

Now, do I actually have the psychic ability to predict the future with ritual sacrifice? The world may never know. But, thankfully, I can just predict the future with Data Science skills like machine learning. I can create regressions to determine numerical predictions, classifiers to predict categorical outcomes, and I don’t even need to pull out my crystal ball.

现在,我真的有通过仪式牺牲来预测未来的心理能力吗? 世界可能永远不会知道。 但是,幸运的是,我可以借助诸如机器学习之类的数据科学技能来预测未来。 我可以创建回归来确定数值预测,创建分类器来预测分类结果,甚至不需要抽出水晶球。

And even better, unlike arcane sorcery, Data Science grounds all of its predictions in facts and previously gathered data. If anything, that’s the real magic of Data Science. I can take any amount of information in any field and, with enough time and effort, predict the future. What’s more magical than that?

甚至更好的是,与奥术法术不同,数据科学将其所有预测基于事实和先前收集的数据。 如果有的话,那就是数据科学的真正魔力。 我可以在任何领域获得大量信息,并花费足够的时间和精力来预测未来。 有什么比这更神奇的?

翻译自: https://medium.com/@jjp2196/data-scientist-or-fortune-telling-psychic-wizard-from-the-future-5e7a93025fe5

算命数据


http://www.taodudu.cc/news/show-995252.html

相关文章:

  • 熊猫数据集_熊猫迈向数据科学的第三部分
  • 充分利用UC berkeleys数据科学专业
  • 铁拳nat映射_铁拳如何重塑我的数据可视化设计流程
  • 有效沟通的技能有哪些_如何有效地展示您的数据科学或软件工程技能
  • vue取数据第一个数据_我作为数据科学家的第一个月
  • rcp rapido_为什么气流非常适合Rapido
  • 算法组合 优化算法_算法交易简化了风险价值和投资组合优化
  • covid 19如何重塑美国科技公司的工作文化
  • 蒙特卡洛模拟预测股票_使用蒙特卡洛模拟来预测极端天气事件
  • 微生物 研究_微生物监测如何工作,为何如此重要
  • web数据交互_通过体育运动使用定制的交互式Web应用程序数据科学探索任何数据...
  • 熊猫数据集_用熊猫掌握数据聚合
  • 数据创造价值_展示数据并创造价值
  • 北方工业大学gpa计算_北方大学联盟仓库的探索性分析
  • missforest_missforest最佳丢失数据插补算法
  • 数据可视化工具_数据可视化
  • 使用python和pandas进行同类群组分析
  • 敏捷数据科学pdf_敏捷数据科学数据科学可以并且应该是敏捷的
  • api地理编码_通过地理编码API使您的数据更有意义
  • 分布分析和分组分析_如何通过群组分析对用户进行分组并获得可行的见解
  • 数据科学家 数据工程师_数据科学家应该对数据进行版本控制的4个理由
  • 数据可视化 信息可视化_可视化数据以帮助清理数据
  • 使用python pandas dataframe学习数据分析
  • 前端绘制绘制图表_绘制我的文学风景
  • 回归分析检验_回归分析
  • 数据科学与大数据技术的案例_主数据科学案例研究,招聘经理的观点
  • cad2016珊瑚_预测有马的硬珊瑚覆盖率
  • 用python进行营销分析_用python进行covid 19分析
  • 请不要更多的基本情节
  • 机器学习解决什么问题_机器学习帮助解决水危机

算命数据_未来的数据科学家或算命精神向导相关推荐

  1. 数据中台是下一代大数据_全栈数据科学:下一代数据科学家群体

    数据中台是下一代大数据 重点 (Top highlight) Data science has been an eye-catching field for many years now to you ...

  2. vue取数据第一个数据_我作为数据科学家的第一个月

    vue取数据第一个数据 A lot. 很多. I landed my first job as a Data Scientist at the beginning of August, and lik ...

  3. 数字数据转换为字符数据_为什么替代数据对数字转换至关重要

    数字数据转换为字符数据 边缘是数据的未来(Fringe is the future of data) Alternative data has been a buzzword among invest ...

  4. 天云大数据_天云大数据三度蝉联毕马威领先金融科技50强

    2019年1月,毕马威2018中国领先金融科技企业颁奖礼在京举行.这是毕马威第三次开展中国领先金融科技企业50年度评选,2016年及2017年,毕马威两次推出中国领先金融科技企业50名单并获得业界广泛 ...

  5. 教育为什么重要 大数据_为什么开放数据在教育中很重要

    教育为什么重要 大数据 Rajan在距我家乡印度阿姆利则约140公里的一个小村庄上学. 否则,一个活泼的男孩会擅长在父亲便利店的分类帐簿中处理数字,并且喜欢吹笛子,进入教室后,他就会陷入冷漠和冷漠的深 ...

  6. 【诸葛】大数据的未来:数据是商品,你就是猎物

    大数据的未来发展必将彻底影响着人们的生活,每个人都无形的被大数据贴上了无数个属性标签.下面诸葛详细解读下大数据是如何给每个人贴上大数据标签的. 1.Cookies改变了你的客户? 如果你正在读这篇博文 ...

  7. 查询数据 抓取 网站数据_有了数据,我就学会了如何在几个小时内抓取网站,您也可以...

    查询数据 抓取 网站数据 I had a shameful secret. It is one that affects a surprising number of people in the da ...

  8. 交通事故2018数据_现实世界数据科学项目:交通事故分析

    交通事故2018数据 by Hari Santanam 通过Hari Santanam 现实世界数据科学项目:交通事故分析 (Real world data science project: traf ...

  9. 大数据_什么是数据中台?

    目录 一.数据中台的定义 二.数据中台必备的是个核心能力 三.数据中台VS业务中台 四.数据中台VS数据仓库 五.数据中台VS现有信息架构 六.数据中台的业务价值与技术价值 一.数据中台的定义 数据中 ...

最新文章

  1. 2021年大数据Hadoop(二十六):YARN三大组件介绍
  2. 简单理解:同步、异步、阻塞、非阻塞
  3. Elasticsearch之配置详解
  4. LiveVideoStackCon 2018展现多媒体技术生态多样性
  5. buildpack_使用Buildpack容器化Spring Boot应用程序
  6. 5.1 vim介绍 5.2-5.3 vim颜色显示和移动光标、vim一般模式下移动光标 5.4 vim 一般模式下复制剪切粘贴...
  7. Selenium系列文章汇总
  8. 微软终于屈服和妥协:宣布加入 OpenJDK,贡献构建Java生态
  9. strcpy sprintf memcpy 它们之间的区别
  10. 安卓使用Root权限实现后台模拟全局按键、触屏事件方法(类似按键精灵)
  11. 概率论——几何随机变量
  12. C#数据库编程实战经典
  13. 如何在linux系统开发gd32,对于GD32VF103一些想法
  14. 新会计准则 计算机管理系统,用友ERP供应链管理系统实验教程(新会计准则版)pdf...
  15. Python基础实战之文字游戏——模拟武侠类场景中的两派战斗场面
  16. 基于单片机的通用定时器调度器SmartTimer
  17. 有一个3×4的矩阵,要求编程序求出其中值最大的那个元素的值,以及其所在的行号和列号
  18. 游戏被攻击了怎么办,有没有什么好的解决办法
  19. 双重检查锁与单例模式
  20. 无人驾驶不听指挥,交警该怎么办?

热门文章

  1. 【汇编语言】汇编实验IDE(集成开发环境):RadASM的安装和使用说明
  2. 如何保证消息队列的高可用?透彻分析源码
  3. vue 源码学习(一) 目录结构和构建过程简介
  4. day03 基本数据类型
  5. 恶意软件伪装“正规军”,撕开Booster Cleaner“画皮”下的真相
  6. Quartz2D知识点聚合案例
  7. GUI 快捷键的实现思路
  8. Java 阶段面试 知识点合集 - 我们到底能走多远系列(15)
  9. C# 谈谈Interface和通过Interface传递web页面数据
  10. Lambda表达式的前世今生