数据科学项目

In this article, I would like to showcase what might be my simplest data science project ever.

在本文中,我想展示一下有史以来最简单的数据科学项目

I have spent hours training a much more complex models in the past, and struggled to find the right parameters to create machine learning pipelines.

过去,我花费了数小时来训练更复杂的模型,并努力寻找合适的参数来创建机器学习管道。

Despite its simplicity, if I could only display one project on my resume, it would be this one.

尽管它很简单,但如果我只能在简历中显示一个项目,那就是这个。

Let me explain why.

让我解释一下原因。

包装是否确定礼物的价值? (Does the package determine the value of the gift?)

As a child, I would always get excited about holidays because I could get gifts. (Just humour me here, I do have a point, I promise). My aunt presented me with this beautiful dress, perhaps more beautiful than any other gift I received that day.

小时候,我总是会对假期感到兴奋,因为我可以得到礼物。 ( 我保证我在这里很幽默,我有一点要保证)。 我的姨妈给了我这件漂亮的衣服,也许比那天我收到的任何其他礼物都要漂亮。

Here’s the thing though — I didn’t even want to open it. She had shabbily wrapped it with newspaper, and the gift seemed to have lost half its value before I even saw what was inside.

不过,这是东西–我什至不想打开它。 她用报纸把它包裹起来,礼物似乎失去了一半的价值,我什至没有看到里面的东西。

To answer the question above, no. The package by no means determines the value of the gift.

要回答上述问题, 。 包装决不会决定礼物的价值。

However, it can greatly influence your expectation of what’s inside and can change the way you perceive it.

但是,它会极大地影响您对内部内容的期望,并会改变您对其的感知方式。

The machine learning models you spend weeks training are great. Demonstrate that. Don’t let them die in your Jupyter Notebook.

您花费数周训练的机器学习模型很棒。 证明这一点。 不要让它们在Jupyter Notebook中死亡。

Recruiters have hundreds of resumes to read. It is almost impossible for them to read through all your code on GitHub and understand all your projects.

招聘人员有数百份简历可供阅读。 他们几乎不可能阅读GitHub上的所有代码并理解所有项目。

To stand out, you need to do something slightly different. Create an interface they can interact with. Maybe a live dashboard they can play around with.

要脱颖而出,您需要做些不同的事情。 创建一个可以与之交互的界面。 也许他们可以玩的实时仪表板。

Even if it's not the best dashboard or interface out there, it will create interest, because you created something they can actually use.

即使不是最佳的仪表板或界面,它也会引起人们的兴趣,因为您创建了它们可以实际使用的东西。

I wanted to do exactly that, which is why I came up with this portfolio project. In the next few sections, I will explain exactly what I did without going too much into the technical detail.

我想做到这一点,这就是为什么我提出这个投资组合项目的原因。 在接下来的几节中,我将准确解释我所做的事情,而无需过多地讨论技术细节。

目标 (Aim)

I aimed to display skills in the following areas:

我旨在展示以下领域的技能:

  • Data Collection数据采集
  • Data Wrangling数据整理
  • Data Visualization数据可视化
  • Machine Learning机器学习
  • Web DevelopmentWeb开发

In order to do so, I created the following components in my project:

为此,我在项目中创建了以下组件:

  • Front-end interface前端界面
  • Movie Dashboard电影仪表板
  • Movie Recommender System电影推荐系统

I will explain and demonstrate each component in detail.

我将详细解释和演示每个组件。

Note: If you don’t want to read through the entire article and just want to take a look at the final product, just scroll down and take a look at the ‘Links’ section.

注意:如果您不想通读整篇文章,只想看一下最终产品,只需向下滚动并看一下“ 链接 ”部分。

前端接口 (Front-End Interface)

In the past, I would create projects and let the code sit in my GitHub repository. I write an occasional article explaining the project on Medium.

过去,我将创建项目并将代码放在我的GitHub存储库中。 我偶尔写一篇文章,解释Medium上的项目。

Here, I took a different approach.

在这里,我采取了另一种方法。

I created a web-page and explained the different components in my project. I wrote briefly about how users can interact with the systems I created, and put up links to my code and Medium article.

我创建了一个网页,并解释了项目中的不同组件。 我简短地写了关于用户如何与我创建的系统进行交互的文章,并提供了指向我的代码和中型文章的链接。

The entire project can be understood and accessed through just one page, which makes it so much easier for people to engage with.

整个项目仅需一页即可理解和访问,这使人们更容易进行互动。

You can check the site out here — View on laptop or PC for better UI experience.

您可以在此处 查看 该站点 — 在便携式计算机或PC上查看以获得更好的UI体验。

电影仪表板 (Movie Dashboard)

Next, I created a movie dashboard with Tableau.

接下来,我使用Tableau创建了一个电影仪表板。

The steps involved:

涉及的步骤:

数据采集 (Data Collection)

I had to collect data from a variety of different places. I also wanted to visualize Bechdel scores of these movies (a measure of female representation in Hollywood), so I used an API to get that data.

我不得不从许多不同的地方收集数据。 我还想可视化这些电影的Bechdel分数( 好莱坞中女性代表的度量 ),因此我使用API​​来获取该数据。

数据整理 (Data Wrangling)

I cleaned the data and merged the datasets together. Once I was done, I could finally visualize it!

我清理了数据并将数据集合并在一起。 完成后,我终于可以将其可视化!

数据可视化 (Data Visualization)

Surprisingly, this took up a huge portion of my time compared to other parts of this project.

令人惊讶的是,与该项目的其他部分相比,这花费了我大量的时间。

I spent two days trying to create a visually appealing dashboard.

我花了两天的时间来创建一个吸引人的仪表板。

I created one with a Python Dash app. I wasn’t too satisfied with the layout, and tried creating a Shiny web app in R instead.

我用Python Dash应用程序创建了一个。 我对布局不太满意,而是尝试在R中创建一个Shiny Web应用程序。

It turned out better than my Dash app, and I loved the functionality. However, I simply didn’t find the design appealing.

事实证明,它比我的Dash应用程序好,我喜欢它的功能。 但是,我只是觉得设计没有吸引力。

Finally, I decided to use Tableau. This only took me about an hour to create. If you want to get started with Tableau, you can read this tutorial I created.

最后,我决定使用Tableau。 这只花了我大约一个小时的时间。 如果要开始使用Tableau,可以阅读我创建的本教程 。

You can view my dashboard here — View on laptop or PC for better UI experience.

您可以在此处查看我的仪表板- 在笔记本电脑或PC上查看以获得更好的UI体验

推荐系统 (Recommender System)

Finally, machine learning!

最后,机器学习!

I created a simple recommendation system with the same data I used for the dashboard and deployed it with a Dash app.

我使用与仪表板相同的数据创建了一个简单的推荐系统,并通过Dash应用程序进行了部署。

Just enter a movie name, and it uses the back-end recommendation system to generate movie suggestions for you.

只需输入电影名称,它就会使用后端推荐系统为您生成电影建议。

Actually, this recommendation system was created when I was just starting to learn machine learning.

实际上,这个推荐系统是在我刚开始学习机器学习时创建的。

I found the code in my Jupyter Notebook, and decided to clean it up a bit to create this simple application.

我在Jupyter Notebook中找到了代码,并决定对其进行一些清理以创建此简单应用程序。

You can take a look at the recommendation system here — View on laptop or PC for better UI experience.

您可以在这里 查看推荐系统- 在笔记本电脑或PC上查看以获得更好的UI体验

That’s it!

而已!

链接 (Links)

  • Front-End Interface

    前端接口

  • Movie Dashboard

    电影仪表板

  • Recommender System

    推荐系统

  • Code (I apologize since the codes are pretty messy, I will clean them and re-upload soon.)

    代码 ( 我很抱歉,因为代码太乱了,我将清理它们并尽快重新上传。 )

I hope you enjoyed this article and found the tips above helpful. Jupyter Notebooks are great, but don’t let your projects just sit there.

希望您喜欢这篇文章,并发现以上提示对您有所帮助。 Jupyter Notebooks很棒,但不要让您的项目只坐在那儿。

Use your creativity to create something other people can interact with.

利用您的创造力创造其他人可以与之互动的东西。

I’ve seen some incredible projects on GitHub with only one star. On the other hand, I’ve also seen some really simple projects gain a lot of attention just because of how it was presented.

我在GitHub上仅看到一颗星星就看到了一些令人难以置信的项目。 另一方面,我也看到一些非常简单的项目因其呈现方式而引起了很多关注。

Most importantly though, create projects you like to work on and do what you feel is enjoyable!

不过,最重要的是,创建您喜欢的项目并做自己认为愉快的事情!

翻译自: https://towardsdatascience.com/a-complete-data-science-portfolio-project-ebbced35ea84

数据科学项目


http://www.taodudu.cc/news/show-997349.html

相关文章:

  • uni-app清理缓存数据_数据清理-从哪里开始?
  • bigquery_如何在BigQuery中进行文本相似性搜索和文档聚类
  • vlookup match_INDEX-MATCH — VLOOKUP功能的升级
  • flask redis_在Flask应用程序中将Redis队列用于异步任务
  • 前馈神经网络中的前馈_前馈神经网络在基于趋势的交易中的有效性(1)
  • hadoop将消亡_数据科学家:适应还是消亡!
  • 数据科学领域有哪些技术_领域知识在数据科学中到底有多重要?
  • 初创公司怎么做销售数据分析_为什么您的初创企业需要数据科学来解决这一危机...
  • r软件时间序列分析论文_高度比较的时间序列分析-一篇论文评论
  • selenium抓取_使用Selenium的网络抓取电子商务网站
  • 裁判打分_内在的裁判偏见
  • 从Jupyter Notebook切换到脚本的5个理由
  • ip登录打印机怎么打印_不要打印,登录。
  • 机器学习模型 非线性模型_调试机器学习模型的终极指南
  • 您的第一个简单的机器学习项目
  • 鸽子为什么喜欢盘旋_如何为鸽子回避系统设置数据收集
  • 追求卓越追求完美规范学习_追求新的黄金比例
  • 周末想找个地方敲代码_观看我们的代码游戏,全周末直播
  • javascript 开发_25个新JavaScript开发人员的免费资源
  • 感谢您的提问_感谢您的反馈,我们正在改进的5种方法
  • 堆叠自编码器中的微调解释_25种深刻漫画中的编码解释
  • Free Code Camp现在有本地组
  • 递归javascript_JavaScript中的递归
  • 判断一个指针有没有free_Free Code Camp的每个人现在都有一个档案袋
  • 使您的Java代码闻起来很新鲜
  • Stack Overflow 2016年对50,000名开发人员进行的调查得出的见解
  • 编程程序的名称要记住吗_学习编程时要记住的5件事
  • 如何在开源社区贡献代码_如何在15分钟内从浏览器获得您的第一个开源贡献
  • utf-8转换gbk代码_将代码转换为现金-如何以Web开发人员的身份赚钱并讲述故事。...
  • 有没有编码的知识图谱_没有人告诉您关于学习编码的知识-以及为什么如此困难...

数据科学项目_完整的数据科学组合项目相关推荐

  1. 怎么评价两组数据是否接近_接近组数据(组间)

    怎么评价两组数据是否接近 接近组数据(组间) (Approaching group data (between-group)) A typical situation regarding solvin ...

  2. SwiftUI 精品项目之完整MOOC幕课iOS项目 含服务端 轮播欢迎页面(教程含源码)

    实战需求 SwiftUI 精品项目之完整MOOC幕课iOS项目 (教程含源码) 本文价值与收获 看完本文后,您将能够作出下面的界面 看完本文您将掌握的技能 自动轮播 个性化注册界面 个人信息界面 带f ...

  3. 大数据数据量估算_如何估算数据科学项目的数据收集成本

    大数据数据量估算 (Notes: All opinions are my own) (注:所有观点均为我自己) 介绍 (Introduction) Data collection is the ini ...

  4. 大数据ab 测试_在真实数据上进行AB测试应用程序

    大数据ab 测试 Hello Everyone! 大家好! I am back with another article about Data Science. In this article, I ...

  5. 数据质量提升_合作提高数据质量

    数据质量提升 Author Vlad Rișcuția is joined for this article by co-authors Wayne Yim and Ayyappan Balasubr ...

  6. linux 科学计算器_探索Linux作为科学计算平台

    linux 科学计算器 科学界的Linux Linux在科学界中占有举足轻重的地位也就不足为奇了. 从高性能计算集群到可视化软件的解决方案比比皆是. 甚至还有一个完整的基于Red Hat Enterp ...

  7. 大数据就业方向_如今大数据行业就业前景如何?

    未来的时代将不是IT时代,而是DT的时代."阿里巴巴创始人马云不止在一个场合重复讲到.他这里所指的DT就是Data Technology数据科技.从2008在维克托·迈尔-舍恩伯格和肯尼斯· ...

  8. envi栅格TIF数据进行分割_常用水文气象数据读取及其可视化(二进制、HDF5、NetCDF)以GLDAS、MODIS、GSMaP为例...

    " 地学.水文.气象领域的自然科学数据通常以netcdf.hdf.二进制等方式存储,比如温度.降水.蒸发数据等:学会这些数据格式的读取和可视化是进行地学统计分析计算的关键,python提供了 ...

  9. python大数据培训机构_学大数据开发需要学习python吗

    大数据现在互联网火热的一个名词,而和大数据关键词最紧密的相信就是Java和python了,在一年以前,Java大数据可能是很多培训机构的宣传标语.而到了2018年,python大数据则成为了潮流,无论 ...

最新文章

  1. 动态规划:连续子数组的最大和
  2. 160个Crackme014
  3. mysql.net开发驱动_mysql数据库.net开发驱动(mysql connector net )
  4. 前端面试题目汇总摘录(JS 基础篇)
  5. session机制和cookie机制
  6. LeetCode 1409. 查询带键的排列(map模拟)
  7. php文件访问不到数据,PHP 5.x同步文件访问(无数据库)
  8. Android ArryaList 笔记
  9. eclipse默认项目部署路径(.metadata\.plugins\org.eclipse.wst.server.core\tmp0\wtpwebapps) 改为自己的tomcat真实路径方法
  10. 【机器人控制架构】控制系统架构【控制流程图、控制算法】
  11. EXCEL_20211117_filter平替
  12. 纳米结构的仿真和分析
  13. 搜搜/soso、有道、搜狗/sogou、雅虎/Yahoo、url 参数分析
  14. ESL第八章 模型推断和平均 【参数】自助法/得分函数/信息矩阵/观测信息/费舍尔信息量、贝叶斯方法/无信息先验、高斯混合/GEM/MM算法、吉布斯、Bagging、委员会、Stacking、随机搜索
  15. 新新人类蒙奇奇的天翼3G精彩生活
  16. 谷歌seo快速排名优化方法?谷歌seo排名技巧
  17. android应用案例之Listview
  18. 每次开机启动都会创建图标和修改锁定任务栏浏览器的主页
  19. 原生js日期的格式化
  20. 《advanced fpga designed》

热门文章

  1. [十二省联考2019]皮配
  2. 128.Two Sum
  3. NGINX原理 之 SLAB分配机制(转)
  4. 基于JavaConfig配置的Spring MVC的构建
  5. mysql INFORMATION_SCHEMA COLUMNS 解释
  6. .NET 请求、事件 处理流程
  7. 使用WEUI uploader上传图片
  8. Toast源码深度分析
  9. ELK学习记录三 :elasticsearch、logstash及kibana的安装与配置(windows)
  10. 彻底搞懂 JS 中 this 机制