杨超越微数据

As data science enthusiasts know, there’s a lot more to excelling in the field than just its technical aspects. Data professionals need a wide range of skills, extending well beyond the technical aspects of data manipulation and analysis.

正如数据科学爱好者所知道的,该领域的杰出表现不仅仅是其技术方面。 数据专业人员需要广泛的技能,远远超出了数据处理和分析的技术范围。

This week’s episode of the Alter Everything podcast showcases Carlene Jones, data and analytics consultant, and Nynne Haagensen, a data enthusiast who worked with Carlene. Their conversation reinforces that people skills, communication abilities and business savvy are all critical to success in data science and analytics.

本周的 “ Alter Everything”播客的一集将展示数据和分析顾问Carlene Jones以及与Carlene合作的数据爱好者Nynne Haagensen。 他们的对话进一步证明,人们的技能,沟通能力和业务头脑对于数据科学和分析的成功至关重要。

What are all those skills? To explore online conversations around this skill set, I decided to gather and analyze some data, naturally, inspired by this fantastic topic modeling trilogy (part 3 is coming soon!). This seemed like a fun opportunity to apply topic modeling with Alteryx Designer to what folks have discussed out there on the interwebz about the data science skill set. (Topic Modeling is part of the Alteryx Intelligence Suite, which includes some new text mining tools.)

这些技能是什么? 为了探索围绕该技能集的在线对话,我决定收集和分析一些数据,自然是受到这个奇妙的主题 建模三部曲的启发(第3部分即将推出!)。 这似乎是一个有趣的机会,可以将使用Alteryx Designer进行主题建模应用于人们在互联网上有关数据科学技能集的讨论。 ( 主题建模是Alteryx Intelligence Suite的一部分 ,其中包括一些新的文本挖掘工具。)

收集意见 (Gathering Opinions)

I built a workflow in Designer that scraped 64 articles from the data science site KDnuggets tagged “skills” and cleaned up the text. I also used Text Pre-processing to quickly prep the remaining text before sending it into the Topic Modeling and Word Cloud tools. The word cloud below gives you a preview of some of the prominent ideas, but topic modeling lets us dig a little deeper.

我在Designer中构建了一个工作流,该工作流从数据科学网站KDnuggets标记了“技能”的64篇文章中抓取并清理了文本。 我还使用文本预处理来快速准备剩余的文本,然后再将其发送到主题建模和词云工具中。 下面的“云”一词为您提供了一些重要思想的预览,但是主题建模使我们可以更深入地研究。

I asked the Topic Modeling tool to identify three dominant topics in the text of these articles. You should definitely read all the details on how this process works, but in a nutshell: This is an unsupervised approach, meaning that I’m not specifying what I want the model to find in advance, but rather letting it identify on its own the key ideas in the text of the articles. This tool assumes that each chunk of text I feed it is a mixture of those three different topics, since I asked for three. It figures out how those topics are represented in each chunk based on the probability that certain words occur together. It doesn’t give a name to the topics it finds, though; it needs us to figure out what its groupings of words mean.

我要求主题建模工具在这些文章的文本中确定三个主要主题。 您绝对应该阅读有关此过程如何工作的所有详细信息 ,但总而言之 :这是一种无监督的方法,这意味着我并不是在指定我希望模型预先找到的内容,而是让它自己识别模型。文章正文中的关键思想。 该工具假设我输入的每个文本块都是这三个主题的混合体,因为我要了三个主题。 它根据某些单词一起出现的可能性,弄清楚了这些主题在每个块中是如何表示的。 但是,它没有为找到的主题起名字。 它需要我们弄清楚其词组的含义。

技术技能及更多 (Technical Skills and More)

The topic model that results from this analysis is open to interpretation, but here’s what I see. Topic 1 looks to describe the role of the data analyst or data scientist within an organization, with some technical terms mentioned (Python, SQL, Hadoop). However, it also includes concepts like “value,” “market” and “demand” that could reflect the business expertise a skilled data professional brings to the organization. Some of the chunks of original text that scored highly for the presence of Topic 1 include:

通过这种分析得出的主题模型可以接受解释,但这就是我所看到的。 主题1旨在描述组织中数据分析师或数据科学家的角色,并提及一些技术术语(Python,SQL,Hadoop)。 但是,它也包含诸如“价值”,“市场”和“需求”之类的概念,这些概念可能反映出熟练的数据专业人员带给组织的业务专业知识。 因主题1的存在而获得高分的一些原始文本包括:

  • “… a data scientist doesn’t just possess technical skills, they also have domain expertise”“……数据科学家不仅拥有技术技能,而且还具有领域专业知识”
  • “Knowing the basic principles of data science and machine learning is still required, but knowing how to apply them to your problem is even more valuable”“仍然需要了解数据科学和机器学习的基本原理,但是知道如何将其应用于您的问题就更有价值了”
  • “Remember, my goal wasn’t to invent a new machine learning algorithm; it was to demonstrate to a client the potential machine learning had or didn’t have for their business”“请记住,我的目标不是发明新的机器学习算法;而是 旨在向客户证明其业务可能具有或不具有潜在的机器学习能力。”

Topic 2 has “learning” as its most relevant term and “machine” in second place, so a quick conclusion would be that Topic 2 reflects the prominence of machine learning skills for data science. However, a closer review suggests that maybe “learning” could also be interpreted in another way. Some of the chunks of text that scored highly for Topic 2 include:

主题2以“学习”为其最相关的术语,而“机器”则排在第二位,因此可以快速得出结论,主题2反映了数据科学中机器学习技能的突出地位。 但是,仔细研究表明,也许“学习”也可以用另一种方式来解释。 在主题2上得分很高的一些文本块包括:

  • “Apart from classroom learning, you can practice what you learned in the classroom by building an app, starting a blog, or exploring data analysis to enable you to learn more”“除了课堂学习之外,您还可以通过构建应用程序,创建博客或探索数据分析来练习在课堂上学到的东西,以使您学到更多”
  • “Communication problems are harder than technical problems”“通信问题比技术问题难”
  • “If you’re stuck on a problem, sitting and staring at code may solve it or may not. Instead talk it out in language with a teammate”“如果您遇到问题,坐下来凝视代码可能会解决问题,也可能无法解决。 而是与队友用语言交流”

Some of the other terms included in this topic are “question,” “understand,” “team,” “approach” and “offer.” This topic seems to have a theme of ongoing learning and skill development for the data professional.

本主题中包含的其他一些术语是“问题”,“理解”,“团队”,“方法”和“报价”。 这个主题似乎是数据专业人员不断学习和发展技能的主题。

Finally, Topic 3 looks like it represents the intersection of technical skills and problem-solving, with terms “problem,” “solve,” “think,” “model,” and “code” showing up as highly relevant. “Math” also appears here, as do “research” and “concept,” suggesting some of the more specific intellectual skills useful in the data fields.

最后,主题3似乎代表了技术技能与解决问题的交集,术语“问题”,“解决”,“思考”,“模型”和“代码”显示为高度相关。 “数学”也出现在这里,“研究”和“概念”也出现在这里,表明在数据领域有用的一些更具体的智力技能。

  • “Machine learning can seem magical. And in some cases it is. But in the cases it’s not, it’s important to acknowledge it.”“机器学习似乎很神奇。 在某些情况下是这样。 但是在某些情况下,必须承认这一点很重要。”
  • “There are too many data points for a human to make sense of it. It is a textbook case of death by information overload”“对于人类来说,有太多的数据点无法理解。 这是一本教科书,因信息超载而死亡”
  • “Communication skills” and “data visualization”“沟通技巧”和“数据可视化”
  • “Spend time thinking about the products of the company, how your job impacts the core of the business, and a few ideas of how you would do your job to solve an important problem”“花时间思考公司的产品,您的工作如何影响业务核心以及关于如何解决重要问题的一些想法”
  • “It’s perfectly fine if you’re overwhelmed by the skills needed (So am I!)”“如果您对所需的技能不知所措(我也是!),那绝对很好”

分析的人文环境 (The Human Context for Analysis)

Yes, it is a lengthy list of skills indeed! This quick analysis suggests that in discussions of data science skills, there is a recurring emphasis not just on technical skills, but on the capabilities that put data analyses into human and business contexts. The best model or analysis doesn’t mean much without humans empowered to figure out the right problem-solving strategy, the questions to ask, the methods to use and the interpretation of their results.

是的,确实是一长串的技能! 这种快速分析表明,在讨论数据科学技能时,经常强调的不仅是技术技能,而且还强调将数据分析纳入人员和业务环境的能力。 没有人被授权找出正确的问题解决策略,提出的问题,使用的方法以及对结果的解释,最好的模型或分析并没有多大意义。

Learn more about how Carlene and Nynne view the skills needed for a data-driven company culture and professional success in this week’s Alter Everything episode.

在本周的“ Alter Everything”一集中,详细了解Carlene和Nynne如何看待数据驱动的公司文化和专业成功所需的技能。

Originally published on the Alteryx Community.

最初发表在 Alteryx社区

翻译自: https://towardsdatascience.com/sources-agree-data-science-skills-go-beyond-data-4cd9057960c4

杨超越微数据


http://www.taodudu.cc/news/show-863410.html

相关文章:

  • 统计概率分布_概率统计中的重要分布
  • 人口预测和阻尼-增长模型_使用分类模型预测利率-第1部分
  • 基于kb的问答系统_1KB以下基于表的Q学习
  • 图论为什么这么难_图论是什么,为什么要关心?
  • 使用RNN和TensorFlow创建自己的Harry Potter短故事
  • bitnami如何使用_使用Bitnami获取完全配置的Apache Airflow Docker开发堆栈
  • cox风险回归模型参数估计_信用风险管理:分类模型和超参数调整
  • 支持向量机 回归分析_支持向量机和回归分析
  • ai/ml_您本周应阅读的有趣的AI / ML文章(8月15日)
  • chime-4 lstm_CHIME-6挑战赛回顾
  • 文本文件加密和解密_解密文本见解和相关业务用例
  • 有关糖尿病模型建立的论文_预测糖尿病结果的模型比较
  • chi-squared检验_每位数据科学家都必须具备Chi-S方检验统计量:客户流失中的案例研究
  • 深度学习:在图像上找到手势_使用深度学习的人类情绪和手势检测器:第2部分
  • 爆破登录测试网页_预测危险的地震爆破第一部分:EDA,特征工程和针对不平衡数据集的列车测试拆分
  • 概率论在数据挖掘_为什么概率论在数据科学中很重要
  • 集合计数 二项式反演_对计数数据使用负二项式
  • 使用TorchElastic训练DeepSpeech
  • 神经网络架构搜索_神经网络架构
  • raspberry pi_通过串行蓝牙从Raspberry Pi传感器单元发送数据
  • 问答机器人接口python_设计用于机器学习工程的Python接口
  • k均值算法 二分k均值算法_如何获得K均值算法面试问题
  • 支持向量机概念图解_支持向量机:基本概念
  • 如何设置Jupiter Notebook服务器并从任何地方访问它(Windows 10)
  • 无监督学习 k-means_监督学习-它意味着什么?
  • logistic 回归_具有Logistic回归的优秀初学者项目
  • 脉冲多普勒雷达_是人类还是动物? 多普勒脉冲雷达和神经网络的目标分类
  • pandas内置绘图_使用Pandas内置功能探索数据集
  • sim卡rfm_信用卡客户的RFM集群
  • 需求分析与建模最佳实践_社交媒体和主题建模:如何在实践中分析帖子

杨超越微数据_资料来源同意:数据科学技能超越数据相关推荐

  1. 爬动漫网站数据_通过这三种动漫爱上数据科学和技术

    爬动漫网站数据 Yes, it might seem weird to mention anime, data science, and technology in the same breath. ...

  2. sql 12天内的数据_想要在12周内成为数据科学家吗?

    sql 12天内的数据 重点 (Top highlight) I see many ads that claim to make you a data scientist in 12 weeks. T ...

  3. python爬取所有数据_入门用Python进行Web爬取数据:为数据科学项目提取数据的有效方法...

    作者|LAKSHAY ARORA 编译|Flin 来源|analyticsvidhya 总览 Web抓取是一种从网站提取数据的高效方法(取决于网站的规定) 了解如何使用流行的BeautifulSoup ...

  4. 如何用python爬取数据_入门用Python进行Web爬取数据:为数据科学项目提取数据的有效方法...

    作者|LAKSHAY ARORA 编译|Flin 来源|analyticsvidhya 总览 Web抓取是一种从网站提取数据的高效方法(取决于网站的规定) 了解如何使用流行的BeautifulSoup ...

  5. 查询时拼接两列数据_如何用VBA代码查询两列数据差异?

    爱就一个字,我只说一次-- 北京市第三交通委提醒您:代码千万条,注释第一条,命名不规范,修订两行泪-- 咳,给大家拜晚年了,再提前祝大家元宵快乐-- 我们今天和大家分享的内容是如何用VBA代码查询两列 ...

  6. mysql如何快速插入一千万条数据_如何快速安全的插入千万条数据?

    最近有个需求解析一个订单文件,并且说明文件可达到千万条数据,每条数据大概在20个字段左右,每个字段使用逗号分隔,需要尽量在半小时内入库. 思路 1.估算文件大小 因为告诉文件有千万条,同时每条记录大概 ...

  7. asp后台调用产品数据_后台产品经理,需掌握这些数据交互知识

    人们每天都在接收信息和发送信息,在传递信息的过程中,明白对方要表达的意思.数据也是如此,在系统交换数据的过程中,就伴随着数据交互.本篇文章将为大家具体分析前端和后台的数据交互与协议. 本文所说的&qu ...

  8. mysql在视图中增加新数据_怎么向Mysql视图中增加新数据

    本篇文章主要给大家介绍mysql数据表中视图是怎么新增数据的. mysql视图的相关知识在我们之前的文章中,都已经给大家详细介绍过了,相信大家对视图肯定有了更深一步的了解. 从前面文章的介绍中,大家应 ...

  9. 怎样用excel剔除异常数据_(如何剔除excel表格中重复的数据)excel表格怎么剔除异常数据...

    请问 Excel 如何剔除与平均数偏差较大的数字再求平均数?谢谢. 把问题作为内容(邮件主定要包含"excel",本人以此据辨别非垃圾邮件,以免误删).excel样件(请特别注意: ...

最新文章

  1. python是不是特别垃圾-Python 这语言真是混乱和原始
  2. Docker知识6:实战!将一个tensorflow项目制作成Docker image
  3. 《应用时间序列分析:R软件陪同》——2.3 随机游走
  4. java程序设计 第2版 唐大仕_《Java程序设计(第2版)》唐大仕 源代码
  5. nginx 源码学习笔记(十八)—— ngx_add_inherited_sockets 继承的sockets
  6. php将一个日期字符串转换成举例来说当前的,PHP将一个日期字符串转换成举例来说当前的天数...
  7. yandex alice语音开发
  8. 前端工程师考核总结_web前端年度工作总结
  9. lvgl chart
  10. 剑指 Offer(C++版本)系列:剑指 Offer 10- I 斐波那契数列
  11. android 游戏遥感,Android2.2+游戏摇杆 MOPS魅影T800评测
  12. vue 单页面背景图片设置
  13. python提取时长2s以内的单词音频的韵母基频,以及单词词长信息
  14. OKK集中生产加工中心(MC)的主要部品
  15. 基于tensorflow+CNN的报警信息短文本分类 代码理解(纯小白)
  16. 一个坑firewall-cmd: error: unrecognized arguments
  17. 中国式父母计算机科学家攻略,中国式家长攻略大全:全结局解锁技巧汇总[多图]...
  18. 参加AWS技术峰会的收获与思考
  19. hdu-6034-Balala Power!
  20. 未来计算机的四大新技术是什么,汪成为院士:未来计算机技术发展四大动力

热门文章

  1. linux - python
  2. SQL优化常用方法31
  3. script与scriptreplay用法
  4. 基于ZooKeeper的Dubbo注册中心【转】
  5. Python二维码生成库qrcode示例
  6. Linux 小知识翻译 - 「端口和端口号」
  7. VMware vSphere 4.1虚拟化学习手册6:Distributed vSwitch分布式交换机
  8. 防病毒插件更新失败!?
  9. win10电脑黑屏只有鼠标箭头_电脑黑屏后屏幕只有鼠标怎么办呢?
  10. 按关键字截取linux日志,linux awk截取数据,如何根据第二部分数据的关键字‘aaaaa’获取整串数据...