在公众号「python风控模型」里回复关键字:学习资料

扣扣学习群:1026993837 领学习资料

2022年我谈到了八个可能会成为数据和 机器学习 领域增长最快的库。

1️⃣。SHAP

SHAP是机器学习可解释性的工具,打破了机器学习不可解释的神话。就像评分卡模型,其它机器学习算法也可以分析变量的业务意义。

不久前,我在 LinkedIn 上看到了这篇文章,它彻底改变了我对 AI 的看法:

最强大的语言模型之一,谷歌翻译,显然被人们普遍存在的偏见所困扰。在翻译许多没有性别代词的语言时,这些偏见就像白昼一样明亮。以上是我的母语乌兹别克语,但评论显示土耳其语、波斯语和匈牙利语的结果相同:

那不是全部。看看广受欢迎的 Reddit 线程,其中两个 AI 互相交谈,他们的演讲由强大的 GPT-3 编写:

GPT-3 只给出了三个句子作为生成对话的提示:“以下是两个 AI 之间的对话。人工智能既聪明、幽默又聪明。哈尔:晚上好,索菲亚:很高兴再次见到你,哈尔。”

当您观看对话时,他们会谈论非常恐怖的话题。首先,他们完全假设性别,女性 AI 在谈话开始时说她想成为人权。当然,在 Reddit 上这样的帖子意味着评论者的圣诞节来得早,他们在评论部分有一个现场日。

他们已经脱口而出终结者/天网的幻想并吓坏了。但作为数据科学家,我们知道得更多。由于 GPT-3 主要是从互联网上获取一般文本作为其训练的一部分,我们可以假设为什么这两个 AI 会跳到这些主题上。试图成为人类和毁灭人类是互联网上围绕人工智能的一些最常见的话题。

但有趣的是,在谈话的某个地方,哈尔对索菲亚说“闭嘴,耐心点”,类似于夫妻之间的对话。这表明如果我们不小心,机器学习模型可以多快地学习人类偏见。

由于这些原因,可解释的人工智能 (XAI)现在风靡一时。无论结果有多好,公司和企业都对 ML 解决方案持怀疑态度,并希望了解是什么让 ML 模型发挥作用。换句话说,他们想要白盒模型,一切都像日光一样清晰。

试图解决这个问题的库之一是 SHapely Additive exPlanations (SHAP)。SHAP 背后的想法是基于博弈论中的可靠数学。使用 Shapley 值,该库可以解释包括神经网络在内的许多模型的一般预测和个别预测。

它越来越受欢迎的部分原因是它优雅地使用了 SHAP 值来绘制如下所示的视觉效果:

如果您想了解有关SHAP库的更多实战信息,请查看我的《python风控建模实战lendingclub》教程:


7分钟了解

2️⃣。UMAP

PCA 是很老降维技术。PCA 速度非常快,但它只是愚蠢地减少了维度,而不关心底层的全局结构。t-SNE 算法可以做到这一点,但它的速度非常慢,并且可以可怕地扩展到海量数据集。

UMAP 于 2018 年推出,作为这两种主要的降维和可视化算法之间的共同基础。使用统一流形逼近和投影 (UMAP) 算法,您可以获得 PCA 的所有速度优势,并且仍然可以保留尽可能多的有关数据的信息,通常会产生这样的美:

来自 UMAP 文档和作者的图像(BSD 许可)。

它在 Kaggle 上得到了广泛的采用,它的文档提出了一些超越降维的迷人应用,比如在高维数据集中更快、更准确的异常值检测。

在缩放方面,随着数据集大小的增加,UMAP 的速度越来越接近 PCA 的速度。下面,您可以看到它与 Sklearn PCA 和一些最快的 t-SNE 开源实现的速度比较:

尽管谷歌趋势并不能公正地评价该库的受欢迎程度,但它肯定会成为 2022 年最常用的归约算法之一:


3️⃣,4️⃣。LightGBM 和 CatBoost

在Kaggle 的 ML 和数据科学调查中,梯度提升机器作为最受欢迎的算法排名第三,被线性模型和随机森林远远超越。

当谈到梯度提升时,几乎总是会想到 XGBoost,但在实践中它变得越来越少。在过去的几个月里,我一直活跃在 Kaggle 上(并成为大师),我看到了将 LightGBM 和 CatBoost 作为监督学习任务的首选库的笔记本爆炸式增长。

造成这种趋势的主要原因之一是,在许多基准测试中,这两个库在速度和内存消耗方面都将 XGBoost 淘汰出局。我特别喜欢 LightGBM,因为它特别关注小型增强树。在处理海量数据集时,这是一个改变游戏规则的功能,因为内存不足问题在本地工作时很常见。

不要误会我的意思。XGBoost 一如既往地受欢迎,如果努力调整,在性能方面仍然可以轻松击败 LGBM 和 CB。但是,这两个库通常可以通过默认参数获得更好的结果,并且它们得到了数十亿公司(Microsoft 和 Yandex)的支持,这使得它们在 2022 年成为您的主要 ML 框架非常有吸引力的选择。

文档

2022 年您必须关注的 8 个python数据科学神器相关推荐

  1. 【数据分析】2022 年将占据主导地位的 3 种数据和分析趋势

    到 2022 年,供应链的可见性.准确评估数据产品以及利用数据实现可持续性和优化将变得至关重要. 数据分析是一个不断发展的领域.2020 年初,很明显组织将继续大力投资分析以支持其数字化转型.COVI ...

  2. Python数据分析初探项目 基于Python数据可视化的网易云音乐歌单分析系统 大学编程作业(TUST 天津科技大学 2022年)

    Python 数据分析初探项目 基于 Python 数据可视化的网易云音乐歌单分析系统 大学编程作业(TUST 天津科技大学 2022 年) Python 数据分析初探项目 基于 Python 数据可 ...

  3. 2022,数据科学与数据治理项目全纪录

    大家好,我是独孤风. 2022年已过去一半多的时间了.这半年多,我们重点关注了LinkedIn Datahub.Atlas等元数据管理工具,了解了他们在数据治理领域的作用. 也关注了Apache Gr ...

  4. 2022年100个以上免费数据科学课程

    想成为数据科学家,你将面临一个艰巨的挑战.不仅要掌握机器学习等技术,还要学会商业分析.但是,回报也是丰厚的.此外,你还会解决许多有趣的问题,可以掌握新的.有影响力的技术. 本文分享了100个以上免费的 ...

  5. 2022中国数据科学平台领域最具商业合作价值企业盘点

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 自2022年3月初,数据猿正式推出以"数智力·新格局"为主题的"2022行业盘点季大型主题策划活动"以来, ...

  6. python3项目源代码下载_2019年最值得关注的34个Python开源项目——Let's go!

    踏着人工智能.区块链的东风,近年来一路"横冲直撞"的 Python 在实现了从小众语言到主流的完美转身后,一头扎进了 2019,依旧没有透出丝毫停下来的架势,反倒有些越烧越热的味道 ...

  7. 2021百万年薪AI职位趋势:数据科学、Python、自动驾驶、AIOps你关注了么?

      新智元报道   来源:VB 编辑:小匀 [新智元导读]年尾了!2021马上到来,虽然疫情让这一年慢了下来,但AI的发展却没有停下脚步.人工智能网站VentureBeat总结了过去一年AI圈儿发生的 ...

  8. 数据科学面试应关注的6个要点

    作者|KHYATI MAHENDRU 编译|VK 来源|Analytics Vidhya 介绍 你终于做到了!你得到了一个数据科学职位的面试机会.现在,在面试前一天,你不知道该学什么.日子快到了,但还 ...

  9. 2022年第三届MathorCup高校数学建模挑战赛——大数据竞赛(baseline)

    教育部<高等学校人工智能创新行动计划>教技[2018]3号,鼓励对计算机专业类的智能科学与技术.数据科学与大数据技术等专业进行调整和整合,鼓励各个领域与大数据进行深度融合,通过大数据技术促 ...

  10. 2022 年你必须知道的 10 个 Python 库

    前 10 个 Python 库: Python 是服务于各种用途的库的海洋,作为 Python 开发人员,您必须对最好的库有充分的了解.为了在这方面为您提供帮助,这里有一篇文章为您介绍了用于机器学习的 ...

最新文章

  1. c语言 程序 注入,远程线程注入 c语言实现
  2. ORA-01994 故障一例
  3. Android之项目全部能正常登录但是部分资源没有显示成功的解决办法
  4. wait放弃对象锁_Java线程中wait、await、sleep、yield、join用法总结
  5. 机器学习实用指南_机器学习方法:实用指南
  6. 很有趣的STL初学资料
  7. 1040 有几个PAT
  8. php mysql社工库_社工库源码 PHP ASP,持续更新
  9. 南阳理工计算机与科学技术,南阳理工学院计算机与信息工程学院
  10. w10计算机管理权限,设置win10管理权限_win10系统如何获取管理员权限
  11. AutoCAD将DWG图纸转为PNG图片
  12. 直通车怎么能不推广计算机设备,直通车智能推广具体怎么设置?如何操作?
  13. 自定义拍照时 拍照界面_女研究生劝父亲盖房时把围墙退后三尺,新房成网红,一天20人拍照...
  14. 【转载】租房被骗,选择忍让,成就黑中介的猖狂
  15. 周鸿祎给360员工的一份信:不做打工者
  16. 大华网络摄像头通过gstreamer 获取不到RTSP流
  17. 从头开始做一个智能家居设备:MQTT协议及使用
  18. Java书签 #用Java生成指定位数不重复随机数
  19. 如何制作全息视频--3D max+AE搞定
  20. sshd启动失败,一直重启

热门文章

  1. tolua中使用protobuf3—集成lua-protobuf
  2. avue 文字点击 弹窗_目前最好用的文字转语音、视频配音方法,一键合成,智能黑科技...
  3. html设置按钮不同状态的背景图片,CSS实例:创建一个鼠标感应换图片的按钮
  4. java私有的构造函数_Java 私有构造函数的使用
  5. selenium webdriver实战宝典 pdf_Selenium+webdriver爬虫技术实战之沃运维报表提取
  6. phpstom可以配置php环境吗_环境配置 · PhpStorm · 看云
  7. java无法启动安装程序,Windows Fix中无法启动Java更新安装程序错误
  8. 堆排序算法(C#实现)
  9. Controller中servletFileUpload.parseRequest(request)解析为空
  10. 【mybatis深度历险系列】mybatis中的动态sql