在实际的机器学习开发中,开发者通常需要对数据集进行大量的耗时费力的预处理过程,以适应各种不同标准的机器学习模型(例如神经网络)。这些预处理过程根据待解问题的不同和原始数据的组织形式而各不相同,包括不同格式之间的转换,分词、词干提取和形成词汇,以及包括归一化在内的各种数值操作等等。

实际上,数据的预处理已经成为了机器学习开发中无法回避的一个难题。

针对这一难题,谷歌于 22 日通过开发者博客正式发布了一个基于 TensorFlow 的全新功能组件 —— tf.Transform。它允许用户在大规模数据处理框架中定义预处理流水线(preprocessing pipelines),同时用户还可以将这些流水线导出,并将其作为 TensorFlow 计算图(TensorFlow graph)的一部分。用户可以通过组合 Python 函数来定义该流水线,然后在 Apache Beam 框架下通过 tf.Transform 执行。(注:Apache Beam 是一个用于大规模的、高效的、分布式的数据处理的开源框架)目前,基于 Apache Beam 框架的流水线可以在 Google Cloud Dataflow 平台上运行,并计划在未来支持更多的平台(可能包括 Apache Apex,Apache Flink 和 Apache Spark 等)。值得一提的是,通过 tf.Transform 导出的 TensorFlow 计算图还可以在模型预测阶段将这种数据预处理步骤复用(例如,通过 Tensorflow Serving 提供模型时)。

另一方面,开发者最终在产品形态运行机器学习模型时通常还会遇到“训练服务偏差”(training-serving skew),即由于服务中处理的数据与模型训练中使用的数据存在一定的差异,从而造成的预测质量下降。

面对这一问题,此次新发布的 tf.Transform 组件还能保证预处理过程的零偏差,即保证服务中的数据预处理和训练中的数据预处理执行完全相同的操作,特别是当模型训练和服务运行在不同的框架时,例如训练在 TensorFlow,服务在 Apache Beam 的情况。

除了便于数据的预处理之外,tf.Transform 还允许用户计算其数据集的统计概要(summary statistics)。对于每个机器学习项目的开发者而言,深刻理解其数据都非常重要,因为任何对底层数据做出的错误假设都可能会产生一些微妙的错误。通过更简单和高效地计算数据的统计概要,tf.Transform 可以帮助开发者更好地检查他们关于原始数据和预处理数据的假设。

最后,谷歌在博客中表示,对于 tf.Transform 的发布他们感到非常激动,他们真诚地希望 tf.Transform 可以帮助 TensorFlow 开发者们更方便地预处理数据,以及更好地理解这些数据。

开源地址:https://github.com/tensorflow/transform

谷歌发布全新TensorFlow库“tf.Transform” 简化机器学习数据预处理过程相关推荐

  1. Tensorflow nmt的数据预处理过程

    tensorflow nmt的数据预处理过程 在tensorflow/nmt项目中,训练数据和推断数据的输入使用了新的Dataset API,应该是tensorflow 1.2之后引入的API,方便数 ...

  2. 谷歌发布企业版TensorFlow,或提供收费服务?

    当地时间 10 月 30 日,谷歌发布其最新企业版 TensorFlow--TensorFlow Enterprise. 谷歌云 AI 平台产品管理总监 Craig Wiley 在加州举行的 O'Re ...

  3. 谷歌发布全新设计语言:跟苹果Swift天壤之别

    今日凌晨,谷歌(微博)在I/O大会上发布了全新设计语言Material Design.在20多天前的WWDC上,苹果也发布了全新编程语言Swift.两家科技巨头公司,在一年一度的开发者大会上,都发布了 ...

  4. ios 修复 内存泄露_Semtech发布全新LoRa射频收发器;丝芙兰用户数据遭泄露 | 一周物联网新闻大视野...

    本文来源:网络综合整理 传感器和条码 搜索 1.麻省理工学院推出新型传感器 提高败血症诊断效率 2019年8月2日消息 近日,麻省理工学院的研究团队开发了一种新型传感器,能够更快.更简易并且更便宜地诊 ...

  5. vs安卓开发发布_向华为的鸿蒙看齐,谷歌发布全新系统,手机电脑通用

    大家都知道,现在智能手机的系统分为两个大阵营,不是苹果,就是安卓.其实在这两家之外,还有一些小众的手机系统,当然不是指大部分国产手机厂商深度适配的这种UI系统,而是真正手机系统.但是这些小众手机系统的 ...

  6. 谷歌发布TensorFlow 1.4与TensorFlow Lattice:利用先验知识提升模型准确度 搜狐科技 10-12 15:29 选自:Google Research Blog 参与:李泽南、

    谷歌发布TensorFlow 1.4与TensorFlow Lattice:利用先验知识提升模型准确度 昨天,谷歌发布了 TensorFlow 1.4.0 先行版,将 tf.data 等功能加入了 A ...

  7. tensorflow 版本列表_最新|谷歌发布TensorFlow 1.3.0版本,都更新了哪些内容?

    我们所有预构建的二进制文档已用 cuDNN6 构建.我们预期在 TensorFlow 1.4 中用 cuDNN7 import tensorflow 运行地更快 向 GCS 文件系统中增加了一个文件缓 ...

  8. AI 一分钟 | 谷歌发布72量子比特处理器,或将为机器学习应用提供加速;百度已经发起对景驰撤诉,但不会对王劲撤诉

    整理 | Leo 一分钟AI 查理·芒格评人工智能商业化:我靠自己的常识已经生活得很好了,从未想过进入人工智能领域 谷歌发布72量子比特处理器,或将为机器学习应用提供加速 百度成立"智能生活 ...

  9. 谷歌千元级TPU芯片发布,TensorFlow更换Logo推出2.0最新版

    栗子 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 今天凌晨,谷歌一年一度的TensorFlow开发者大会在加州举行.明明应该是一场软件盛会,却被生生开出了硬件发布会的味道. 谷歌在会 ...

最新文章

  1. 由一个异常开始思考springmvc参数解析
  2. python send 案例_python socket编程入门(编写server实例)+send 与sendall的区别与使用方法...
  3. jquery:validate的例子{转载}
  4. Kafka2.0生产者客户端使用
  5. android模拟器无法拍照,为什么dafault相机无法在android模拟器中工作?
  6. Loj #149. 01 分数规划(01分数规划模板题)
  7. 【转】tftp命令详解
  8. 净网大师最好用旧版本_云顶之弈手把手教你吃分系列:决斗大师
  9. 数字化转型时代,企业管理者应该如何培养数据化管理思维?
  10. linux无盘工作站互不干扰,Linux环境下无盘工作站的架设和实现二
  11. 北京环球影城上线王者荣耀英雄主题活动
  12. 【kafka】Kafka 集群配置SASL+ACL
  13. 蓝牙耳机续航比较好的推荐,音质最好的耳机盘点
  14. android 解析rss,在Android中解析RSS源
  15. 网站地图Sitemap怎么制作
  16. 好玩的Python彩蛋
  17. php开发桌面应用程序_使用PHP开发跨平台桌面应用程序的3种方法
  18. Linux Python 导航目录
  19. excel 统计函数笔记
  20. Java SE 易错题

热门文章

  1. memcached 相关
  2. SOCKET CLOSE_WAIT 搜集
  3. [转贴]制作windows 2003自动安装盘-集成补丁/Raid及硬件驱动
  4. CodeForces - 892E Envy(可撤销并查集)
  5. Linux服务-Samba文件服务器部署
  6. mysql timezone utc_在与mysql的配置当中一定要注意的一点是设置serverTimezone=UTC
  7. UNIX 动态库和静态库
  8. 【玩转cocos2d-x之三十六】Flappy Bird大集结
  9. WebRTC Audio Encoder/Decoder Factory 的实现
  10. pycharm debug 断点调试