100G 数据如何先随机读取1%?今天番茄加速就来给大家介绍下。

  对于动辄就几十或几百个 G 的数据,在读取的这么大数据的时候,我们有没有办法随机选取一小部分数据,然后读入内存,快速了解数据和开展 EDA ?

  使用 Pandas 的 skiprows 和 概率知识,就能做到。解释具体怎么做,如下所示,读取某 100 G 大小的 big_data.csv 数据

  使用 skiprows 参数,

  x > 0 确保首行读入,

  np.random.rand() > 0.01 表示 99% 的数据都会被随机过滤掉

  言外之意,只有全部数据 1% 才有机会选入内存中。

  import pandas as pd

  import numpy as np

  df = pd.read_csv("big_data.csv",

  skiprows =

  lambda x: x>0and np.random.rand() > 0.01)

  print("The shape of the df is {}.

  It has been reduced 100 times!".format(df.shape))

  使用这种方法,读取的数据量迅速缩减到原来的 1% ,对于迅速展开数据分析有一定的帮助。

java如何读取rfid的数据_100G 数据如何先随机读取1%?相关推荐

  1. C语言文件读取错误怎么解决,c语言中文件随机读取出错如何解决

    在一个链表中找出相同的结点的算法与之相似,不过对于文件来说有点烦. 因为在C语言中对流式文件进行操作时,打开文件后,有一个读写位置指针,记录的是读写时在文件中的位置,其初始状态与打开方式有关.r.r+ ...

  2. php随机抽取txt一行_PHP随机读取TXT文件某行内容

    正文 最近在开发一个类似"一言"的一句话输出平台,数据方面我没有用到 MySQL 也没用到 sqlite,因为我打算用TXT格式的文本来储存数据,理由很简单,TXT写出写入的速度都 ...

  3. 树莓派 rfid_树莓派工控机做Modbus RTU主站读取RFID数据

    KUNBUS Revpi Core 3是工业级的树莓派,可作为小型的工业PC用,外观十分小巧,操作简单,DIN导轨模块化安装,RevPi core 3能与RevPi IO连接,能实时对这些IO的控制. ...

  4. 使用Java读取 “Python写入redis” 的数据踩坑记录

    https://my.oschina.net/u/2338224/blog/3061507 使用Java读取 "Python写入redis" 的数据踩坑记录 https://seg ...

  5. java获取xlsx某列数据_Java读取Excel指定列的数据详细教程和注意事项

    本文使用jxl.jar工具类库实现读取Excel中指定列的数据. jxl.jar是通过java操作excel表格的工具类库,是由java语言开发而成的.这套API是纯Java的,并不依赖Windows ...

  6. java读取excel数据的方法是_java怎么读取excel文件里的数据

    展开全部 下面是一个简单的读取例子,如果报"java.io.IOException: Invalid header signature; read 4503608217567241, exp ...

  7. JAVA导入大量数据的Excel,如何分块读取并避免内存溢出?

    当需要将大量数据导入到Java应用程序中时,经常会遇到内存不足的问题.在这种情况下,将数据分成块并一次读取一个块是一种可行的解决方案.本篇文章将介绍如何使用Java分块读取Excel数据,并导入到数据 ...

  8. java读取hadoop数据_从Hadoop URL中读取数据_hadoop 数据读取_hadoop读取文件

    3.5  Java接口 在本小节,我们要深入探索Hadoop的Filesystem类:与Hadoop的文件系统交互的API. 虽然我们主要关注的是HDFS的实现DistributedFileSyste ...

  9. java实现读取excel表格中的数据,兼容xls和xlsx

    前言 利用 java 实现读取 excel 表格中的数据,兼容 xls 与 xlsx 格式,不用额外做区分,写不同的实现方法. 引入的依赖包 <dependency><groupId ...

最新文章

  1. drx功能开启后_简单实用!小米手机中这些新功能真香
  2. java jpanel添加背景_java – 将背景图像添加到JPanel
  3. 4月书讯:迟来的告白
  4. 腾讯与Github的魔幻会面背后的故事…
  5. vsCode ext install 不工作
  6. secureCRT及secureFX安装注册和secureFX中出现中文乱码的处理方式
  7. Python 函数知识
  8. QT中如何实现Thread与GUI的主线程连通
  9. Redis 基本数据类型
  10. 如何通俗易懂地让女朋友明白什么是语言模型?
  11. latex \textsuperscript{\dagger} 报错
  12. MATLAB狼群算法求解车间生产调度问题代码实例(含甘特图)
  13. MISRA C指导指南解读系列1(MISRA C是什么)
  14. ⭐️UI自动化控制微信发送或转发图片消息✨
  15. 在你的时区里,一切准时-很美的英文诗
  16. SAS Planet+ArcGIS
  17. html文字波浪,javascript实现飘动波浪文字特效 - YangJunwei
  18. COGS461. [网络流24题] 餐巾
  19. private、fileprivate、public、open
  20. 山东大学单片机原理与应用实验 4.1 按键声光报警实验

热门文章

  1. vooc充电原理_Reno3系列最快56分钟充满,VOOC闪充技术再次行业领先
  2. C++/Cli中事件对象处理函数的添加与删除
  3. 利用Sql Server2005发送邮件
  4. DELPHI 指针使用用的一篇好文 收藏
  5. 使用互斥元保护共享数据-lock_guard
  6. STM32半主机模式
  7. windows Docker Desktop 怎么改变最大内存
  8. UDP socket编程中使用connect
  9. linux iptables 如何设置允许几个 ip访问,Linux防火墙iptables限制几个特定ip才能访问服务器。...
  10. IPFS: NAT traversal(NAT穿越)