注意:str.join(自0.19.0开始)现在支持行分隔的json:

In [31]: pd.read_json('{"a":1,"b":2}\n{"a":3,"b":4}', lines=True)

Out[31]:

a b

0 1 2

1 3 4

或使用文件/文件路径而不是json字符串:

pd.read_json(json_file, lines=True)

这将取决于您的DataFrames的大小,该大小会更快,但是另一种选择是使用str.join将多行“ JSON”(注意:它不是有效的json)粉碎成有效的json并使用read_json:

In [11]: '[%s]' % ','.join(test.splitlines())

Out[11]: '[{"a":1,"b":2},{"a":3,"b":4}]'

对于这个小例子,它的速度较慢,如果大约100,则更大,这是相似的,可观的收益...

In [21]: %timeit pd.read_json('[%s]' % ','.join(test.splitlines()))

1000 loops, best of 3: 977 µs per loop

In [22]: %timeit l=[ json.loads(l) for l in test.splitlines()]; df = pd.DataFrame(l)

1000 loops, best of 3: 282 µs per loop

In [23]: test_100 = '\n'.join([test] * 100)

In [24]: %timeit pd.read_json('[%s]' % ','.join(test_100.splitlines()))

1000 loops, best of 3: 1.25 ms per loop

In [25]: %timeit l = [json.loads(l) for l in test_100.splitlines()]; df = pd.DataFrame(l)

1000 loops, best of 3: 1.25 ms per loop

In [26]: test_1000 = '\n'.join([test] * 1000)

In [27]: %timeit l = [json.loads(l) for l in test_1000.splitlines()]; df = pd.DataFrame(l)

100 loops, best of 3: 9.78 ms per loop

In [28]: %timeit pd.read_json('[%s]' % ','.join(test_1000.splitlines()))

100 loops, best of 3: 3.36 ms per loop

注意:那时联接速度非常快。

json pandas 内存溢出_python-将多个JSON记录读取到Pandas数据框中相关推荐

  1. python多线程内存溢出_Python内存泄漏和内存溢出的解决方案

    一.内存泄漏 像Java程序一样,虽然Python本身也有垃圾回收的功能,但是同样也会产生内存泄漏的问题. 对于一个用 python 实现的,长期运行的后台服务进程来说,如果内存持续增长,那么很可能是 ...

  2. python 内存溢出_Python之内存泄漏和内存溢出

    一.内存泄漏 像Java程序一样,虽然Python本身也有垃圾回收的功能,但是同样也会产生内存泄漏的问题. 对于一个用 python 实现的,长期运行的后台服务进程来说,如果内存持续增长,那么很可能是 ...

  3. 在pandas数据框中选择多个列

    本文翻译自:Selecting multiple columns in a pandas dataframe I have data in different columns but I don't ...

  4. python 数据框缺失值_Python:处理数据框中的缺失值

    python 数据框缺失值 介绍 (Introduction) In the last article we went through on how to find the missing value ...

  5. Python:在Pandas数据框中查找缺失值

    How to find Missing values in a data frame using Python/Pandas 如何使用Python / Pandas查找数据框中的缺失值 介绍: (In ...

  6. python 内存溢出_python内存溢出

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 这里整理了一次内存泄漏的问题通常我们写python程序的时候也很少关注内存这个问 ...

  7. python更改数据框指定位置的数据_python – 更改数据框中多个loc的最快方法

    我有一个包含100万行的pandas数据帧.我想用另一组值替换列中900,000行的值.有没有for循环(我需要两天才能完成)的快速方法吗? 例如,查看此示例数据框,其中我已将100万行压缩为8行 i ...

  8. json pandas 内存溢出_pandas中的常用函数

    Pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的.Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. 近年随着大数据时代的到来,产生 ...

  9. java的tcp实时接收json格式报文_tcp - 如何使用带有rsocket Java的TcpClientTransport将自定义数据格式转换为JSON - 堆栈内存溢出...

    我有一个Tcp数据提供程序,它使用管道定界符发出数据,该定界符需要转换为JSON,然后存储在NoSQL数据存储区中. 我已使用RSocket中的TcpClientTransport协议连接到提供程序, ...

最新文章

  1. ctypealpha php_php ctype函数中文翻译和示例
  2. [转帖]在SQL SERVER中实现RSA加密算法
  3. easyui复杂表单_EasyUI中实现form表单提交的示例分享
  4. 咸宁书写桂花产业-国情研究·万祥军:特色农业谋定大健康
  5. 大佬都在用的桑基图到底怎么做?告诉你个最简单的方法
  6. day10 in india
  7. 美团在Redis上踩过的一些坑-5.redis cluster遇到的一些问题
  8. python sendto函数返回值_有返回值的函数amp;闭包(python)
  9. 马上就要到了的即时通讯
  10. Linux发展历史图
  11. SQL Server compute [by]
  12. U盘修复后文件丢失怎么办?U盘数据丢失怎么恢复
  13. AI今年最大进展就是毫无进展?2019年AutoML、GAN将扛大旗
  14. logback之三:输出日志到文件(滚动)
  15. 在 VMware vSphere 中构建 Kubernetes 存储环境
  16. lqc_centos批量自动装机
  17. 语义分割网络系列1——FCN
  18. 知乎热议:那些35岁失业的中年人,后来都怎么样了?
  19. 记录:Mac软件体验
  20. 从费斯汀格法则看,永远不要对自己做的20件事

热门文章

  1. npm使用入门(package.json)
  2. 联通电子渠道的差异化思维
  3. 30_栈的定义.swf
  4. Android 搜索框 search dialog 和 search widget
  5. 隐藏Nginx和PHP版本号
  6. __getattribute__()、__getattr__()、__setattr__()、__delattr__()
  7. Androidの多线程之更新ui(AsyncTask)
  8. C++ string类的方法
  9. 从Java视角理解系统结构(一)CPU上下文切换
  10. 使用 acme.sh 获取网站证书并配置https访问