python将mongodb导出_使用python从mongodb将数据导出到csv

2024-05-01 05:56:43

所以。。。问题是csv编写器不理解mongo返回的“子字典”的概念。

如果我理解正确，当你查询Mongo时，你会得到这样一本字典：{

"_id": "a hex ID that correspond with the record that contains several answers",

"answers": [ ... a list with a bunch of dicts in it... ]

}

因此，当csv.DictWriter试图编写它时，它只编写了一个字典(最上面的)。它不知道(也不关心)answers是一个包含字典的列表，这些字典的值也需要写在列中(使用诸如answers.order这样的点符号访问字典中的字段只被Mongo理解，而不是csv编写器)

我知道你应该做的是“浏览”答案列表，并从列表中的每个记录(每个字典)中创建一个字典。一旦您有了一个“platten”字典列表，您就可以传递这些字典并将它们写入您的csv文件中：cursor = client.stack_overflow.stack_039.find(

{}, {'_id': 1, 'answers.order': 1, 'answers.text': 1, 'answers.answerId': 1})

# Step 1: Create the list of dictionaries (one dictionary per entry in the `answers` list)

flattened_records = []

for answers_record in cursor:

answers_record_id = answers_record['_id']

for answer_record in answers_record['answers']:

flattened_record = {

'_id': answers_record_id,

'answers.order': answer_record['order'],

'answers.text': answer_record['text'],

'answers.answerId': answer_record['answerId']

}

flattened_records.append(flattened_record)

# Step 2: Iterate through the list of flattened records and write them to the csv file

with open('stack_039.csv', 'w') as outfile:

fields = ['_id', 'answers.order', 'answers.text', 'answers.answerId']

write = csv.DictWriter(outfile, fieldnames=fields)

write.writeheader()

for flattened_record in flattened_records:

write.writerow(flattened_record)

复数的用法。answers_record与answer_record不同

创建如下文件：$ cat ./stack_039.csv

_id,answers.order,answers.text,answers.answerId

580f9aa82de54705a2520833,0,{u'en': u'Yes'},527d65de7563dd0fb98fa28c

580f9aa82de54705a2520833,1,{u'en': u'No'},527d65de7563dd0fb98fa28b

编辑：

您的查询(生成cursor = db.questions.find ({},{'_id':1, 'answers.order':1, 'answers.text':1, 'answers.answerId':1})的查询)将返回questions集合中的所有条目。如果此集合非常大，则可能需要将cursor用作iterator。

正如您可能已经意识到的，上面代码中的第一个for循环将所有记录放在一个列表中(即flattened_records列表)。您可以通过遍历cursor来执行延迟加载(而不是加载内存中的所有项，取回一个项，对它执行某些操作，获取下一个项，对它执行某些操作…)。

速度稍慢，但内存效率更高。cursor = client.stack_overflow.stack_039.find(

{}, {'_id': 1, 'answers.order': 1, 'answers.text': 1, 'answers.answerId': 1})

with open('stack_039.csv', 'w') as outfile:

fields = ['_id', 'answers.order', 'answers.text', 'answers.answerId']

write = csv.DictWriter(outfile, fieldnames=fields)

write.writeheader()

for answers_record in cursor: # Here we are using 'cursor' as an iterator

answers_record_id = answers_record['_id']

for answer_record in answers_record['answers']:

flattened_record = {

'_id': answers_record_id,

'answers.order': answer_record['order'],

'answers.text': answer_record['text'],

'answers.answerId': answer_record['answerId']

}

write.writerow(flattened_record)

它将生成与上面所示相同的.csv文件。

python将mongodb导出_使用python从mongodb将数据导出到csv相关推荐

python中级项目下载_中级Python复习：教程，项目思想和技巧
python中级项目下载本文旨在向Python初学者和开发人员介绍Python中使用的一些关键概念,这些概念一开始就没有讲授. 如果您可以创建二次方根求解器,则可以理解本文. 这些是我一天之内没有学 ...
python大牛关东升_《Python从小白到大牛》第4章 Python语法基础
本章主要为大家介绍Python的一些语法,其中包括标识符.关键字.常量.变量.表达式.语句.注释.模块和包等内容. 标识符和关键字任何一种计算机语言都离不开标识符和关键字,因此下面将详细介绍Pyth ...
python之禅中文_《Python之禅》中对于Python编程过程中的一些建议
<Python之禅>中对于Python编程过程中的一些建议来源:中文源码网浏览: 次日期:2018年9月2日 [下载文档: <Python之禅>中对于Pyt ...
python读取第二行_使用Python操作Excel（二）：读取数据表
上一节我们提到,使用openpyxl可以方便的对数据表进行操作,例如:抽象Excel数据并存入数据库将数据库数据导出到Excel 给一个已存在的数据表追加信息我们还介绍了一些Excel的基本术语, ...
python画交互式地图_使用Python构建交互式地图-入门指南
python画交互式地图 Welcome to The Beginner's Guide to Building Interactive Maps in Python 欢迎使用Python构建交互式地 ...
用python做透视表_用Python实现数据的透视表的方法
用Python实现数据的透视表的方法来源:中文源码网浏览: 次日期:2019年11月5日 [下载文档: 用Python实现数据的透视表的方法.txt ] (友情提示:右键点上行tx ...
python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据
前言本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中思路观察虎牙网站后确认 ...
python常用模块教程_盘点Python常用的模块和包
模块 1.定义计算机在开发过程中,代码越写越多,也就越难以维护,所以为了编写可维护的代码,我们会把函数进行分组,放在不同的文件里.在python里,一个.py文件就是一个模块. 2.优点: 提高代码 ...
python出现的意义_[转]Python中下划线以及命名空间的意义
Python 用下划线作为变量前缀和后缀指定特殊变量/方法. 主要存在四种情形 1. 1. object # public 2. __object__ # special, python system ...
python pandas 读取数据库_数据分析-pandas从数据库读取数据
数据分析-pandas从数据库读取数据使用pandas读取数据到DataFrame,对于只是数据分析来说,重点是读取数据,读取数据过程越简单越好,并不需要写得很复杂显得自己很厉害的样子.最好就是代码 ...

最新文章

热门文章