1.连接MongoDB

连接 MongoDB 我们需要使用 PyMongo 库里面的 MongoClient,一般来说传入 MongoDB 的 IP 及端口即可,第一个参数为地址 host,第二个参数为端口 port,端口如果不传默认是 27017。

import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')

2.指定数据库

import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']

3.指定集合

MongoDB 的每个数据库又包含了许多集合 Collection,也就类似与关系型数据库中的表

import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.students
# collection = db['students']

4.插入数据

在 MongoDB 中,每条数据其实都有一个 _id 属性来唯一标识,如果没有显式指明 _id,MongoDB 会自动产生一个 ObjectId 类型的 _id 属性。insert() 方法会在执行后返回的 _id 值。也可以在插入的时候指定_id的值。

也可以同时插入多条数据,只需要以列表形式传递即可,返回的结果是对应的 _id 的集合。

import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.students
# collection = db['students']# 插入单条数据
student = {'id': '20170101','name': 'Jordan','age': 20,'gender': 'male'
}result = collection.insert_one(student)
print(result)
print(result.inserted_id) # 返回的是InsertOneResult 对象,我们可以调用其 inserted_id 属性获取 _id
"""
运行结果:
<pymongo.results.InsertOneResult object at 0x10d68b558>
5932ab0f15c2606f0c1cf6c5
"""# 插入多条数据
student1 = {'id': '20170101','name': 'Jordan','age': 20,'gender': 'male'
}student2 = {'id': '20170202','name': 'Mike','age': 21,'gender': 'male'
}result = collection.insert_many([student1, student2])
print(result)
print(result.inserted_ids) # insert_many() 方法返回的类型是 InsertManyResult,调用inserted_ids 属性可以获取插入数据的 _id 列表
"""
运行结果:
<pymongo.results.InsertManyResult object at 0x101dea558>
[ObjectId('5932abf415c2607083d3b2ac'), ObjectId('5932abf415c2607083d3b2ad')]"""

5.查询数据

可以利用 find_one() 或 find() 方法进行查询,find_one() 查询得到是单个结果,find() 则返回一个生成器对象。

import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.students
# collection = db['students']

result = collection.find_one({'name': 'Mike'})
print(type(result)) # 查询 name 为 Mike 的数据,它的返回结果是字典类型
print(result) # 多了一个 _id 属性,这就是 MongoDB 在插入的过程中自动添加的
"""
<class 'dict'>
{'_id': ObjectId('5c502697e0b72c0d90eeee22'), 'id': '20170202', 'name': 'Mike', 'age': 21, 'gender': 'male'}
"""# 也可以直接根据 ObjectId 来查询,这里需要使用 bson 库里面的 ObjectId
"""
from bson.objectid import ObjectIdresult = collection.find_one({'_id': ObjectId('593278c115c2602667ec6bae')})
print(result)"""# 多条数据的查询,使用 find() 方法
results = collection.find({'age': 20})
print(results)
for result in results:print(result) # 返回结果是 Cursor 类型,相当于一个生成器,我们需要遍历取到所有的结果,每一个结果都是字典类型# 要查询年龄大于 20 的数据
results = collection.find({'age': {'$gt': 20}}) # 查询的条件键值是一个字典,其键名为比较符号 $gt,意思是大于,键值为 20

符号

含义

示例

$lt

小于

{'age': {'$lt': 20}}

$gt

大于

{'age': {'$gt': 20}}

$lte

小于等于

{'age': {'$lte': 20}}

$gte

大于等于

{'age': {'$gte': 20}}

$ne

不等于

{'age': {'$ne': 20}}

$in

在范围内

{'age': {'$in': [20, 23]}}

$nin

不在范围内

{'age': {'$nin': [20, 23]}}

# 还可以进行正则匹配查询,例如查询名字以 M 开头的学生数据
results = collection.find({'name': {'$regex': '^M.*'}}) # 使用了 $regex 来指定正则匹配,^M.* 代表以 M 开头的正则表达式s

符号

含义

示例

示例含义

$regex

匹配正则

{'name': {'$regex': '^M.*'}}

name 以 M开头

$exists

属性是否存在

{'name': {'$exists': True}}

name 属性存在

$type

类型判断

{'age': {'$type': 'int'}}

age 的类型为 int

$mod

数字模操作

{'age': {'$mod': [5, 0]}}

年龄模 5 余 0

$text

文本查询

{'$text': {'$search': 'Mike'}}

text 类型的属性中包含 Mike 字符串

$where

高级条件查询

{'$where': 'obj.fans_count == obj.follows_count'}

自身粉丝数等于关注数

 

6.统计/计数

import pymongoclient = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.studentscount = collection.find().count() # 统计所有数据条数
print(count)count = collection.find({'age': 20}).count() # 统计符合某个条件的数据
print(count)

7.排序

import pymongoclient = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.studentsresults = collection.find().sort('name', pymongo.ASCENDING) # pymongo.ASCENDING 指定升序,降序排列可以传入 pymongo.DESCENDING
print([result['name'] for result in results])

8.偏移

注意:在数据库数量非常庞大的时候,如千万、亿级别,最好不要使用大的偏移量来查询数据,很可能会导致内存溢出,使用步骤5进行查询

import pymongoclient = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.students# 在某些情况下我们可能想只取某几个元素,在这里可以利用skip() 方法偏移几个位置,比如偏移 2,就忽略前 2 个元素,得到第三个及以后的元素
results = collection.find().sort('name', pymongo.ASCENDING).skip(2)
print([result['name'] for result in results])# 还可以用 limit() 方法指定要取的结果个数
results = collection.find().sort('name', pymongo.ASCENDING).skip(2).limit(2)
print([result['name'] for result in results])

9.更新

import pymongoclient = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.students# update_one和update_many,第一个参数是条件,第二个参数需要使用 $ 类型操作符作为字典的键名

condition = {'name': 'Mike'}
student = collection.find_one(condition)
student['age'] = 26
result = collection.update_one(condition, {'$set': student})
# 返回结果是 UpdateResult 类型,调用 matched_count 和 modified_count 属性分别可以获得匹配的数据条数和影响的数据条数
print(result)
print(result.matched_count, result.modified_count)# 指定查询条件为年龄大于 20,然后更新条件为 {'$inc': {'age': 1}},也就是年龄加 1,执行之后会将第一条符合条件的数据年龄加 1
condition = {'age': {'$gt': 20}}
result = collection.update_one(condition, {'$inc': {'age': 1}})
print(result)
print(result.matched_count, result.modified_count)# 调用 update_many() 方法,则会将所有符合条件的数据都更新
condition = {'age': {'$gt': 20}}
result = collection.update_many(condition, {'$inc': {'age': 1}})
print(result)
print(result.matched_count, result.modified_count)

10.删除

import pymongoclient = pymongo.MongoClient(host='localhost', port=27017)
# client = MongoClient('mongodb://localhost:27017/')
db = client.test
# db = client['test']
collection = db.students# delete_one() 即删除第一条符合条件的数据,delete_many() 即删除所有符合条件的数据
# 返回结果是 DeleteResult 类型,可以调用 deleted_count 属性获取删除的数据条数

result = collection.delete_one({'name': 'Mike'})
print(result)
print(result.deleted_count)
result = collection.delete_many({'age': {'$lt': 25}})
print(result.deleted_count)

11.组合方法

find_one_and_delete() 查找后删除
find_one_and_replace() 查找后替换
find_one_and_update() 查找后更新

还可以对索引进行操作,如 create_index()、create_indexes()、drop_index() 等。

详细用法可以参见官方文档:http://api.mongodb.com/python/current/api/pymongo/collection.html

还有对数据库、集合本身以及其他的一些操作,可以参见官方文档:http://api.mongodb.com/python/current/api/pymongo/

转载于:https://www.cnblogs.com/sanduzxcvbnm/p/10335391.html

爬虫文件存储-2:MongoDB相关推荐

  1. 盲沟低比?不不不,是芒果的笔,今天学一下分布式文件存储数据库MongoDB。

    老样子先上图,上一篇NOSQL有大佬说要把首图的数据库全部学习了,今天特意只上了一张小图,一个就够了! 文章目录 前言 一.MongoDB 历史 二.MongoDB 支持语言 三.MongoDB 与关 ...

  2. 分布式文件存储数据库MongoDB

    MongoDB 简介 (文章转载自乐字节) Mongo 并非芒果(Mango)的意思,而是源于 Humongous(巨大的:庞大的)一词. MongoDB 是一个基于分布式文件存储的 NoSQL 数据 ...

  3. 网络爬虫数据存储MySQL和Mongodb方法汇总

    网络爬虫的数据存储方式只要分两种. 存储在文件中,包括文本文件和 csv 文件 存储在数据库中,包括 MySQL 关系型数据库和 mongoDB 数据库. 毕竟通过爬虫抓取数据不是目的,需要的是将抓取 ...

  4. BigData之MongoDB:MongoDB基于分布式文件存储数据库的简介、下载、案例应用之详细攻略

    BigData之MongoDB:MongoDB基于分布式文件存储数据库的简介.下载.案例应用之详细攻略 目录 MongoDB的简介 1.MongoDB的主要功能特性 2.对MongoDB进行增删改查( ...

  5. MongoDB 一个基于分布式文件存储的数据库

    简介 MongoDB是一个基于分布式文件存储的数据库.由C++语言编写.旨在为WEB应用提供可扩展的高性能数据存储解决方案. 特点 它的特点是高性能.易部署.易使用,存储数据非常方便.主要功能特性有: ...

  6. Python3编写网络爬虫10-数据存储方式三-CSV文件存储

    3.CSV文件存储 CSV 全称 Comma-Separated Values 中文叫做逗号分隔值或者字符分隔值,文件以纯文本形式存储表格数据. 文件是一个字符序列 可以由任意数目的记录组成相当于一个 ...

  7. 分布式文件存储--MongoDB

    MongoDB 是一个基于分布式文件存储的数据库.由 C++ 语言编写.旨在为 WEB 应用提供可扩展的高性能数据存储解决方案. MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系 ...

  8. 【Python爬虫学习笔记6】JSON文件存储

    JSON简介 JSON(全称JavaScript Obejct Notation,JavaScript对象标记),基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言 ...

  9. python爬虫文件代码大全-Python网络爬虫实战项目代码大全(长期更新,欢迎补充)...

    WechatSogou[1]- 微信公众号爬虫.基于搜狗微信搜索的微信公众号爬虫接口,可以扩展成基于搜狗搜索的爬虫,返回结果是列表,每一项均是公众号具体信息字典.[1]: https://github ...

最新文章

  1. 71张图详解IP 地址、IP 路由、分片和重组、三层转发、ARP、ICMP
  2. TCP/IP详解--学习笔记(2)-数据链路层
  3. admininfo.php,admin.php 源代码在线查看 - FTB安装版 v1.3(虚拟形象)FTB安装版 v1.3(虚拟形象) 资源下载 虫虫电子下载站...
  4. c2000 pro 固件更新_一加7Pro系统更新新增屏幕侧滑返回手势
  5. python实战演练_《Python高效开发实战》实战演练——
  6. redis 使用案例
  7. Goscan:功能强大的交互式网络扫描工具
  8. Linux入门之Linux与Windows常见对比
  9. 实验楼Python项目
  10. miui android 版本下载安装,MIUI12.2.2.0稳定版安装包
  11. 药库管理系统登录界面设计
  12. 西门子PLC的常见的通讯方式
  13. 2021金三银四Java面试突击集锦
  14. 道阻且长,行则将至,行而不辍,未来可期
  15. 螺旋传动设计系统lisp_螺旋传动的设计计算.pdf
  16. TECPLOT自定义函数
  17. 清华大学计算机专业考研参考书目
  18. 图像特征之SURF特征匹配
  19. eclipsepython插件_Eclipse安装配置PyDev插件
  20. javascript事件触发器

热门文章

  1. Vue使用html2canvas将Dom转化为图片
  2. 【操作系统笔记】中断和异常
  3. 【java笔记】线程(3):Thread类的常用方法
  4. 递归处理汉诺塔问题(c++/python)
  5. 开源视频质量评价工具: IQA
  6. MediaInfo源代码分析 4:Inform()函数
  7. 虚拟linux无线网卡驱动安装失败,救命1 :Atheros AR5212无线网卡驱动安装失败!!...
  8. java 过载_java – ExecutorService,避免任务队列过载的标准方式
  9. 中国语言文学研究是c吗c,中国语言文学研究杂志
  10. 两个字符串的最长公共子序列长度_算法学习笔记(58): 最长公共子序列