一、文件存储

1.文件打开方式

文件打开方式	说明
r	以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式
rb	以二进制只读方式打开一个文件。文件指针将会放在文件的开头
r+	以读写方式打开一个文件。文件指针将会放在文件的开头
rb+	以二进制读写方式打开一个文件。文件指针将会放在文件的开头
w	以写入方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
wb	以二进制写入方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
w+	以读写方式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
wb+	以二进制读写格式打开一个文件。如果该文件已存在，则将其覆盖。如果该文件不存在，则创建新文件
a	以追加方式打开一个文件。如果该文件已存在，文件指针将会放在文件结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，则创建新文件来写入
ab	以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾。也就是说，新的内容将会被写入到已有内容之后。如果该文件不存在，则创建新文件来写入
a+	以读写方式打开一个文件。如果该文件已存在，文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在，则创建新文件来读写
ab+	以二进制追加方式打开一个文件。如果该文件已存在，则文件指针将会放在文件结尾。如果该文件不存在，则创建新文件用于读写

2.txt文本存储

with open('explore.txt', 'a', encoding='utf-8') as file:file.write('\n'.join([question, author, answer]))file.write('\n' + '=' * 50 + '\n')

3.json文件存储

调用库的loads()方法将JSON文本字符串转为JSON对象，可以通过dumps()方法将JSON对象转为文本字符串

- 读取json

import jsonstr = '''
[{"name": "Bob","gender": "male","birthday": "1992-10-18"
}, {"name": "Selina","gender": "female","birthday": "1995-10-18"
}]
'''
print(type(str))
data = json.loads(str)
print(data)
print(type(data))

- 输出json

import jsondata = [{'name': 'Bob','gender': 'male','birthday': '1992-10-18'
}]
with open('data.json', 'w') as file:file.write(json.dumps(data))

4.csv文件存储

- 写入

首先，打开data.csv文件，然后指定打开的模式为w（即写入），获得文件句柄，随后调用csv库的writer()方法初始化写入对象，传入该句柄，然后调用writerow()方法传入每行的数据即可完成写入。writerows()方法同时写入多行

import csvwith open('data.csv', 'w') as csvfile:writer = csv.writer(csvfile, delimiter=' ')writer.writerow(['id', 'name', 'age'])writer.writerow(['10001', 'Mike', 20])writer.writerow(['10002', 'Bob', 22])writer.writerow(['10003', 'Jordan', 21])

- 读取

import csvwith open('data.csv', 'r', encoding='utf-8') as csvfile:reader = csv.reader(csvfile)for row in reader:print(row)

二、MySQL关系型数据库存储

1.MySQL连接

import pymysql
# connect()方法声明一个MySQL连接对象
db = pymysql.connect(host='localhost',user='root', password='123456', port=3306)
# cursor()方法获得MySQL的操作游标，利用游标来执行SQL语句
cursor = db.cursor()
# 创建students数据表
sql = 'CREATE TABLE IF NOT EXISTS students (id VARCHAR(255) NOT NULL, name VARCHAR(255) NOT NULL, age INT NOT NULL, PRIMARY KEY (id))'
cursor.execute(sql)

2.插入

import pymysqlid = '20120001'
user = 'Bob'
age = 20db = pymysql.connect(host='localhost', user='root', password='123456', port=3306, db='spiders')
cursor = db.cursor()
sql = 'INSERT INTO students(id, name, age) values(%s, %s, %s)'
try:cursor.execute(sql, (id, user, age))db.commit()
except:db.rollback()
db.close()
==================================================================================================data = {'id': '20120001','name': 'Bob','age': 20
}
table = 'students'
keys = ', '.join(data.keys())
values = ', '.join(['%s'] * len(data))
sql = 'INSERT INTO {table}({keys}) VALUES ({values})'.format(table=table, keys=keys, values=values)
try:if cursor.execute(sql, tuple(data.values())):print('Successful')db.commit()
except:print('Failed')db.rollback()
db.close()

3.更新

sql = 'UPDATE students SET age = %s WHERE name = %s'
try:cursor.execute(sql, (25, 'Bob'))db.commit()
except:db.rollback()
db.close()
===========================================================================================================================
data = {'id': '20120001','name': 'Bob','age': 21
}table = 'students'
keys = ', '.join(data.keys())
values = ', '.join(['%s'] * len(data))sql = 'INSERT INTO {table}({keys}) VALUES ({values}) ON DUPLICATE KEY UPDATE'.format(table=table, keys=keys, values=values)
update = ','.join([" {key} = %s".format(key=key) for key in data])
sql += update
try:if cursor.execute(sql, tuple(data.values())*2):print('Successful')db.commit()
except:print('Failed')db.rollback()
db.close()

4.删除

table = 'students'
condition = 'age > 20'sql = 'DELETE FROM  {table} WHERE {condition}'.format(table=table, condition=condition)
try:cursor.execute(sql)db.commit()
except:db.rollback()db.close()

5.查询

sql = 'SELECT * FROM students WHERE age >= 20'try:cursor.execute(sql)print('Count:', cursor.rowcount)one = cursor.fetchone()print('One:', one)results = cursor.fetchall()print('Results:', results)print('Results Type:', type(results))for row in results:print(row)
except:print('Error')

三、MongoDB非关系型数据库存储

1.MongoDB连接

import pymongo
# 连接MongoDB
client = pymongo.MongoClient(host='localhost', port=27017)
# 指定数据库
db = client.test
# 指定集合(类似于数据表)
collection = db.students

2.插入

student = {'id': '20170101','name': 'Jordan','age': 20,'gender': 'male'
}student1 = {'id': '20170101','name': 'Jordan','age': 20,'gender': 'male'
}student2 = {'id': '20170202','name': 'Mike','age': 21,'gender': 'male'
}result = collection.insert(student)
result = collection.insert([student1, student2])
result = collection.insert_many([student1, student2])
print(result)

3.查询

# find_one()查询得到的是单个结果，find()则返回一个生成器对象。
result = collection.find_one({'name': 'Mike'})
result = collection.find_all({'name': 'Mike'})

- 常用符号

符号类型	符号	含义	示例
比较符号	$lt	小于	{'age': {'$lt': 20}}
	$gt	大于	{'age': {'$gt': 20}}
	$lte	小于等于	{'age': {'$lte': 20}}
	$gte	大于等于	{'age': {'$gte': 20}}
	$ne	不等于	{'age': {'$ne': 20}}
	$in	在范围内	{'age': {'$in': [20, 23]}}
	$nin	不在范围内	{'age': {'$nin': [20, 23]}}
功能符号	$regex	匹配正则表达式，name以M开头	{'name': {'$regex': '^M.*'}}
	$exists	属性是否存在，name属性存在	{'name': {'$exists': True}}
	$type	类型判断，age的类型为int	{'age': {'$type': 'int'}}
	$mod	数字模操作，年龄模5余0	{'age': {'$mod': [5, 0]}}
	$text	文本查询，text类型的属性中包含Mike字符串	{'$text': {'$search': 'Mike'}}
	$where	高级条件查询，自身粉丝数等于关注数	{'$where': 'obj.fans_count == obj.follows_count'}

4.更新

condition = {'name': 'Kevin'}
student = collection.find_one(condition)
student['age'] = 25
result = collection.update(condition, student)
print(result)# update_many()方法，则会将所有符合条件的数据都更新
# update_one()方法，则会将单个符合条件的数据都更新

5.删除

# remove()将符合条件的所有数据删除
result = collection.remove({'name': 'Kevin'})
print(result)
# delete_one()删除第一条符合条件的数据
result = collection.delete_one({'name': 'Kevin'})
print(result)
print(result.deleted_count)
# delete_many()即删除所有符合条件的数据
result = collection.delete_many({'age': {'$lt': 25}})
print(result.deleted_count)
# deleted_count属性获取删除的数据条数

四、Redis非关系型数据库存储

1.Redis连接

from redis import StrictRedisredis = StrictRedis(host='localhost', port=6379, db=0, password='foobared')
redis.set('name', 'Bob')
print(redis.get('name'))

2.键操作

方法	作用	参数说明
exists(name)	判断一个键是否存在	`name`：键名
delete(name)	删除一个键	`name`：键名
type(name)	判断键类型	`name`：键名
keys(pattern)	获取所有符合规则的键	`pattern`：匹配规则
randomkey()	获取随机的一个键
rename(src, dst)	重命名键	`src`：原键名；`dst`：新键名
dbsize()	获取当前数据库中键的数目
expire(name, time)	设定键的过期时间，单位为秒	`name`：键名；`time`：秒数
ttl(name)	获取键的过期时间，单位为秒，-1表示永久不过期	`name`：键名
move(name, db)	将键移动到其他数据库	`name`：键名；`db`：数据库代号
flushdb()	删除当前选择数据库中的所有键
flushall()	删除所有数据库中的所有键

3.字符串操作

方法	作用	参数说明
set(name, value)	给数据库中键为`name`的`string`赋予值`value`	`name`: 键名；`value`: 值
get(name)	返回数据库中键为`name`的`string`的`value`	`name`：键名
getset(name, value)	给数据库中键为`name`的`string`赋予值`value`并返回上次的`value`	`name`：键名；`value`：新值
mget(keys, *args)	返回多个键对应的`value`	`keys`：键的列表
setnx(name, value)	如果不存在这个键值对，则更新`value`，否则不变	`name`：键名
setex(name, time, value)	设置可以对应的值为`string`类型的`value`，并指定此键值对应的有效期	`name`: 键名；`time`: 有效期； `value`：值
setrange(name, offset, value)	设置指定键的`value`值的子字符串	`name`：键名；`offset`：偏移量；`value`：值
mset(mapping)	批量赋值	`mapping`：字典
msetnx(mapping)	键均不存在时才批量赋值	`mapping`：字典
incr(name, amount=1)	键为`name`的`value`增值操作，默认为1，键不存在则被创建并设为`amount`	`name`：键名；`amount`：增长的值
decr(name, amount=1)	键为`name`的`value`减值操作，默认为1，键不存在则被创建并将`value`设置为`-amount`	`name`：键名； `amount`：减少的值
append(key, value)	键为`name`的`string`的值附加`value`	`key`：键名
substr(name, start, end=-1)	返回键为`name`的`string`的子串	`name`：键名；`start`：起始索引；`end`：终止索引，默认为-1，表示截取到末尾
getrange(key, start, end)	获取键的`value`值从`start`到`end`的子字符串	`key`：键名；`start`：起始索引；`end`：终止索引

4.列表操作

方法	作用	参数说明
rpush(name, *values)	在键为`name`的列表末尾添加值为`value`的元素，可以传多个	`name`：键名；`values`：值
lpush(name, *values)	在键为`name`的列表头添加值为`value`的元素，可以传多个	`name`：键名；`values`：值
llen(name)	返回键为`name`的列表的长度	`name`：键名
lrange(name, start, end)	返回键为`name`的列表中`start`至`end`之间的元素	`name`：键名；`start`：起始索引；`end`：终止索引
ltrim(name, start, end)	截取键为`name`的列表，保留索引为`start`到`end`的内容	`name`：键名；`start`：起始索引；`end`：终止索引
lindex(name, index)	返回键为`name`的列表中`index`位置的元素	`name`：键名；`index`：索引
lset(name, index, value)	给键为`name`的列表中`index`位置的元素赋值，越界则报错	`name`：键名；`index`：索引位置；`value`：值
lrem(name, count, value)	删除`count`个键的列表中值为`value`的元素	`name`：键名；`count`：删除个数；`value`：值
lpop(name)	返回并删除键为`name`的列表中的首元素	`name`：键名
rpop(name)	返回并删除键为`name`的列表中的尾元素	`name`：键名
blpop(keys, timeout=0)	返回并删除名称在`keys`中的`list`中的首个元素，如果列表为空，则会一直阻塞等待	`keys`：键列表；`timeout`：超时等待时间，0为一直等待
brpop(keys, timeout=0)	返回并删除键为`name`的列表中的尾元素，如果`list`为空，则会一直阻塞等待	`keys`：键列表；`timeout`：超时等待时间，0为一直等待
rpoplpush(src, dst)	返回并删除名称为`src`的列表的尾元素，并将该元素添加到名称为`dst`的列表头部	`src`：源列表的键；`dst`：目标列表的key

5.集合操作

方法	作用	参数说明
sadd(name, *values)	向键为name的集合中添加元素	name：键名；values：值，可为多个
srem(name, *values)	从键为name的集合中删除元素	name：键名；values：值，可为多个
spop(name)	随机返回并删除键为name的集合中的一个元素	name：键名
smove(src, dst, value)	从src对应的集合中移除元素并将其添加到dst对应的集合中	src：源集合；dst：目标集合；value：元素值
scard(name)	返回键为name的集合的元素个数	name：键名
sismember(name, value)	测试member是否是键为name的集合的元素	name：键值
sinter(keys, *args)	返回所有给定键的集合的交集	keys：键列表
sinterstore(dest, keys, *args)	求交集并将交集保存到dest的集合	dest：结果集合；keys：键列表
sunion(keys, *args)	返回所有给定键的集合的并集	keys：键列表
sunionstore(dest, keys, *args)	求并集并将并集保存到dest的集合	dest：结果集合；keys：键列表
sdiff(keys, *args)	返回所有给定键的集合的差集	keys：键列表
sdiffstore(dest, keys, *args)	求差集并将差集保存到dest集合	dest：结果集合；keys：键列表
smembers(name)	返回键为name的集合的所有元素	name：键名
srandmember(name)	随机返回键为name的集合中的一个元素，但不删除元素	name：键值

6.有序集合操作

方法	作用	参数说明
zadd(name, args, *kwargs)	向键为name的zset中添加元素member，score用于排序。如果该元素存在，则更新其顺序	name：键名；args：可变参数
zrem(name, *values)	删除键为name的zset中的元素	name：键名；values：元素
zincrby(name, value, amount=1)	如果在键为name的zset中已经存在元素value，则将该元素的score增加amount；否则向该集合中添加该元素，其score的值为amount	name：key名；value：元素；amount：增长的score值
zrank(name, value)	返回键为name的zset中元素的排名，按score从小到大排序，即名次	name：键名；value：元素值
zrevrank(name, value)	返回键为name的zset中元素的倒数排名（按score从大到小排序），即名次	name：键名；value：元素值
zrevrange(name, start, end, withscores=False)	返回键为name的zset（按score从大到小排序）中index从start到end的所有元素	name：键值；start：开始索引；end：结束索引；withscores：是否带score
zrangebyscore(name, min, max, start=None, num=None, withscores=False)	返回键为name的zset中score在给定区间的元素	name：键名；min：最低score；max：最高score；start：起始索引；num：个数；withscores：是否带score
zcount(name, min, max)	返回键为name的zset中score在给定区间的数量	name：键名；min：最低score；max：最高score
zcard(name)	返回键为name的zset的元素个数	name：键名
zremrangebyrank(name, min, max)	删除键为name的zset中排名在给定区间的元素	name：键名；min：最低位次；max：最高位次
zremrangebyscore(name, min, max)	删除键为name的zset中score在给定区间的元素	name：键名；min：最低score；max：最高score

7.散列操作

方法	作用	参数说明
hset(name, key, value)	向键为name的散列表中添加映射	name：键名；key：映射键名；value：映射键值
hsetnx(name, key, value)	如果映射键名不存在，则向键为name的散列表中添加映射	name：键名；key：映射键名；value：映射键值
hget(name, key)	返回键为name的散列表中key对应的值	name：键名；key：映射键名
hmget(name, keys, *args)	返回键为name的散列表中各个键对应的值	name：键名；keys：映射键名列表
hmset(name, mapping)	向键为name的散列表中批量添加映射	name：键名；mapping：映射字典
hincrby(name, key, amount=1)	将键为name的散列表中映射的值增加amount	name：键名；key：映射键名；amount：增长量
hexists(name, key)	键为name的散列表中是否存在键名为键的映射	name：键名；key：映射键名
hdel(name, *keys)	在键为name的散列表中，删除键名为键的映射	name：键名；keys：映射键名
hlen(name)	从键为name的散列表中获取映射个数	name：键名
hkeys(name)	从键为name的散列表中获取所有映射键名	name：键名
hvals(name)	从键为name的散列表中获取所有映射键值	name：键名
hgetall(name)	从键为name的散列表中获取所有映射键值对	name：键名

8.RedisDump

RedisDump提供了两个可执行命令：redis-dump用于导出数据，redis-load用于导入数据。

转载于:https://www.cnblogs.com/Iceredtea/p/11094753.html

数据之路 - Python爬虫 - 数据存储相关推荐

数据之路 - Python爬虫 - PySpider框架
1.PySpider基本功能提供方便易用的WebUI系统,可视化地编写和调试爬虫. 提供爬取进度监控. 爬取结果查看.爬虫项目管理等功能. 支持多种后端数据库,如MySQL. MongoDB. Re ...
数据之路 - Python爬虫 - BeautifulSoup库
一.BeautifulSoup介绍 Beautiful Soup就是Python的一个HTML或XML的解析库,可以用它来方便地从网页中提取数据.Beautiful Soup自动将输入文档转换为Uni ...
Python 爬虫数据写入csv文件中文乱码解决以及天眼查爬虫数据写入csv
python爬虫数据写入csv文件中文乱码,用'utf-8'在pycharm中打开文件没有问题,但是用excel打开却出现了问题,以下为解决方法. (最近在练习爬虫,这个博文是对自己学习的记录和分享, ...
建站四部曲之Python爬虫+数据准备篇(selenium)
本系列分为四篇: 建站四部曲之后端接口篇(SpringBoot+上线) 建站四部曲之Python数据爬虫篇(selenium) 建站四部曲之前端显示篇(React+上线) 建站四部曲之移动端篇(And ...
python爬取网页表格数据匹配,python爬虫——数据爬取和具体解析
标签:pattern div mat txt 保存关于 json result with open 关于正则表达式的更多用法,可参考链接:https://blog.c ...
python爬虫数据解析总结
python爬虫数据解析总结目录 python爬虫数据解析总结 1.概述 2.Xpath解析html数据 2.1.基本语法 1.查询语法 2.2.Xpath解析html数据 1.安装lxml库 2. ...
python 爬虫数据抓取的三种方式
python 爬虫数据抓取的三种方式常用抽取网页数据的方式有三种:正则表达式.Beautiful Soup.lxml 1.正则表达式正则表达式有个很大的缺点是难以构造.可读性差.不易适用未来 ...
Python爬虫数据可视化
Python爬虫--数据可视化导入需要的第三方库 import matplotlib.pyplot as plt import seaborn as sns import pandas as pd ...
python和r语言做大数据_R和python大数据
数据科学界华山论剑:R与Python巅峰对决如果你是数据分析领域的新兵,那么你一定很难抉择--在进行数据分析时,到底应该使用哪个语言,R还是Python?在网络上,也经常出现诸如"我想学习 ...

数据之路 - Python爬虫 - 数据存储

一、文件存储

1.文件打开方式

2.txt文本存储

3.json文件存储

- 读取json

- 输出json

4.csv文件存储

- 写入

- 读取

二、MySQL关系型数据库存储

1.MySQL连接

2.插入

3.更新

4.删除

5.查询

三、MongoDB非关系型数据库存储

1.MongoDB连接

2.插入

3.查询

- 常用符号

4.更新

5.删除

四、Redis非关系型数据库存储

1.Redis连接

2.键操作

3.字符串操作

4.列表操作

5.集合操作

6.有序集合操作

7.散列操作

8.RedisDump

数据之路 - Python爬虫 - 数据存储相关推荐

最新文章

热门文章