本篇文章是对之前斗鱼爬虫的修改,将爬取到的数据直接写入mongodb数据库中

(今天学习到mongodb)

from selenium import webdriver
import time
from pymongo import MongoClient#连接到douyu数据库
db = MongoClient(host="127.0.0.1", port=27017).douyuurl = "https://www.douyu.com/directory/all"Gdriver = webdriver.Chrome()# 发送请求
Gdriver.get(url)#打开浏览器后等待几秒,让页面加载完成
time.sleep(3)next_page = True
while next_page is not None:# 提取数据room_list = Gdriver.find_elements_by_xpath("//li[@class = 'layout-Cover-item']")content_list = []   #一个存放字典的列表for i in room_list:room_dict = {}room_dict["标题"] = i.find_element_by_xpath(".//h3[@class='DyListCover-intro']").get_attribute("title")room_dict["类型"] = i.find_element_by_xpath(".//span[@class='DyListCover-zone']").textroom_dict["主播name"] = i.find_element_by_xpath(".//h2[@class='DyListCover-user']").textroom_dict["热度"] = i.find_element_by_xpath(".//span[@class = 'DyListCover-hot']").textprint(room_dict)#将数据写入数据库db.aa.insert_one(room_dict)# 请求下一页地址,循环next_page = Gdriver.find_element_by_xpath("//li[@class=' dy-Pagination-next']/span")next_page.click()  #点击下一页time.sleep(3)  #睡眠3秒#退出浏览器
Gdriver.quit()

数据库代码部分如下

#连接到douyu数据库
db = MongoClient(host="127.0.0.1", port=27017).douyu
  #将数据写入数据库db.aa.insert_one(room_dict)

运行截图如下

在PyCharm运行

在数据库终端查看数据插入情况

现在pymongo库中使用insert插入已经放弃了,可以使用insert_one或insert_many

python使用selenium爬取斗鱼房间数据并写入mongodb数据库相关推荐

  1. 使用 Selenium 爬取斗鱼直播数据(2019最新)

    环境:Win10  需要安装 Chromedriver Chromedriver下载(需对应浏览器的版本) 这些是我最近在学 selenium 模块爬取得斗鱼直播数据,以下爬取的是 图片.详情地址.标 ...

  2. python 使用selenium爬取斗鱼直播房间信息

    用到的模块 今天没课,开启正片 selenium 打开浏览器提取数据 time 每打开一个页面睡眠几秒,防止太快报错还有被发现 json 写入文件要用到 完整代码如下(为了减少代码就不使用类了) fr ...

  3. python+selenium爬虫,使用selenium爬取热门微博数据

    python爬虫使用selenium爬取热门微博数据 完整代码 from selenium.webdriver import Chrome import time import csvf = open ...

  4. python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析

    这篇文章主要介绍了python基于scrapy爬取京东笔记本电脑数据并进行简单处理和分析的实例,帮助大家更好的理解和学习使用python.感兴趣的朋友可以了解下 一.环境准备 python3.8.3 ...

  5. mysql 查询 系统字段 自然日_吴裕雄--天生自然python数据清洗与数据可视化:MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB...

    本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使 ...

  6. python 使用 selenium 爬取中国福利彩票双色球历史中奖号码

    python 使用 selenium 爬取中国福利彩票双色球历史中奖号码 前期准备 版本:python3 模块:selenium.time.pprint 一开始使用的是 tree 的方式获取数据,但发 ...

  7. 爬虫之selenium爬取斗鱼网站

    爬虫之selenium爬取斗鱼网站 示例代码: from selenium import webdriver import timeclass Douyu(object):def __init__(s ...

  8. python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址

    python使用selenium爬取联想官网驱动(一):获取遍历各驱动的下载网址然后wget命令试验下载 由于初期学习,所以先拿一个型号的产品驱动试验. (1)以下为在联想某型号产品获取相关驱动下载的 ...

  9. python爬取微博数据存入数据库_Python爬取新浪微博评论数据,写入csv文件中

    因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式 操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...

最新文章

  1. Discovering Gold LightOJ - 1030[概率dp或者记忆化搜索]
  2. 顶尖CSS Web设计师Andy Clarke访谈
  3. python3 中递归的最大次数
  4. 制度缺陷还是人性不堪
  5. 一个简单的jQuery例子,动态添加表格和删除
  6. TPL Dataflow .Net 数据流组件,了解一下?
  7. 20200120:(leetcode)盛最多水的容器 两种解法
  8. 微软拒绝修复滥用 MSTSC 的安全绕过缺陷
  9. L3-019 代码排版 (30 分)-PAT 团体程序设计天梯赛 GPLT
  10. python中库是什么意思_python库是什么意思
  11. java判断是否为5的倍数,如何用编程实现“判断输入的正整数是否既是5又是7的正倍数,若是,则输出yes,否则输出no”?...
  12. 开发一款APP软件,需要哪些技术支持呢?
  13. [Excel知识技能] Excel数据类型
  14. 智慧教室—基于人脸表情识别的考试防作弊系统
  15. 【干货】如何写微信公众号文章:文章流畅耐读的奥秘
  16. 连花清瘟对德尔塔病毒有效?这次网友反应不太一样
  17. gsoc 任务_gsoc 2020火箭聊天React式全屏作曲家
  18. jdk和jre(jdk和jre的关系)
  19. 美国历任总统竞选演讲稿
  20. 面筋 嘎嘣脆(C/C++)

热门文章

  1. 五大开源文档管理系统
  2. c语言char197用%d输出变为-59,强制类型转换所导致的数据改变
  3. 网络编程简单入门,基础知识需先掌握
  4. 题目2:隐式图的搜索问题(实验准备)
  5. C++main函数及参数
  6. 计算机英语写作话题,跪求一篇英语作文 题目:论计算机的优缺点
  7. 身份证和银行卡输入时根据规则分析
  8. Unity2D~对周目解密小游戏练习(三天完成)
  9. 软件工程开发文档写作教程(05)—可行性研究报告写作规范
  10. 链表使用基础——如何创建链表