@TOC
selenium框架爬取p2p问题平台信息

# -*- coding: utf-8 -*-
"""
Created on Tue Dec 10 07:03:57 2019@author: heart
"""import random
from selenium import webdriver
import re
import time
import os
import warnings
import pymongowarnings.filterwarnings('ignore')brower = webdriver.Chrome()#手动输入ui的网址,不然会被反爬def get_data(ui,table):brower.get(ui)p=0while p<=295:brower.find_element_by_class_name('load').click()sleeptime = random.randint(3,5)time.sleep(sleeptime)print('加载第%i次,休息时间:sleep.....%i' %(p,sleeptime))p += 1#第一步先加载完所有页面infos = brower.find_elements_by_class_name('tr-click')#列表存储lst = []for li in infos:dic = {}dic['发生日期'] = li.find_element_by_class_name('col1').textdic['平台名称'] = li.find_element_by_class_name('a-click').textdic['所在地区'] = li.find_element_by_class_name('col3').textdic['上线日期'] = li.find_element_by_class_name('col4').textlst.append(dic)table.insert_one(dic)#实时存储mongodb。如不需要的话,可以注释掉,并删除table参数即可print('抓取数据%i条' % (len(lst)))#第二步,循环抓取关键信息return lstif __name__ == '__main__':ui = 'https://www.p2peye.com/shuju/wtpt/'myclient = pymongo.MongoClient('mongodb://localhost:27017/')db = myclient['网贷天眼']datatable = db['p2p平台数据']get_data(ui,datatable)#获取数据

第一次实践成功。。。
经过一次修改。
加载效果如下图。。。函数中的间隔时间是一定需要的,不然铁定被识别反爬。

selenium框架爬取p2p问题平台信息,需加载点击页面的。相关推荐

  1. 使用selenium自动爬取斗鱼直播平台的所有房间信息

    使用selenium自动爬取斗鱼直播平台的所有房间信息 文章目录 使用selenium自动爬取斗鱼直播平台的所有房间信息 使用selenium实现动态页面模拟点击 什么是selenium? selen ...

  2. 利用Scrapy框架爬取前途无忧招聘信息

    利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...

  3. Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题

      比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒--   又比如知乎关注的人列表页面:   我复制了其中两个人昵称 ...

  4. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  5. [python爬虫] Selenium定向爬取PubMed生物医学摘要信息

    本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容.         PubMed是一个免费的搜寻引擎,提供生物医学 ...

  6. python scrapy框架爬取知乎提问信息

    前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...

  7. [Selenium+Pyecharts]爬取建筑设计师招聘信息,数据清洗并可视化

    前言: 8个小时内完成爬虫,数据清洗并可视化.因为自己也是小白,做的时候时间还挺赶的.很多地方没有做到完美,比如一些数据清洗的步骤走了捷径.有不足的地方,欢迎大神们留言指教. selenium :3. ...

  8. selenium登录 爬取淘宝商品信息

    淘宝网: 淘宝网是亚太地区较大的网络零售.商圈,由阿里巴巴集团在2003年5月创立.淘宝网 是中国深受欢迎的网购零售平台,拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已 ...

  9. Selenium自动化爬取某东商品信息

    文章目录 前言 一.selenium是什么? 1.什么是selenium 2.selenium的用途 二.使用开发步骤 1.引入库 2.函数:管理浏览器操作open_brower() 3.函数:定位提 ...

最新文章

  1. Werkzeug源码阅读笔记(四)
  2. Dockerfile实战之部署python网站
  3. 创建ListView的基本步骤
  4. Git和GitHub快速入门
  5. 罗永浩今晚带货iPhone 12:价格将有惊喜!
  6. SQLSERVER2008R2正确使用索引
  7. POJ1067 取石子游戏 跪跪跪,很好的博弈论
  8. array函数python_python中如何使用numpy.array函数创建数组?
  9. iOS图片两种压缩方法
  10. Java小农养成记第七天
  11. jpress转换html5,JPress技术精讲:JPress如何做到安装后重新加载的?
  12. [Ubuntu] LightDM 轻量级桌面显示管理器
  13. java计算机毕业设计京东仓库管理系统源码+mysql数据库+系统+lw文档+部署
  14. 中国电商靠低价攻入美国市场,亚马逊已经手足无措
  15. Elk实时日志分析平台搭建
  16. JS中的for循环解数学题
  17. 【视频教程】帝国CMS制作网站系列教程14—标签模板及标签讲解
  18. 关于pixhawk2.1+px4 1.7.3stable出现mag sensors inconsistent问题分析
  19. 信息论与编码冯桂周林著答案_信息论与编码.冯桂 周林 冯桂、周林 9787302424277 清华大学出版社 信息论与编码.冯桂 周林 正版图书...
  20. 自己写语法分析生成器

热门文章

  1. 机房的正确布线方法,四招轻松搞定!
  2. IGWO-SVM:改良的灰狼优化算法改进支持向量机。 采用三种改进思路:两种Logistic和Tent混沌映射和采用DIH策略
  3. Shell攻关之条件判断与流程控制
  4. Dynamic DMA mapping Guide
  5. Excel中的格式刷如何使用?
  6. 技术周刊 · 耿耿星河欲曙天 | SpaceX 上的前端架构;跨平台新选择;开源世界的新“大门”;用户推荐算法的敲门砖;关于“鸿蒙”,你应该知道这些
  7. 【Android】通过命令行adb install 将apk下载到手机之中
  8. ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?
  9. 迪赛智慧数——柱状图(多色柱状图):十大高薪行业
  10. PyQT5 QTableView的简单应用