selenium框架爬取p2p问题平台信息，需加载点击页面的。

@TOC
selenium框架爬取p2p问题平台信息

# -*- coding: utf-8 -*-
"""
Created on Tue Dec 10 07:03:57 2019@author: heart
"""import random
from selenium import webdriver
import re
import time
import os
import warnings
import pymongowarnings.filterwarnings('ignore')brower = webdriver.Chrome()#手动输入ui的网址，不然会被反爬def get_data(ui,table):brower.get(ui)p=0while p<=295:brower.find_element_by_class_name('load').click()sleeptime = random.randint(3,5)time.sleep(sleeptime)print('加载第%i次，休息时间：sleep.....%i' %(p,sleeptime))p += 1#第一步先加载完所有页面infos = brower.find_elements_by_class_name('tr-click')#列表存储lst = []for li in infos:dic = {}dic['发生日期'] = li.find_element_by_class_name('col1').textdic['平台名称'] = li.find_element_by_class_name('a-click').textdic['所在地区'] = li.find_element_by_class_name('col3').textdic['上线日期'] = li.find_element_by_class_name('col4').textlst.append(dic)table.insert_one(dic)#实时存储mongodb。如不需要的话，可以注释掉，并删除table参数即可print('抓取数据%i条' % (len(lst)))#第二步，循环抓取关键信息return lstif __name__ == '__main__':ui = 'https://www.p2peye.com/shuju/wtpt/'myclient = pymongo.MongoClient('mongodb://localhost:27017/')db = myclient['网贷天眼']datatable = db['p2p平台数据']get_data(ui,datatable)#获取数据

第一次实践成功。。。
经过一次修改。
加载效果如下图。。。函数中的间隔时间是一定需要的，不然铁定被识别反爬。

selenium框架爬取p2p问题平台信息，需加载点击页面的。相关推荐

使用selenium自动爬取斗鱼直播平台的所有房间信息
使用selenium自动爬取斗鱼直播平台的所有房间信息文章目录使用selenium自动爬取斗鱼直播平台的所有房间信息使用selenium实现动态页面模拟点击什么是selenium? selen ...
利用Scrapy框架爬取前途无忧招聘信息
利用Scrapy框架爬取前途无忧招聘信息关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件分析网站 ...
Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题
比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒-- 又比如知乎关注的人列表页面: 我复制了其中两个人昵称 ...
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
[python爬虫] Selenium定向爬取PubMed生物医学摘要信息
本文主要是自己的在线代码笔记.在生物医学本体Ontology构建过程中,我使用Selenium定向爬取生物医学PubMed数据库的内容. PubMed是一个免费的搜寻引擎,提供生物医学 ...
python scrapy框架爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
[Selenium+Pyecharts]爬取建筑设计师招聘信息，数据清洗并可视化
前言: 8个小时内完成爬虫,数据清洗并可视化.因为自己也是小白,做的时候时间还挺赶的.很多地方没有做到完美,比如一些数据清洗的步骤走了捷径.有不足的地方,欢迎大神们留言指教. selenium :3. ...
selenium登录爬取淘宝商品信息
淘宝网: 淘宝网是亚太地区较大的网络零售.商圈,由阿里巴巴集团在2003年5月创立.淘宝网是中国深受欢迎的网购零售平台,拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已 ...
Selenium自动化爬取某东商品信息
文章目录前言一.selenium是什么? 1.什么是selenium 2.selenium的用途二.使用开发步骤 1.引入库 2.函数:管理浏览器操作open_brower() 3.函数:定位提 ...

selenium框架爬取p2p问题平台信息，需加载点击页面的。

selenium框架爬取p2p问题平台信息，需加载点击页面的。相关推荐

最新文章

热门文章