Selenium_Crawler

一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码

代码更新

3/11/2021

修改报错信息不明确的bug
更新twitter_crawler.py代码中的各字段class属性名称
因为网站源代码中结构的变化，最开始使用的类似class类似的属性名称有时会发生改变，需要重新更正
1. 更正样例
2. 字段class属性信息如何确认
  1. 使用Chrome浏览器访问URl，右键打开检查（快捷键F12）

2020/10/29

修改了每次爬取时覆盖上次爬取的文件的bug
修改了项目文件目录结构

使用方式

文件夹中的文件分别对应内容

New_York_Times_Crawler：存 New York Tiems 的爬虫代码

New_York_Times_Data：存放成功爬取的数据，格式分别为 csv 和 excel

news_crawler.py： New York Tiems 的爬虫代码

news_url.txt：存放想要爬取的 New York Tiems 的 url 地址（可以放置多条地址）

Twitter_Crawler：存放 Twitter 的爬虫代码

TwitterData：存放成功爬取的数据，格式分别为 csv 和 excel

twitter_crawler.py：Twitter 的爬虫代码

twitter_url.txt：存放想要爬取的 Twitter 的 url 地址（可以放置多条地址）

爬虫所对应的网站的网页结构

New York Tiems

地址样例

Twitter

地址样例

准备运行代码

Selenium 模块

本代码使用的是 Python 中的 Selenium 模块，如果没有 Selenium 模块的使用经验的话请浏览https://www.cnblogs.com/linhaifeng/articles/7783599.html中的有界浏览器使用方式。

可能会遇到的问题

Twitter 和 New York Times 访问速度过慢

爬虫代码中断

解决方法

访问速度过慢的话，这个没有办法帮你，网络环境的问题请自行查找解决办法

爬虫代码中断，一般情况下，网络环境没问题，设置的 URL 完整的话不会出现爬虫代码中断的错误，遇到的话请多跑几遍代码在询问，并附上错误信息

代码开源地址

https://github.com/masonsxu/Selenium_Crawler

一个使用 selenium 模块爬取（Twitter、New York Times）网站的可配置爬虫代码相关推荐

小福利，用selenium模块爬取qq音乐歌单
大家好,我是天空之城爬取qq音乐歌单话不多说,代码如下 #--coding:utf-8-- from selenium import webdriver # 从selenium库中调用webdri ...
小福利，用selenium模块爬取qq音乐歌单！
大家好,我是天空之城爬取qq音乐歌单话不多说,代码如下 #--coding:utf-8-- from selenium import webdriver # 从selenium库中调用webdri ...
使用requests和re模块爬取i春秋论坛的精品贴（小爬虫）
前言下一篇是使用requests和re模块爬取某个学习站点的所有用户头像. 最近在刷i春秋论坛的帖子,发现论坛首页每天都会推送一些精品文章,但是有时候好几天也没有更新首页的推送,总不能每天都去刷新吧 ...
python-selenium爬取摩点客户购买信息（前端分析+爬虫代码）
前言最近公司需要摩点的用户购买数据,比如总金额最多的有礼包但是发现网站并没有提供下载渠道(运营和我说的,如果有不是我的锅┓(;´_｀)┏) 发现一个页面只有十个数据,也没有跳转,那光爬网页肯定是不 ...
爬取网易云音乐播放量大于1000万的爬虫代码
# -*- coding: utf-8 -*- #原博客:http://python.jobbole.com/89091/#article-comment.本人做了部分错误的修改,下面是在Anacon ...
网络爬虫---用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化
用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化文章目录用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化一.前言二.知识要求三.过程分析 1.观察主页面和每个电脑 ...
[转载] python+selenium定时爬取丁香园的新冠病毒每天的数据，并制作出类似的地图（部署到云服务器）
参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...
使用selenium自动爬取斗鱼直播平台的所有房间信息
使用selenium自动爬取斗鱼直播平台的所有房间信息文章目录使用selenium自动爬取斗鱼直播平台的所有房间信息使用selenium实现动态页面模拟点击什么是selenium? selen ...
python+selenium定时爬取丁香园的新冠病毒每天的数据，并制作出类似的地图（部署到云服务器）
python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关目录 python ...