一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码
Selenium_Crawler
一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码
代码更新
3/11/2021
- 修改报错信息不明确的bug
- 更新
twitter_crawler.py
代码中的各字段class
属性名称 - 因为网站源代码中结构的变化,最开始使用的类似
class
类似的属性名称有时会发生改变,需要重新更正- 更正样例
- 字段
class
属性信息如何确认- 使用
Chrome浏览器
访问URl,右键
打开检查(快捷键F12
)
- 使用
- 更正样例
2020/10/29
- 修改了每次爬取时覆盖上次爬取的文件的bug
- 修改了项目文件目录结构
使用方式
文件夹中的文件分别对应内容
New_York_Times_Crawler:存 New York Tiems 的爬虫代码
New_York_Times_Data:存放成功爬取的数据,格式分别为 csv 和 excel
news_crawler.py: New York Tiems 的爬虫代码
news_url.txt:存放想要爬取的 New York Tiems 的 url 地址(可以放置多条地址)
Twitter_Crawler:存放 Twitter 的爬虫代码
TwitterData:存放成功爬取的数据,格式分别为 csv 和 excel
twitter_crawler.py:Twitter 的爬虫代码
twitter_url.txt:存放想要爬取的 Twitter 的 url 地址(可以放置多条地址)
爬虫所对应的网站的网页结构
New York Tiems
地址样例
地址样例
准备运行代码
Selenium 模块
本代码使用的是 Python 中的 Selenium 模块,如果没有 Selenium 模块的使用经验的话请浏览https://www.cnblogs.com/linhaifeng/articles/7783599.html中的有界浏览器使用方式。
可能会遇到的问题
Twitter 和 New York Times 访问速度过慢
爬虫代码中断
解决方法
访问速度过慢的话,这个没有办法帮你,网络环境的问题请自行查找解决办法
爬虫代码中断,一般情况下,网络环境没问题,设置的 URL 完整的话不会出现爬虫代码中断的错误,遇到的话请多跑几遍代码在询问,并附上错误信息
代码开源地址
https://github.com/masonsxu/Selenium_Crawler
一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码相关推荐
- 小福利,用selenium模块爬取qq音乐歌单
大家好,我是天空之城 爬取qq音乐歌单 话不多说,代码如下 #--coding:utf-8-- from selenium import webdriver # 从selenium库中调用webdri ...
- 小福利,用selenium模块爬取qq音乐歌单!
大家好,我是天空之城 爬取qq音乐歌单 话不多说,代码如下 #--coding:utf-8-- from selenium import webdriver # 从selenium库中调用webdri ...
- 使用requests和re模块爬取i春秋论坛的精品贴(小爬虫)
前言 下一篇是使用requests和re模块爬取某个学习站点的所有用户头像. 最近在刷i春秋论坛的帖子,发现论坛首页每天都会推送一些精品文章,但是有时候好几天也没有更新首页的推送,总不能每天都去刷新吧 ...
- python-selenium爬取摩点客户购买信息(前端分析+爬虫代码)
前言 最近公司需要摩点的用户购买数据,比如总金额最多的有礼包 但是发现网站并没有提供下载渠道(运营和我说的,如果有不是我的锅┓(;´_`)┏) 发现一个页面只有十个数据,也没有跳转,那光爬网页肯定是不 ...
- 爬取网易云音乐播放量大于1000万的爬虫代码
# -*- coding: utf-8 -*- #原博客:http://python.jobbole.com/89091/#article-comment.本人做了部分错误的修改,下面是在Anacon ...
- 网络爬虫---用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化
用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 文章目录 用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 一.前言 二.知识要求 三.过程分析 1.观察主页面和每个电脑 ...
- [转载] python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)
参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...
- 使用selenium自动爬取斗鱼直播平台的所有房间信息
使用selenium自动爬取斗鱼直播平台的所有房间信息 文章目录 使用selenium自动爬取斗鱼直播平台的所有房间信息 使用selenium实现动态页面模拟点击 什么是selenium? selen ...
- python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)
python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python ...
最新文章
- python随机生成字符串_python生成随机数、随机字符串
- 阿里 P8 聊分布式事务最终一致性的 6 种解决方案
- springboot快速集成swagger
- Java代码总结【1】_查询手机号码归属地
- linux服务器重启ctrl,Linux禁止Ctrl+Alt+Del重启
- mySql学习笔记:比sql server书写要简单
- 设计佣金问题的java程序_三角形、nextday、佣金问题实验报告.doc
- 深度森林:探索深度神经网络以外的方法
- 【配置教程】FDDB生成ROC曲线
- python图像文字识别算法_Python图像处理之图片文字识别功能(OCR)
- Auto CAD 批量转PDF、批量打印使用方法
- 计算机网上邻居的网络密码是什么,网上邻居打开时需访问密码是怎么回事
- 送你一个目录,一站式学习生信!众多干货,有趣有料!
- 0640与6130的区别_达人评测熊猫6143收音机与6130有区别没有?使用哪个好?使用四周后体验分享...
- JavaScript高级编程设计(第三版)——第三章:基本概念
- Python数据分析基础之Excel文件(6)
- 报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask原因查找
- 视频通话 - 时信魔方教程
- 基于几何法的机器人逆运动学求解--工业机器人前三个关节
- 好工具推荐系列:虚拟键盘,Free Virtual Keyboard
热门文章
- 【学习笔记】PHP进阶
- 什么是太阳光模拟器整车全光谱阳光模拟系统?
- 安卓手机+LinuxDeploy+CentOS+宝塔面板的安装教程
- 精辟!(/usr/bin/ld: cannot find -lxxx)可能出现的问题和原因
- webdriver操作frame
- 猜数字游戏java课程设计报告
- 修改“IP属地“,我们说不
- 数据库-不允许保存更改,阻止保存要求重新创建表的更改
- SwiftUI mutating 是什么怎么用 (2020年教程)
- 用python画箱体图