Selenium_Crawler

一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码

代码更新

3/11/2021

  1. 修改报错信息不明确的bug
  2. 更新twitter_crawler.py代码中的各字段class属性名称
  3. 因为网站源代码中结构的变化,最开始使用的类似class类似的属性名称有时会发生改变,需要重新更正
    1. 更正样例

    2. 字段class属性信息如何确认
      1. 使用Chrome浏览器访问URl,右键打开检查(快捷键F12

2020/10/29

  1. 修改了每次爬取时覆盖上次爬取的文件的bug
  2. 修改了项目文件目录结构

使用方式

文件夹中的文件分别对应内容

New_York_Times_Crawler:存 New York Tiems 的爬虫代码

New_York_Times_Data:存放成功爬取的数据,格式分别为 csv 和 excel

news_crawler.py: New York Tiems 的爬虫代码

news_url.txt:存放想要爬取的 New York Tiems 的 url 地址(可以放置多条地址)

Twitter_Crawler:存放 Twitter 的爬虫代码

TwitterData:存放成功爬取的数据,格式分别为 csv 和 excel

twitter_crawler.py:Twitter 的爬虫代码

twitter_url.txt:存放想要爬取的 Twitter 的 url 地址(可以放置多条地址)

爬虫所对应的网站的网页结构

New York Tiems

地址样例

Twitter

地址样例

准备运行代码

Selenium 模块

本代码使用的是 Python 中的 Selenium 模块,如果没有 Selenium 模块的使用经验的话请浏览https://www.cnblogs.com/linhaifeng/articles/7783599.html中的有界浏览器使用方式。

可能会遇到的问题

Twitter 和 New York Times 访问速度过慢

爬虫代码中断

解决方法

访问速度过慢的话,这个没有办法帮你,网络环境的问题请自行查找解决办法

爬虫代码中断,一般情况下,网络环境没问题,设置的 URL 完整的话不会出现爬虫代码中断的错误,遇到的话请多跑几遍代码在询问,并附上错误信息

代码开源地址

https://github.com/masonsxu/Selenium_Crawler

一个使用 selenium 模块爬取(Twitter、New York Times)网站的可配置爬虫代码相关推荐

  1. 小福利,用selenium模块爬取qq音乐歌单

    大家好,我是天空之城 爬取qq音乐歌单 话不多说,代码如下 #--coding:utf-8-- from selenium import webdriver # 从selenium库中调用webdri ...

  2. 小福利,用selenium模块爬取qq音乐歌单!

    大家好,我是天空之城 爬取qq音乐歌单 话不多说,代码如下 #--coding:utf-8-- from selenium import webdriver # 从selenium库中调用webdri ...

  3. 使用requests和re模块爬取i春秋论坛的精品贴(小爬虫)

    前言 下一篇是使用requests和re模块爬取某个学习站点的所有用户头像. 最近在刷i春秋论坛的帖子,发现论坛首页每天都会推送一些精品文章,但是有时候好几天也没有更新首页的推送,总不能每天都去刷新吧 ...

  4. python-selenium爬取摩点客户购买信息(前端分析+爬虫代码)

    前言 最近公司需要摩点的用户购买数据,比如总金额最多的有礼包 但是发现网站并没有提供下载渠道(运营和我说的,如果有不是我的锅┓(;´_`)┏) 发现一个页面只有十个数据,也没有跳转,那光爬网页肯定是不 ...

  5. 爬取网易云音乐播放量大于1000万的爬虫代码

    # -*- coding: utf-8 -*- #原博客:http://python.jobbole.com/89091/#article-comment.本人做了部分错误的修改,下面是在Anacon ...

  6. 网络爬虫---用urllib模块爬取京东笔记本电脑的数据、并对其做一个可视化

    用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 文章目录 用urllib模块爬取京东笔记本电脑的数据.并对其做一个可视化 一.前言 二.知识要求 三.过程分析 1.观察主页面和每个电脑 ...

  7. [转载] python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)

    参考链接: Python vars() python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造 ...

  8. 使用selenium自动爬取斗鱼直播平台的所有房间信息

    使用selenium自动爬取斗鱼直播平台的所有房间信息 文章目录 使用selenium自动爬取斗鱼直播平台的所有房间信息 使用selenium实现动态页面模拟点击 什么是selenium? selen ...

  9. python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器)

    python+selenium定时爬取丁香园的新冠病毒每天的数据,并制作出类似的地图(部署到云服务器) 声明:仅供技术交流,请勿用于非法用途,如有其它非法用途造成损失,和本博客无关 目录 python ...

最新文章

  1. python随机生成字符串_python生成随机数、随机字符串
  2. 阿里 P8 聊分布式事务最终一致性的 6 种解决方案
  3. springboot快速集成swagger
  4. Java代码总结【1】_查询手机号码归属地
  5. linux服务器重启ctrl,Linux禁止Ctrl+Alt+Del重启
  6. mySql学习笔记:比sql server书写要简单
  7. 设计佣金问题的java程序_三角形、nextday、佣金问题实验报告.doc
  8. 深度森林:探索深度神经网络以外的方法
  9. 【配置教程】FDDB生成ROC曲线
  10. python图像文字识别算法_Python图像处理之图片文字识别功能(OCR)
  11. Auto CAD 批量转PDF、批量打印使用方法
  12. 计算机网上邻居的网络密码是什么,网上邻居打开时需访问密码是怎么回事
  13. 送你一个目录,一站式学习生信!众多干货,有趣有料!
  14. 0640与6130的区别_达人评测熊猫6143收音机与6130有区别没有?使用哪个好?使用四周后体验分享...
  15. JavaScript高级编程设计(第三版)——第三章:基本概念
  16. Python数据分析基础之Excel文件(6)
  17. 报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask原因查找
  18. 视频通话 - 时信魔方教程
  19. 基于几何法的机器人逆运动学求解--工业机器人前三个关节
  20. 好工具推荐系列:虚拟键盘,Free Virtual Keyboard

热门文章

  1. 【学习笔记】PHP进阶
  2. 什么是太阳光模拟器整车全光谱阳光模拟系统?
  3. 安卓手机+LinuxDeploy+CentOS+宝塔面板的安装教程
  4. 精辟!(/usr/bin/ld: cannot find -lxxx)可能出现的问题和原因
  5. webdriver操作frame
  6. 猜数字游戏java课程设计报告
  7. 修改“IP属地“,我们说不
  8. 数据库-不允许保存更改,阻止保存要求重新创建表的更改
  9. SwiftUI mutating 是什么怎么用 (2020年教程)
  10. 用python画箱体图