火狐可以使用广告终结者

您是否曾经遇到过刮板遇到错误的情况[可能是服务器错误或刮板块],并且不得不重新开始?

你真幸运! 您可以使用Jupyter从刮板终止的位置重新启动脚本。 我不知道这是如何工作的,但让我给您简要说明如何使用此解决方法。

该解决方案很大程度上取决于Jupyter的“运行代码”功能,在此功能中,我们可以独立于每批代码运行代码块。

从常用的抓取库开始:

Python,Selenium,熊猫,美丽汤和您的老朋友时光。

是该项目所需的库。

在这个解释中,我不会深入研究我的源代码,而是将展示我的第一批抓取代码的外观。

我的代码的简要说明如下:

转到目标站点执行一些操作以使用xpath转到我想使用的特定站点。创建一个名为Compiled_list的数组将javascript中的``地狱''从JavaScript表中剔除(在具有分页功能的网站中处理不会显示在URL)将数组中的数据``转换''为大熊猫数据框。将大熊猫数据表导出为CSV,并用页面命名它们某些部分由于数据敏感性而被屏蔽

我们在这里...什么? 服务器已关闭...。

抓很多东西的人讨厌这个错误信息

但是正如我在本文的第一部分中所说的那样,请创建另一批代码,以继续您开始使用的代码。

在继续之前

1)不要关闭与您的脚本连接的Chrome浏览器。 如果您这样做,则所有会话/进度都将被删除。

2)请记住检查您抓取的页码,并在下一批代码中进行相应的重新编码。

因此,再次运行该程序……在导出部分中,在设置编号为no的ID号中稍有更改。

在运行此代码块之前,我编辑了设置号码

和田田! 我们继续抓取其余的场景

其余代码正在运行:-)

但是,如果网站服务器像我的目标网站一样不稳定,请提防连续错误。 每当您的程序与网站的连接中断时,请重复上述过程。

我无法弄清楚如何使这部分自动化,但是如果您的真棒读者都知道答案,请在下面评论。

无论如何,就是伙计们〜jupyter抓取时间机器。

翻译自: https://hackernoon.com/use-jupyter-to-restart-the-script-from-the-point-where-the-scrapper-terminated-jp6g32fm

火狐可以使用广告终结者

火狐可以使用广告终结者_使用Jupyter从终结者终止的地方重新启动脚本相关推荐

  1. 广告投手_测量投手隐藏自己的音高的程度

    广告投手 As the baseball community has recently seen with the Astros 2017 cheating scandal, knowing what ...

  2. linux 火狐 清缓存,怎么清理新版火狐浏览器的缓存_浏览器指南

    怎么清理新版火狐浏览器的缓存_浏览器指南 发表时间:2020-09-29 来源:必杀器整理 软件安装:火狐浏览器 Mozilla Firefox,中文俗称"火狐"(正式缩写为Fx或 ...

  3. 划痕实验 迁移面积自动统计_从Jupyter迁移到合作实验室

    划痕实验 迁移面积自动统计 If you want to use Google Colaboratory to perform your data analysis, for building dat ...

  4. 百度医疗广告卷土重来_冷静的技术正在卷土重来,好的设计可以使其坚持下去...

    百度医疗广告卷土重来 By Liz Stinson 丽兹·斯汀森(Liz Stinson) Last week I made progress. I was down 20 minutes. Inst ...

  5. 什么命令看服务器系统,查看linux系统版本可以使用什么命令_网站服务器运行维护...

    win10系统任务栏不显示应用图标怎么办_网站服务器运行维护 win10系统任务栏不显示应用图标的解决方法是:1.鼠标右键点击任务栏空白处,在弹出的选项列表中选择[任务管理器]选项:2.右键点击[Wi ...

  6. 与火狐浏览器对应版本_你下载的是原版的火狐浏览器吗?如果不清楚,这篇文章会让你明白...

    点击蓝字关注我们 关于火狐浏览器,相信不用我介绍,都有很多人知道这款大名鼎鼎的电脑浏览器.因为其优秀的兼容性和稳定性以及快速.极少卡顿等优点,收获了大量忠实用户. 可以说,火狐浏览器是PC最好用的浏览 ...

  7. 简易记事本广告弹窗_人民日报批弹窗广告,教你几个屏蔽弹窗广告的小技巧

    弹窗广告,对于经常上网的人来说,一定不陌生."不请自来"以及"赖着不走",可以说是弹窗广告的最大特征.天下网友苦弹窗广告久矣-- 近日,人民日报刊文<&q ...

  8. python notebook配置_使用 Jupyter Notebook 配置 Stata\Python\Julia\R

    作者:许梦洁 (中山大学) E-mail: xumj9@mail2.sysu.edu.cn 原文链接:磐石若水 → 使用 Jupyter Notebook 配置 Stata/Python/Julia/ ...

  9. 火狐同步safari书签_如何将Safari浏览器的Chrome,Firefox和Internet Explorer书签同步

    火狐同步safari书签 If you use a Mac and Windows on a regular basis, then chances are pretty good you use a ...

  10. 骗子广告联盟_骗子把我的脸变成了Google广告

    骗子广告联盟 For many years, Google Adsense has provided a platform for anyone to purchase ad space for th ...

最新文章

  1. android yuv加水印_Android Camera添加预览水印
  2. 会计记忆总结之五:会计账薄
  3. 五十九、使用ZXing生成二维码
  4. BZOJ 3527: [ZJOI2014]力(FFT)
  5. Spring Cloud Stream如何处理消息重复消费
  6. NYOJ-超级台阶(dp)
  7. kuka的备选安装包有什么功能_机械臂的软浮动功能
  8. [转载] python __import__ 搜索路径详解
  9. java线程main异常,‘java.lang.NoSuchMethodError:main的原因’线程中的异常“main”’...
  10. SAP恭贺德国国家足球队夺冠!
  11. java----内省
  12. sqlParameter的使用------七个构造函数
  13. java webservice 实例_Java WebService 简单实例(附实例代码)
  14. 手持式频谱分析仪TFN RMT720A 频谱分析 基站分析 路测覆盖
  15. 博睿数据拨测入场加速广电深度融合
  16. 【SwiftUI学习笔记】Git Repository Creation FailedEnsure the author information supplied in Xcode ...
  17. 浅谈:智能化变电站在线监测系统
  18. Xshell远程登录本地虚拟机(保姆级教学)
  19. c语言socket/smtp 邮件 附件,SMTP邮件传输协议发送邮件和附件 1
  20. 小黑NLPbaseline成长日记1:Skip_Gram+NEG的pytorch练习

热门文章

  1. 教你如何用python获得中国气象数据网的API数据并且导入数据库(附源码)
  2. 如何下载小程序图片?
  3. 物流系统管理课程(九)
  4. 计算机基础知识思维导图怎么画,怎样在计算机中绘制思维导图的操作过程分享...
  5. 酒店电视方案 酒店建设高清数字电视系统的解决方案
  6. python对excel数据分析常用功能(一文学会如何用Python实现excel基础功能)
  7. 计算机地图制图算法与原理重点,计算机地图制图算法.pptx
  8. word中如何替换一些特殊符号
  9. Oracle索引的原理及使用
  10. oracle加索引 oracle,Oracle索引创建及管理