利用ISBN/书名爬取“全国图书馆参考咨询联盟”网站从而得到图书学科、中图分类号、主题等信息
先把代码的坑说一下哈哈,尽管代码做了很多异常处理相对健壮,仍然有一个问题就是每次抓取八十条左右的数据时就会弹出验证码,代码经过微调从原来的一次性抓取十几条到八十多条,差不多半小时G一次。如果介意的话慎重订阅哈,也可私信联系我
一、需求
利用ISBN/书名抓取“全国图书馆参考咨询联盟”网站从而得到图书学科、中图分类号、主题等信息。
二、技术
selenium模拟登录,需要在代码里修改成你自己的账号密码,并且模拟滑块滑动登录。
三、技术难点
①处理了很多异常种类(查不到图书、没有学科信息,学科信息不足四级,讲到关于验证码的处理方法,虽然并没有直接处理验证码,但也描述了避免验证码弹出的一种方式,并做了相关验证,可按照文档自行修改寻求一个较为好的解决方式),文档里面图文并茂,有问题可私我要微信或直接提出问题
四、巧妙设计
①代码被反爬了之后,原来已经检索完成的内容是已经存好的,再次运行代码不会影响已经存好的信息,只从没有检索过的ISBN开始检索
②当爬取一定数量的图书信息时,就会有验证码,经过实验发现与每次模拟点击后time.sleep(??)的时间有很大关系。
ps:尝试过模拟输入验证码,首先这个验证码有很多不清晰,甚至人眼都很难区分,其次这个验证码的链接是动态变化的,复制其链接回车一次图片就改变
利用ISBN/书名爬取“全国图书馆参考咨询联盟”网站从而得到图书学科、中图分类号、主题等信息相关推荐
- 读秀数据库的用法+全国图书馆参考咨询联盟
chrome安装Tampermonkey插件 登录greasyfork.org安装脚本"全国图书联盟读秀图书获取(升级版)" zjlib.cn登录 支付宝邦定浙江图书馆帐号 登录浙 ...
- 《中国图书馆图书分类法》(第五版)详表(中图分类号查询表)
中图分类号简介: <中国图书馆图书分类法>是我国建国后编制出版的一部具有代表性的大型综合性分类法,简称<中图法>. <中图法>的编制始于1971年,先后出版了五版. ...
- 计算机类图书按中图法类号,中图分类号 中国图书馆分类法(O类 数理科学和化学)...
O 数理科学和化学 01 数学 01-61 数学词典 01-64 数学表 O1-8 计算工具 O11 古典数学 O119 中国数学 O12 初等数学 O121 算术 O122 初等代数 O123 初等 ...
- Java爬虫之利用Jsoup+HttpClient爬取类叔叔不约匿名聊天网站的图片,未果——后爬取某网站美女图片案例
博主最近学了一点爬虫的知识,闲着无聊,秉承学以致用的理念,于是突然想到何不挑战一下,爬取一些叔叔不约网站的图片,来巩固一下所学知识(#滑稽).说干就干,打开eclipse或idea,创建maven工程 ...
- 爬虫:利用python+requests爬取全国肯德基餐厅门店信息,并写入CSV文件中
爬虫思路: 1.确定url 2.发送请求 requests 3.解析数据 4.保存数据(本地) 关键库:requests,re,csv,pprint(用与console看数据) 一.利用lagou的一 ...
- 利用Python自动爬取全国30+城市地铁图数据
数据来源 首先分析全国各个城市地铁图的数据来源,无非就是百度或者高德,这次选择用高德作为数据来源. 基本环境配置 版本:Python3 系统:Windows 相关模块: 安装请求库 pip insta ...
- 利用Python爬取全国250m精度的人口数据、房价数据等数据 | CSDN博文精选
作者 | 中原百科来源 | CSDN博客 (一) 我的第一篇博客写的就是爬取人口数据基于腾讯位置大数据平台的全球移动定位数据获取(Python爬取),精度是1000m,后来有朋友和我说有个网站开放过2 ...
- 利用Python爬取全国250m精度的人口数据
此次以GeoQ(智图)为基础,利用Python爬取全国250m精度的人口数据(GeoQ)这个网站开放过250m精度的人口分布数据,而且人口分布有年龄分段等属性.先得注册登录到达创建地图的界面. 看人口 ...
- 利用Python爬取全国250m精度的人口数据(GeoQ)、房价数据和公交站(线路)等数据
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 中原百科 GIS大师兄 PS:如有需要Python学习资料的小伙伴可 ...
最新文章
- angular2 学习二 最简单的模板
- 关于AUC计算公式推导
- CF Gym 101630 B Box
- 解决“Failure to find com.oracle:ojdbc6:jar”,手动安装ojdbc的jar包到maven私仓
- Matlab仿真PID控制(带M文件、simulink截图和参数分析)
- bool python 运算_python中的布尔操作
- 第5章 数据的共享与保护
- 2091: [Poi2010]The Minima Game
- java 定义接口school_Java接口介绍
- C++primer 6.7节练习
- 要开始算法了 什么顺序呢?
- JSOI2007 文本生成器
- 计算机毕业设计php的村镇干部绩效考核系统
- RuoYi-Vue Spring Security 密码加密
- OMRON软件安装与配置
- px和毫米的换算_iOS尺寸单位pt、ppi与px之间换算关系
- 计算机维修.pdf,计算机维修(中).pdf
- 论文阅读笔记:《一种改进的图卷积网络半监督节点分类》
- 距离全球边缘计算大会还有1400小时!
- 有密码的压缩包如何解压