python知网下载_GitHub - ppho99/CNKI-download: 知网(CNKI)文献下载及文献速览爬虫
CNKI_download 中国知网爬虫
项目是基于Python3 实现的爬取知网数据的爬虫,可根据知网高级检索进行搜索,提供文献基本信息、文献下载、文献摘要等详细信息爬取功能。
实现过程可以查看我的博客
程序运行如下:
详细信息excel表格如下:
下载caj如下:
特点
通过发送解析包形式抓取数据,相比于使用selenium等方式性能稍高一些。
可使用知网高级检索功能进行搜索,更高效检索文献。
可根据网络及知网反爬虫情况选择性开启详细信息抓取及下载caj文献功能。
利用excel表格快速查看所需文献摘要等信息,可根据excel提供下载链接选择性下载,防止下载过快导致知网反爬。
使用方法
安装依赖
在验证码处理部分使用了tesserocr,不过验证效果目前不是很好,所以默认开启手动识别验证码。
如果本地没有安装tesseract,可以先安装这个,再执行pip install tesserocr。或者将CrackVerifyCode.py文件第15、63、64行注释后再执行安装命令。
pip install -r requirements.txt
配置选项
# Config.ini 为项目配置文件
# 0为关闭 1为开启
isDownloadFile = 1 # 是否下载文件
isCrackCode=0 # 是否自动识别验证码
isDetailPage=0 # 是否保存文献详细信息到excel
isDownLoadLink # 是否在excel中保存下载链接
stepWaitTime=5 # 每次下载及爬取详情页面停顿时间
建议下载和爬取详情页面不要同时开启,停顿时间不低于3秒。
启动程序
python main.py
运行后文件结构说明
爬虫运行完毕后,所有数据将保存在data文件夹下,data文件夹每次重新运行程序会自动删除旧的。
CNKI_download
-- data 存放所有爬取数据
-- CAJs 存放所有下载的caj原文
-- xxxxxxx.caj
-- xxxxxxx.caj
-- Links.txt 所有爬取文献的下载链接
-- ReferenceList.txt 爬取文献简要信息
-- Reference_detail.xls 文献详细信息excel表
注意事项
项目运行的前提是电脑可以通过ip访问知网并下载(一般学校都买了数据库),快写完时候发现目前还有一个跳转接口,后续后增加公网访问。
如果出现“远程主机拒绝了访问”可以适当加长每次停顿的时间。
如果在运行过一次后,再次运行前记得关闭data文件夹中所有文件,否则可能会由于无法删除data文件夹报错。
如果只爬取信息不下载的话,可能会在运行1000条文献左右出现反复输入验证码情况(即使输入正确)。目前还不知道是什么原因
TO DO LIST
完成高级检索的其他未实现功能。
增加指定开始爬取页面信息,实现从上次错误处再次爬取。
增加公网跳转至知网接口,保证无法IP登录用户也可使用本爬虫。
创建代理池,基于公网跳转实现代理ip访问,减少知网封ip及输入验证码次数。
撰写程序实现及分析过程记录。
python知网下载_GitHub - ppho99/CNKI-download: 知网(CNKI)文献下载及文献速览爬虫相关推荐
- python 批量下载知网(cnki)论文_Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记...
Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记 由于需要也是为了督促自己学习新的东西,我原本想要尝试着写一个爬虫程序,能够在cnki上自动得将论文进行批量 ...
- python 批量下载知网(cnki)论文_Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记 顶...
Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记 由于需要也是为了督促自己学习新的东西,我原本想要尝试着写一个爬虫程序,能够在cnki上自动得将论文进行批量 ...
- 《知网》被停用的背后,CNKI数据库是否占据主要因素?
近日,一则落款为中国科学院"文献信息中心"的邮件在网上流传.该邮件指责知网近"千万级别"的续订费用和"苛刻"的续订条件,并表示因谈判无法达成 ...
- IEEE 文献下载,文献下载,知网下载
大家好,我是文献检索学堂,专注于在家免费下载文献的科研引路人~ 在家如何使用中国知网?暑假刚过去,估计很多小伙伴都有这样的苦恼~ 一.首先认识一下中国知网 知网界面 二.通过搜索框搜索关键词 这里简单 ...
- 同是网盘下载工具,Pan Download和速盘Speedpan的对比
由于百度网盘的限速机制,非会员用户想要拥有类似迅雷下载那种超快的,甚至满带宽的下载速度,变得几乎不可能.广大的非会员用户非常渴求一种免费的下载工具,能够破除百度网盘的限速机制,快速下载网盘资源.速盘和 ...
- 知网、万方数据库免费下载论文------比连接学校内网速度快数倍不止(有的学校万方数据库不支持下载)
最近正值毕业设计准备之际,相信很多小伙伴没法下载论文,不过有部分计算机专业的小伙伴肯定有办法的. 之前使用学校开发的***(不多说,因为打上发不出来)软件可以连接学校内网,不过只有老师才能拥有账号,并 ...
- Internet Download Manager(IDM)下载器 (世上最好用的下载软件,可以和插件,同时运用,可不限速下载百度网盘,下载所有视频,软件只有7M)
安装 Internet Download Manager(IDM)下载器 下载地址 : Internet官网 安装成功后浏览器扩展栏中会出现 IDM 图标 , 成功后重启浏览器 (Chrome浏览 ...
- 可爱的python下载_GitHub - palxiao/PythonWebSpider: 一个可爱的python简单爬虫
Python网络爬虫 语言环境:Python2.7 运行爬虫入口开始爬取 output.html查看结果 简单py爬虫,修改入口及解析器改变规则 新增存入数据库操作 需要插件(MySql) 补充:(折 ...
- 国内外文献下载(万方知网IEEE)
学校并没有购买文献数据库,没办法只能找网上的一些方法了. 国内文献下载: 在广西壮族自治区读书馆注册账号:http://www.gxlib.org.cn/ 点击电子证注册,填写一下信息就可以了. 登录 ...
- python 类 对象 知乎_GitHub - egrcc/zhihu-python: 获取知乎内容信息,包括问题,答案,用户,收藏夹信息...
zhihu-python:获取知乎信息 注意: 本项目不再维护更新! zhihu-python 采用 Python2.7 编写,用来方便地获取知乎上各种内容的信息,并且可以方便地将答案备份导出为 tx ...
最新文章
- 关于一个局部变量未初始化引发的项目异常退出问题
- Cypress 的 before 和 beforeEach 钩子函数的使用方式
- 算法导论第三版第十一章11.1-4
- vs2010的sdf文件和ipch文件夹
- c语言删除元素1116,C语言网蓝桥杯1116 IP判断
- (十八)密度聚类DBSCAN
- 使用Delphi开发linux应用
- IntelliJ IDEA安装lombok
- 游戏开发及游戏(2D/3D,Cocos2d Unity)小Demo(进行中)- Android
- PD快充DRP-TypeC连接状态机详解
- html中哪些字体不识别中文字体,div字体_正确设置div兼容的汉字中文字体
- 周末了,看,首富出门遛狗。
- 暖暖CEO姚润昊:“公司80%都是女生,大多是踏实的90后”
- 用函数调用编写程序,函数的功能是:根据以下公式计算s,计算结果作为函数值返回;n通过形参传入。s=1+1/(1+2)+...+1/(1+2+3+...+n).)
- android指南针功能,轻松实现Android指南针功能
- 2023牛寒5--小沙の赌气
- 《Java程序设计》第三周学习总结
- Python之保留小数点后n位、向上取整、向下取整以及四舍五入函数
- C语言 if语句详解
- @程序员,你也是一杯茶,一支烟,一个BUG 改一天吗?