CNKI_download 中国知网爬虫

项目是基于Python3 实现的爬取知网数据的爬虫,可根据知网高级检索进行搜索,提供文献基本信息、文献下载、文献摘要等详细信息爬取功能。

实现过程可以查看我的博客

程序运行如下:

详细信息excel表格如下:

下载caj如下:

特点

通过发送解析包形式抓取数据,相比于使用selenium等方式性能稍高一些。

可使用知网高级检索功能进行搜索,更高效检索文献。

可根据网络及知网反爬虫情况选择性开启详细信息抓取及下载caj文献功能。

利用excel表格快速查看所需文献摘要等信息,可根据excel提供下载链接选择性下载,防止下载过快导致知网反爬。

使用方法

安装依赖

在验证码处理部分使用了tesserocr,不过验证效果目前不是很好,所以默认开启手动识别验证码。

如果本地没有安装tesseract,可以先安装这个,再执行pip install tesserocr。或者将CrackVerifyCode.py文件第15、63、64行注释后再执行安装命令。

pip install -r requirements.txt

配置选项

# Config.ini 为项目配置文件

# 0为关闭 1为开启

isDownloadFile = 1 # 是否下载文件

isCrackCode=0 # 是否自动识别验证码

isDetailPage=0 # 是否保存文献详细信息到excel

isDownLoadLink # 是否在excel中保存下载链接

stepWaitTime=5 # 每次下载及爬取详情页面停顿时间

建议下载和爬取详情页面不要同时开启,停顿时间不低于3秒。

启动程序

python main.py

运行后文件结构说明

爬虫运行完毕后,所有数据将保存在data文件夹下,data文件夹每次重新运行程序会自动删除旧的。

CNKI_download

-- data 存放所有爬取数据

-- CAJs 存放所有下载的caj原文

-- xxxxxxx.caj

-- xxxxxxx.caj

-- Links.txt 所有爬取文献的下载链接

-- ReferenceList.txt 爬取文献简要信息

-- Reference_detail.xls 文献详细信息excel表

注意事项

项目运行的前提是电脑可以通过ip访问知网并下载(一般学校都买了数据库),快写完时候发现目前还有一个跳转接口,后续后增加公网访问。

如果出现“远程主机拒绝了访问”可以适当加长每次停顿的时间。

如果在运行过一次后,再次运行前记得关闭data文件夹中所有文件,否则可能会由于无法删除data文件夹报错。

如果只爬取信息不下载的话,可能会在运行1000条文献左右出现反复输入验证码情况(即使输入正确)。目前还不知道是什么原因

TO DO LIST

完成高级检索的其他未实现功能。

增加指定开始爬取页面信息,实现从上次错误处再次爬取。

增加公网跳转至知网接口,保证无法IP登录用户也可使用本爬虫。

创建代理池,基于公网跳转实现代理ip访问,减少知网封ip及输入验证码次数。

撰写程序实现及分析过程记录。

python知网下载_GitHub - ppho99/CNKI-download: 知网(CNKI)文献下载及文献速览爬虫相关推荐

  1. python 批量下载知网(cnki)论文_Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记...

    ‍Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记‍ 由于需要也是为了督促自己学习新的东西,我原本想要尝试着写一个爬虫程序,能够在cnki上自动得将论文进行批量 ...

  2. python 批量下载知网(cnki)论文_Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记 顶...

    ‍Python 实现 CNKI批量下载 和FireFox Extension 入门学习笔记‍ 由于需要也是为了督促自己学习新的东西,我原本想要尝试着写一个爬虫程序,能够在cnki上自动得将论文进行批量 ...

  3. 《知网》被停用的背后,CNKI数据库是否占据主要因素?

    近日,一则落款为中国科学院"文献信息中心"的邮件在网上流传.该邮件指责知网近"千万级别"的续订费用和"苛刻"的续订条件,并表示因谈判无法达成 ...

  4. IEEE 文献下载,文献下载,知网下载

    大家好,我是文献检索学堂,专注于在家免费下载文献的科研引路人~ 在家如何使用中国知网?暑假刚过去,估计很多小伙伴都有这样的苦恼~ 一.首先认识一下中国知网 知网界面 二.通过搜索框搜索关键词 这里简单 ...

  5. 同是网盘下载工具,Pan Download和速盘Speedpan的对比

    由于百度网盘的限速机制,非会员用户想要拥有类似迅雷下载那种超快的,甚至满带宽的下载速度,变得几乎不可能.广大的非会员用户非常渴求一种免费的下载工具,能够破除百度网盘的限速机制,快速下载网盘资源.速盘和 ...

  6. 知网、万方数据库免费下载论文------比连接学校内网速度快数倍不止(有的学校万方数据库不支持下载)

    最近正值毕业设计准备之际,相信很多小伙伴没法下载论文,不过有部分计算机专业的小伙伴肯定有办法的. 之前使用学校开发的***(不多说,因为打上发不出来)软件可以连接学校内网,不过只有老师才能拥有账号,并 ...

  7. Internet Download Manager(IDM)下载器 (世上最好用的下载软件,可以和插件,同时运用,可不限速下载百度网盘,下载所有视频,软件只有7M)

      安装 Internet Download Manager(IDM)下载器 下载地址 : Internet官网 安装成功后浏览器扩展栏中会出现 IDM 图标 , 成功后重启浏览器 (Chrome浏览 ...

  8. 可爱的python下载_GitHub - palxiao/PythonWebSpider: 一个可爱的python简单爬虫

    Python网络爬虫 语言环境:Python2.7 运行爬虫入口开始爬取 output.html查看结果 简单py爬虫,修改入口及解析器改变规则 新增存入数据库操作 需要插件(MySql) 补充:(折 ...

  9. 国内外文献下载(万方知网IEEE)

    学校并没有购买文献数据库,没办法只能找网上的一些方法了. 国内文献下载: 在广西壮族自治区读书馆注册账号:http://www.gxlib.org.cn/ 点击电子证注册,填写一下信息就可以了. 登录 ...

  10. python 类 对象 知乎_GitHub - egrcc/zhihu-python: 获取知乎内容信息,包括问题,答案,用户,收藏夹信息...

    zhihu-python:获取知乎信息 注意: 本项目不再维护更新! zhihu-python 采用 Python2.7 编写,用来方便地获取知乎上各种内容的信息,并且可以方便地将答案备份导出为 tx ...

最新文章

  1. 关于一个局部变量未初始化引发的项目异常退出问题
  2. Cypress 的 before 和 beforeEach 钩子函数的使用方式
  3. 算法导论第三版第十一章11.1-4
  4. vs2010的sdf文件和ipch文件夹
  5. c语言删除元素1116,C语言网蓝桥杯1116 IP判断
  6. (十八)密度聚类DBSCAN
  7. 使用Delphi开发linux应用
  8. IntelliJ IDEA安装lombok
  9. 游戏开发及游戏(2D/3D,Cocos2d Unity)小Demo(进行中)- Android
  10. PD快充DRP-TypeC连接状态机详解
  11. html中哪些字体不识别中文字体,div字体_正确设置div兼容的汉字中文字体
  12. 周末了,看,首富出门遛狗。
  13. 暖暖CEO姚润昊:“公司80%都是女生,大多是踏实的90后”
  14. 用函数调用编写程序,函数的功能是:根据以下公式计算s,计算结果作为函数值返回;n通过形参传入。s=1+1/(1+2)+...+1/(1+2+3+...+n).)
  15. android指南针功能,轻松实现Android指南针功能
  16. 2023牛寒5--小沙の赌气
  17. 《Java程序设计》第三周学习总结
  18. Python之保留小数点后n位、向上取整、向下取整以及四舍五入函数
  19. C语言 if语句详解
  20. @程序员,你也是一杯茶,一支烟,一个BUG 改一天吗?

热门文章

  1. 破解大众点评 css加密
  2. 2019腾讯广告算法大赛题目理解与数据探索(含代码)
  3. ThinkPHP5.0 查询条件where()使用
  4. 安徽 gis epsg
  5. 广告传媒实际税负怎么计算_增值税的理论税负和实际计算公式
  6. 激光雷达与组合导航标定
  7. 安卓手机SSH远程链接服务器教程
  8. 微信公众号服务号怎么添加模板消息给所有粉丝群发
  9. 深度学习:有监督学习、无监督学习和半监督学习
  10. sublime 3207 激活