cnki-spyder-tool

一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录

范例

使用时需要将文件tool.py放在正确的位置

import sys

sys.path.append(".")

import tool as cnki

from pprint import pprint as fprint

if __name__ == "__main__":

tmp = cnki.get_doc_url_set("牛丽慧","南京大学")

fprint(tmp)

res_file = open("res.csv","a",encoding="utf-8",newline="")

for item in tmp:

cnki.get_doc_bibilo(item,res_file)

res_file.close()

文档

Help on module tool:

NAME

tool

DESCRIPTION

Eng:

This module is written for scraping bibilograph of literature from cnki.

It relies on python modules below:

1. requests

2. bs4

you can easily get them using tool like pip.

中文:

这个模块用来爬取中国知网的文献题录。

它依赖于以下的Python模块:

1.requests

2.bs4

你可以使用像pip这样的工具容易地获取它们。

FUNCTIONS

get_doc_bibilo(doc_url, res_file)

this function return bibliograph of the specified doc url by writting into the specified file

Args:

doc_url: specified doc url

res_file: target res file

get_doc_url_set(author_name, unit_name)

This function simulates the behavior that you open the website:

http://yuanjian.cnki.com.cn/

and enter the dictionary:

{"作者":"foo","作者单位":"bar"}

and click the search button

as you get the response page, you can get url set of all the page,

it needs support of function:

def get_next_page_doc_url_set(author_name,page_num,unit_name):

to deal with the demond of page turning

Args:

author_name: author's name

unit_name: author's unit name

Returns:

return set of doc urls

get_next_page_doc_url_set(author_name, page_num, unit_name)

this function support the function:

def get_doc_url_set(author_name,unit_name):

get urls of specified page.

Args:

author_name: author's name

page_num: specified page number

unit_name: author's unit name

Return:

return set of doc urls

FILE

/root/workbench/cnki-spyder-tool/tool.py

python知网工具,一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录...相关推荐

  1. 爬虫python需要什么软件-python大神们!都在用什么爬虫工具呢?

    python大神们!都在用什么爬虫工具呢? Python开发爬虫常用的工具总结 reqeusts:Python HTTP网络请求库; pyquery: Python HTML DOM结构解析库,采用类 ...

  2. 不解:只有用官方工具,中国宽带网速才达标

    网速不达标无条件赔付被指噱头 北京联通近日开始推出宽带速率不达标无条件赔付,但此举也引发了很大争议,不少用户认为这不过是一种噱头,运营商自己的测速结果总是显示达标,这种结果可信度有多高?又如何能兑现赔 ...

  3. 用Python给我写一个爬取网易云的音乐代码

    好的,为了爬取网易云音乐,我们需要使用一些第三方库来帮助我们处理网络请求和解析 HTML/XML 数据.在这里,我建议您使用 requests 库来发送网络请求和 Beautiful Soup 库来解 ...

  4. 关于大成资源网这一个月大成网停更详细原因

    关于大成资源网的历史,可以从2021年开始说,站长大成创办的时候也就16岁左右. 那时候大成只是一个虚度年华的中专生,在课余的时间对网络比较感兴趣,那时候像这类同行娱乐网网站可以说是没几家或者是压根没 ...

  5. Linux双网卡:一个配置外网,一个配置内网

    1. 首先查看机器是否是双网卡,命令如下: lspci | grep -i ether 记得不要用ifconfig,如果另外一张网卡没有接网线的话就不对: 2. 然后确保两个网卡都连接到了交换机上,开 ...

  6. python标记_Python实现一个简单的图片物体标注工具

    # coding: utf-8 """ 物体检测标注小工具 基本思路: 对要标注的图像建立一个窗口循环,然后每次循环的时候对图像进行一次复制, 鼠标在画面上画框的操作.画 ...

  7. python爬虫为什么xpath路径正确却检索不到内容_中国知网爬虫

    一.知网介绍 提起中国知网,如果你曾经写过论文,那么基本上都会与中国知网打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外.但是,本次重点不在于写论文跟查重上,而在于我们要爬取知网上一些论文的数 ...

  8. 计算机检索的辅助检索方法有,中国知网等文献检索的一般方法.docx

    文档介绍: 文献检索一般方法同学们:可能你们目前接触到的文献并不多,但以后你的作业和设计很大一部分要求自己查阅文献,期刊,论文来解决(比如说:微生物学,微生物工程工艺原理,酶工程,白酒工艺学,啤酒工艺 ...

  9. 中国知网html如何复制,中国知网如何快速导出参考文献的格式? 来看看吧

    写论文时,需要很多引文及注释,就需要把参考文献标注上.按照参考文献的引文格式一点一点整理很麻烦,涉及大量文献时费时费力.中国知网有快速导出参考文献格式的功能,可单个导出,也可以大量导出,方便实用. 工 ...

最新文章

  1. 重新启动C++Builder
  2. 液晶模块 LM6063A接口转接
  3. 大型互联网应用中的日志系统
  4. 新口令范筹(Token Scope)- viewables:read
  5. 04-多核多cluster多系统之间缓存一致性概述
  6. 仓库移动_移动式仓库、检修作业平台、储油柜胶囊破裂检测装置……这场科技秀超燃!...
  7. Python学习17 Turtle库绘图
  8. DotNet微信公众号简介
  9. 网络协议收发数据问题
  10. C++11中shared_ptr智能指针用法
  11. 每日算法系列【LeetCode 719】找出第 k 小的距离对
  12. Python学习:垃圾回收机制
  13. 不符合python命名规则的是_下面不符合Python语言命名规则的是__________。
  14. 中小企业如何危中求机?接住这套私域流量低成本解决方案!
  15. PPP协议(PPP协议链路建立过程、PAP、CHAP、华为虚拟网络设备配置)
  16. Python3,我把新年祝福写在“雨“中,你看,雨一直下,气氛还算融洽,在同个屋檐下....
  17. 2021高考汇文中学成绩查询,2021年北京高考英语阅读理解评析(北京汇文中学)...
  18. 异常:“严重: The web application [] appears to have started a thread named [Thread-”
  19. 用计算机设置变大的命令按钮 vb,2017年9月计算机二级考试VB考试题
  20. VC 常见的108个问题

热门文章

  1. idea ssm框架搭建
  2. ospf 的cost 与Metric
  3. 西门子PLC与昆仑通态触摸屏恒压供水程序,使用ABB变频器4 85接口通过Modbus协议进行通讯和控制
  4. CNN卷积神经网络原理与公式讲解
  5. 自动化控制编程软件(PLC/软PLC/Labviw/C#)特点
  6. html中设置浏览器解码方式
  7. 云迁移实践:VMware虚拟机迁移到OpenStack
  8. ML模型特点以及区别
  9. 机器学习基础之模型篇-----二元分类和多元分类
  10. Shell脚本:一键优化系统脚本