python知网工具,一个中国知网的爬虫工具，给定作者，可以获得该作者的所有文献的题录...

cnki-spyder-tool

一个中国知网的爬虫工具，给定作者，可以获得该作者的所有文献的题录

范例

使用时需要将文件tool.py放在正确的位置

import sys

sys.path.append(".")

import tool as cnki

from pprint import pprint as fprint

if __name__ == "__main__":

tmp = cnki.get_doc_url_set("牛丽慧","南京大学")

fprint(tmp)

res_file = open("res.csv","a",encoding="utf-8",newline="")

for item in tmp:

cnki.get_doc_bibilo(item,res_file)

res_file.close()

文档

Help on module tool:

NAME

tool

DESCRIPTION

Eng:

This module is written for scraping bibilograph of literature from cnki.

It relies on python modules below:

1. requests

2. bs4

you can easily get them using tool like pip.

中文：

这个模块用来爬取中国知网的文献题录。

它依赖于以下的Python模块：

1.requests

2.bs4

你可以使用像pip这样的工具容易地获取它们。

FUNCTIONS

get_doc_bibilo(doc_url, res_file)

this function return bibliograph of the specified doc url by writting into the specified file

Args:

doc_url: specified doc url

res_file: target res file

get_doc_url_set(author_name, unit_name)

This function simulates the behavior that you open the website:

http://yuanjian.cnki.com.cn/

and enter the dictionary:

{"作者":"foo","作者单位":"bar"}

and click the search button

as you get the response page, you can get url set of all the page,

it needs support of function:

def get_next_page_doc_url_set(author_name,page_num,unit_name):

to deal with the demond of page turning

Args:

author_name: author's name

unit_name: author's unit name

Returns:

return set of doc urls

get_next_page_doc_url_set(author_name, page_num, unit_name)

this function support the function:

def get_doc_url_set(author_name,unit_name):

get urls of specified page.

Args:

author_name: author's name

page_num: specified page number

unit_name: author's unit name

Return:

return set of doc urls

FILE

/root/workbench/cnki-spyder-tool/tool.py

python知网工具,一个中国知网的爬虫工具，给定作者，可以获得该作者的所有文献的题录...相关推荐

爬虫python需要什么软件-python大神们！都在用什么爬虫工具呢？
python大神们!都在用什么爬虫工具呢? Python开发爬虫常用的工具总结 reqeusts:Python HTTP网络请求库; pyquery: Python HTML DOM结构解析库,采用类 ...
不解：只有用官方工具，中国宽带网速才达标
网速不达标无条件赔付被指噱头北京联通近日开始推出宽带速率不达标无条件赔付,但此举也引发了很大争议,不少用户认为这不过是一种噱头,运营商自己的测速结果总是显示达标,这种结果可信度有多高?又如何能兑现赔 ...
用Python给我写一个爬取网易云的音乐代码
好的,为了爬取网易云音乐,我们需要使用一些第三方库来帮助我们处理网络请求和解析 HTML/XML 数据.在这里,我建议您使用 requests 库来发送网络请求和 Beautiful Soup 库来解 ...
关于大成资源网这一个月大成网停更详细原因
关于大成资源网的历史,可以从2021年开始说,站长大成创办的时候也就16岁左右. 那时候大成只是一个虚度年华的中专生,在课余的时间对网络比较感兴趣,那时候像这类同行娱乐网网站可以说是没几家或者是压根没 ...
Linux双网卡：一个配置外网，一个配置内网
1. 首先查看机器是否是双网卡,命令如下: lspci | grep -i ether 记得不要用ifconfig,如果另外一张网卡没有接网线的话就不对: 2. 然后确保两个网卡都连接到了交换机上,开 ...
python标记_Python实现一个简单的图片物体标注工具
# coding: utf-8 """ 物体检测标注小工具基本思路: 对要标注的图像建立一个窗口循环,然后每次循环的时候对图像进行一次复制, 鼠标在画面上画框的操作.画 ...
python爬虫为什么xpath路径正确却检索不到内容_中国知网爬虫
一.知网介绍提起中国知网,如果你曾经写过论文,那么基本上都会与中国知网打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外.但是,本次重点不在于写论文跟查重上,而在于我们要爬取知网上一些论文的数 ...
计算机检索的辅助检索方法有,中国知网等文献检索的一般方法.docx
文档介绍: 文献检索一般方法同学们:可能你们目前接触到的文献并不多,但以后你的作业和设计很大一部分要求自己查阅文献,期刊,论文来解决(比如说:微生物学,微生物工程工艺原理,酶工程,白酒工艺学,啤酒工艺 ...
中国知网html如何复制,中国知网如何快速导出参考文献的格式？来看看吧
写论文时,需要很多引文及注释,就需要把参考文献标注上.按照参考文献的引文格式一点一点整理很麻烦,涉及大量文献时费时费力.中国知网有快速导出参考文献格式的功能,可单个导出,也可以大量导出,方便实用. 工 ...

python知网工具,一个中国知网的爬虫工具，给定作者，可以获得该作者的所有文献的题录...

python知网工具,一个中国知网的爬虫工具，给定作者，可以获得该作者的所有文献的题录...相关推荐

最新文章

热门文章