python知网工具,一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录...
cnki-spyder-tool
一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录
范例
使用时需要将文件tool.py放在正确的位置
import sys
sys.path.append(".")
import tool as cnki
from pprint import pprint as fprint
if __name__ == "__main__":
tmp = cnki.get_doc_url_set("牛丽慧","南京大学")
fprint(tmp)
res_file = open("res.csv","a",encoding="utf-8",newline="")
for item in tmp:
cnki.get_doc_bibilo(item,res_file)
res_file.close()
文档
Help on module tool:
NAME
tool
DESCRIPTION
Eng:
This module is written for scraping bibilograph of literature from cnki.
It relies on python modules below:
1. requests
2. bs4
you can easily get them using tool like pip.
中文:
这个模块用来爬取中国知网的文献题录。
它依赖于以下的Python模块:
1.requests
2.bs4
你可以使用像pip这样的工具容易地获取它们。
FUNCTIONS
get_doc_bibilo(doc_url, res_file)
this function return bibliograph of the specified doc url by writting into the specified file
Args:
doc_url: specified doc url
res_file: target res file
get_doc_url_set(author_name, unit_name)
This function simulates the behavior that you open the website:
http://yuanjian.cnki.com.cn/
and enter the dictionary:
{"作者":"foo","作者单位":"bar"}
and click the search button
as you get the response page, you can get url set of all the page,
it needs support of function:
def get_next_page_doc_url_set(author_name,page_num,unit_name):
to deal with the demond of page turning
Args:
author_name: author's name
unit_name: author's unit name
Returns:
return set of doc urls
get_next_page_doc_url_set(author_name, page_num, unit_name)
this function support the function:
def get_doc_url_set(author_name,unit_name):
get urls of specified page.
Args:
author_name: author's name
page_num: specified page number
unit_name: author's unit name
Return:
return set of doc urls
FILE
/root/workbench/cnki-spyder-tool/tool.py
python知网工具,一个中国知网的爬虫工具,给定作者,可以获得该作者的所有文献的题录...相关推荐
- 爬虫python需要什么软件-python大神们!都在用什么爬虫工具呢?
python大神们!都在用什么爬虫工具呢? Python开发爬虫常用的工具总结 reqeusts:Python HTTP网络请求库; pyquery: Python HTML DOM结构解析库,采用类 ...
- 不解:只有用官方工具,中国宽带网速才达标
网速不达标无条件赔付被指噱头 北京联通近日开始推出宽带速率不达标无条件赔付,但此举也引发了很大争议,不少用户认为这不过是一种噱头,运营商自己的测速结果总是显示达标,这种结果可信度有多高?又如何能兑现赔 ...
- 用Python给我写一个爬取网易云的音乐代码
好的,为了爬取网易云音乐,我们需要使用一些第三方库来帮助我们处理网络请求和解析 HTML/XML 数据.在这里,我建议您使用 requests 库来发送网络请求和 Beautiful Soup 库来解 ...
- 关于大成资源网这一个月大成网停更详细原因
关于大成资源网的历史,可以从2021年开始说,站长大成创办的时候也就16岁左右. 那时候大成只是一个虚度年华的中专生,在课余的时间对网络比较感兴趣,那时候像这类同行娱乐网网站可以说是没几家或者是压根没 ...
- Linux双网卡:一个配置外网,一个配置内网
1. 首先查看机器是否是双网卡,命令如下: lspci | grep -i ether 记得不要用ifconfig,如果另外一张网卡没有接网线的话就不对: 2. 然后确保两个网卡都连接到了交换机上,开 ...
- python标记_Python实现一个简单的图片物体标注工具
# coding: utf-8 """ 物体检测标注小工具 基本思路: 对要标注的图像建立一个窗口循环,然后每次循环的时候对图像进行一次复制, 鼠标在画面上画框的操作.画 ...
- python爬虫为什么xpath路径正确却检索不到内容_中国知网爬虫
一.知网介绍 提起中国知网,如果你曾经写过论文,那么基本上都会与中国知网打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外.但是,本次重点不在于写论文跟查重上,而在于我们要爬取知网上一些论文的数 ...
- 计算机检索的辅助检索方法有,中国知网等文献检索的一般方法.docx
文档介绍: 文献检索一般方法同学们:可能你们目前接触到的文献并不多,但以后你的作业和设计很大一部分要求自己查阅文献,期刊,论文来解决(比如说:微生物学,微生物工程工艺原理,酶工程,白酒工艺学,啤酒工艺 ...
- 中国知网html如何复制,中国知网如何快速导出参考文献的格式? 来看看吧
写论文时,需要很多引文及注释,就需要把参考文献标注上.按照参考文献的引文格式一点一点整理很麻烦,涉及大量文献时费时费力.中国知网有快速导出参考文献格式的功能,可单个导出,也可以大量导出,方便实用. 工 ...
最新文章
- 重新启动C++Builder
- 液晶模块 LM6063A接口转接
- 大型互联网应用中的日志系统
- 新口令范筹(Token Scope)- viewables:read
- 04-多核多cluster多系统之间缓存一致性概述
- 仓库移动_移动式仓库、检修作业平台、储油柜胶囊破裂检测装置……这场科技秀超燃!...
- Python学习17 Turtle库绘图
- DotNet微信公众号简介
- 网络协议收发数据问题
- C++11中shared_ptr智能指针用法
- 每日算法系列【LeetCode 719】找出第 k 小的距离对
- Python学习:垃圾回收机制
- 不符合python命名规则的是_下面不符合Python语言命名规则的是__________。
- 中小企业如何危中求机?接住这套私域流量低成本解决方案!
- PPP协议(PPP协议链路建立过程、PAP、CHAP、华为虚拟网络设备配置)
- Python3,我把新年祝福写在“雨“中,你看,雨一直下,气氛还算融洽,在同个屋檐下....
- 2021高考汇文中学成绩查询,2021年北京高考英语阅读理解评析(北京汇文中学)...
- 异常:“严重: The web application [] appears to have started a thread named [Thread-”
- 用计算机设置变大的命令按钮 vb,2017年9月计算机二级考试VB考试题
- VC 常见的108个问题