依据作者及单位在知网检索文献汇总至Excel 实践(2021.6.9)

  • 1、知网依据作者及单位检索文献
    • 1.1 检索实例(29条结果)
      • 1.1.1 20个页面每页显示20条检索结果
      • 1.1.2 1个页面每页显示50条结果
  • 2、将检索文献结果汇总至Excel
    • 2.1 纯手工复制粘贴(针对检索结果少且页数不多 较为可行)
    • 2.2 Python解析检索结果所在的HTML页面(操作性强)
      • 2.2.1 获取1个页面对应的HTML页面代码
      • 2.2.2 HTML页面代码格式化
      • 2.2.3 Python解析各个格式化后的HTML页面获取检索结果

1、知网依据作者及单位检索文献

中国知网, 进入知网页面后点击搜索框右侧的高级检索,进入高级检索页面,选择作者发文检索,可以看到检索条件里只有作者和作者单位两项内容,只需在这两项右侧的文本框中分别输入作者姓名和作者单位后再点击下方的检索按钮即可得到查询结果。



1.1 检索实例(29条结果)

下面以武汉大学的钟燕飞教授为例进行作者发文检索,可以看到检索结果中共有29条中文论文,每页显示20条,总共被划分为2个页面。

1.1.1 20个页面每页显示20条检索结果

以下两张图分别是 第1页(1-20) 和 第2页 (21-29) 所显示的检索结果。

1.1.2 1个页面每页显示50条结果

当然,如上图所示,每页所显示的条数是可以进行设置的,最多设置每页能够显示50条结果,那么29条结果就只会显示在1个页面内,如下图所示。
        第1页:1~29

2、将检索文献结果汇总至Excel

在学习和研究的过程当中,可能往往需要针对性地阅读某些专家学者的大量论文才能有所启发和感悟,那么首先必须将该学者的所有论文检索出来最好汇总到自己的Excel表格当中进行标记,然后针对性地去阅读,这样可能会事半功倍(因为每次检索本身就会花费自己一定的时间和精力)。

2.1 纯手工复制粘贴(针对检索结果少且页数不多 较为可行)

在这个万物互联、信息化高速发展的时代,纯手工复制粘贴的方式实属笨重,但有时在找到更好的方法之前无奈也是可以去尝试的,这里介绍将第1页的结果汇总至Excel的步骤,如果页数多的话每页方法类似。

        浏览器里针对该页面,键盘Ctrl+A全选页面元素后再按住键盘Ctrl+C进行页面文本的复制

        之后在文件夹里新建一个txt文件,键盘按Ctrl+V粘贴到txt文件中,文件内容如下图所示。

        由于虚线框内文本属于目标内容,所以需要在txt里删除目标之前和目标之后的内容,删除后结果如下图所示

        之后需要利用txt文件编辑功能中的替换,将下图中标出的这些空格替换为英文的逗号,,替换完成后如下


        此时,只需要将下载之前的逗号下载这两个字以及下载下方那一行同时选中复制,在此进行替换为空即可完成


        最后将新建文本文档.txt文件另存为ANSI编码后,可以将后缀名改为.csv后用Excel打开查看效果并在第一行添加编号列属性






2.2 Python解析检索结果所在的HTML页面(操作性强)

2.2.1 获取1个页面对应的HTML页面代码


        首先进入知网的作者发文检索界面,在作者对应框中输入作者姓名,在作者单位框中输入对应的作者单位,然后按F12打开开发工具页面,上方选择Network后点击中间的XHR,接下来就可以点击检索按钮进行查找了,当点击检索的那一刻,其实浏览器后台已经发起了Post方式的GetGridTableHtml请求,然后才有了页面下方的检索结果,29个检索结果对应的HTML代码就在Response中,但在Preview中可进行预览。
        然后打开Response,可以看到左侧页面对应的HTML代码,鼠标点击Response下方的HTML代码内部,按住Ctrl+A全选后再按住Ctrl+C复制

2.2.2 HTML页面代码格式化


        利用在线代码格式化工具将剪切板中复制的页面HTML代码粘贴到待格式化HTML下方的文本框中后,点击格式化,待格式化完成后,点击复制格式化代码,将复制的代码粘贴到一个新建的记事本txt文件中即可。

        在文件夹中新建一个记事本文件1.txt(注意保存为ANSI编码)后,将复制的格式化代码粘贴其中,如下图所示。

2.2.3 Python解析各个格式化后的HTML页面获取检索结果

Python解析代码ParseHTMLCNKI.py

print('序号,'+'题名,'+'作者,'+'来源,'+'发表时间,'+'数据库,'+'被引次数,'+'下载次数')
f = open('D:\\搜狗高速下载\\CNKIGet\\1.txt','r')  # 返回一个文件对象
wf = open("D:\\搜狗高速下载\\CNKIGet\\1_parseCNKIHtml.csv",'w')
wf.write('序号,'+'题名,'+'作者,'+'来源,'+'发表时间,'+'数据库,'+'被引次数,'+'下载次数'+'\n')
line = f.readline()  # 调用文件的 readline()方法
while line:if (line.find('<td class="seq">') >= 0):sequence = line.strip('\n')  # 去掉列表中每一个元素的换行符sequence = sequence[sequence.find('filenameClick()" />') + 19:sequence.find('</td>')]line= f.readline()name = line.strip('\n')  # 去掉列表中每一个元素的换行符name = name[name.find('"_blank">') + 9:name.find('</a>')]line = f.readline()author = line.strip('\n')  # 去掉列表中每一个元素的换行符author = author[author.find('"Mark">') + 7:author.find('</font>')]line = f.readline()source = line.strip('\n')  # 去掉列表中每一个元素的换行符source = source[source.find('BaseID=') + 13:source.find('</a>')]line = f.readline()publishdate = line.strip('\n')  # 去掉列表中每一个元素的换行符publishdate = publishdate[publishdate.find('"date">') + 7:publishdate.find('</td>')]line = f.readline()db = line.strip('\n')  # 去掉列表中每一个元素的换行符db = db[db.find('"data">')+7:db.find('</td>')]line = f.readline()citied = line.strip('\n')  # 去掉列表中每一个元素的换行符if(citied.find('"_blank">')>=0):citied = citied[citied.find('"_blank">') + 9:citied.find('</a>')]else:citied = citied[citied.find('"quote">') + 8:citied.find('</td> ')]line = f.readline()download = line.strip('\n')  # 去掉列表中每一个元素的换行符download = download[download.find('void(0);"') + 10:download.find('</a>')]print(sequence+','+name+','+author+','+source+','+publishdate+','+db+','+citied+','+download)wf.write(sequence+','+name+','+author+','+source+','+publishdate+','+db+','+citied+','+download+'\n')line = f.readline()
f.close()
wf.close();


电脑已安装python,打开一个Python的IDE,这里使用PyCharm新建一个项目,设置好Python编译器路径,将上述的ParseHTMLCNKI.py复制到项目中后即可运行,运行后会在控制台输出解析的检索文献信息,同时这些信息也会保存到1_parseCNKIHtml.csv文件中,运行结果如下所示。

        记事本打开1_parseCNKIHtml.csv文件查看结果

        Excel打开1_parseCNKIHtml.csv文件查看结果

知网根据作者及单位检索文献汇总到Excel(2021.6.9)相关推荐

  1. 爬虫练习(一)爬取知网、万方、维普文献标题、作者、刊物来源等信息

    刚刚开始学习Python,今天一周整,浏览了站内一些大侠博客相关内容,自己也尝试着写了一个爬虫. 直接借鉴了几位大侠的经验,如有冒犯之处恳请海涵. 先说说目的吧,本爬虫的目的是根据EXCEL文件的作者 ...

  2. 知网、维普、万方文献一网打尽免费下载,亲测好用哦!

    今天给大家带来中国数据库「三驾马车」:知网.维普.万方三大数据库文献免费下载的方法.今天带小伙伴们走正规途径. 简单介绍一下三大网站. 知网: 期刊类型比较综合,覆盖范围广.以科技信息为主, 涵盖经济 ...

  3. 『重磅』免费无限量下载知网/万方/维普等数据库文献的正规渠道

    本文链接("因果关系推断"微信公众号) 疫情期间迟迟不能返校,科研汪们都渴望可以像以前在学校那样,依旧自由地下载知网/万方/维普文献.今天就向大家推荐一种**『免费无限量』下载学术 ...

  4. Endnote导入知网、EI、IEEE数据库文献

    知网文献: 1.在知网搜索文献后,选中文献,然后在导出与分析-->导出文献-->EndNote,弹出的界面点击导出,这便导出了查找文献的基本信息,为txt格式. 2.将对应的文献下载下来, ...

  5. 计算机视觉论文文献综述怎么找,如何有效在知网寻找属于自己课题的文献综述...

    第一部:登陆知网后,搜索关键词以"金融监管"为例,只搜索[博硕士]论文,期刊,会议那些都不用. 第二步:随便点击一篇文章,进入如下界面,点击[分章下载] 第三步:出现如下界面,点击 ...

  6. 如何在ubuntu16.04上阅读中国知网(CAJ格式)的文献

    相信很多小伙伴在ubuntu环境下搞学术研究,但是知网上的CAJ文献只能通过CAJViewer进行阅读,这个阅读软件只提供Win与Mac版的,下面简单介绍下如何在linux环境中打开知网文献: 1.安 ...

  7. 中国知网如何下载pdf格式的文献

    中国知网上下载的都是caj格式的文章,十分的不方便,那么有办法下载pdf格式的文献吗 答案是肯定的: 中国知网海外版本就可以,网址如下: http://new.oversea.cnki.net/ind ...

  8. 【经验】CiteSpace|Wiley Online Library或除知网以外的其他网站的文献怎么导入CiteSpace 6.1.6?

      如果没安装,请看这篇博客安装,现在新版(6.1.6)的不需要额外下载java了,就很妙~:   最新版citespace软件的安装与配置   结论:导出成RIS然后用它自带的转换成WoS. 文章目 ...

  9. 中国知网文献引用导入EndNote9.X,Web of science导入endnote以及谷歌学术导入endnote图文详解,全网最细版本适用EndNote9.x,Endnote20版本

    文章目录 一.EndNote导入文献的以下几种格式 1.1 中国知网 1.2web of science 1.3 谷歌学术 一.EndNote导入文献的以下几种格式 all as we konow,引 ...

最新文章

  1. 生成树计数Matrix-Tree定理-数学
  2. 自己动手用Springboot实现仿百度网盘
  3. 3.1 Android组件intent filter
  4. 有关sublime的一些使用
  5. java中IOUtil.readLong_使用io/ioutil进行读写文件
  6. 360产品演示代码 css3 html5,HTML5 CSS3代码的三维展示
  7. (一)uboot的移植与制作
  8. (干货!最全)Tomcat入门
  9. OpenShift 4 之 Hello-OpenShift
  10. linux nginx mysql php 5.5.,编译安装Linux + Nginx1.10 + Mysql5.5 + PHP5.6
  11. 汇编debug与masm命令
  12. apache的开源项目-模板引擎(Velocity)(转)
  13. Linux操作系统——类UNIX系统
  14. Visual Components 4.0仿真软件优势
  15. 衡量公司盈利能力的重要指标-净资产收益率
  16. Android仿人人客户端(v5.7.1)——个人主页(三)
  17. 利用matlab实现非线性拟合(三维、高维、参数方程)
  18. kali 将系统文件夹名称设置为英文
  19. 如何判断一家创业公司是否值得加入?
  20. 关于有道云笔记md文档图片不显示的解决方案

热门文章

  1. 处理器最新排行_手机推荐:最新!手机性能排行榜 你用的是什么处理器?
  2. Greenplum 优化 - 分布式键,重建索引,序列
  3. linux MySQL操作
  4. winXp 共享打印问题处理方法(终极版)
  5. 基于51单片机+ULN2003控制步进电机S曲线加减速
  6. mysql 某个日期加七天_Mysql时间操作(当天,昨天,7天,30天,半年,全年,季度)...
  7. border渐变 ios_iOS实现颜色渐变
  8. 1GB等于多少MB?
  9. android计时器和倒计时
  10. 传输指令——MOV、FMOV、BMOV、SMOV、SWAP