2,快捷采集的使用方法:如何使用快捷采集

在中国知网通过高级检索,输入关键词后抓取相关文章的标题、作者、摘要、关键词等信息。但是中国知网在输入关键词搜索后网址并不会发生变化,所以在抓取的时候我们需要爬虫自动输入目标关键词搜索后,开始抓取数据。

要抓取到标题、作者、摘要、关键词等信息,我们一共需要做四个规则:

第一个规则“

第二个规则“

Tips:有些文章的摘要需要点击“更多”才能显示全部,为了抓取完整的摘要我们需要做一个规则来点击这个“更多”.

第三个规则“

第四个规则“

图1

一、第一个规则——知网_搜索

1.以中国知网高级检索文献文章为例,将文献高级检索的链接:http://epub.cnki.net/kns/brief/result.aspx?dbPrefix=scdb&action=scdbsearch&db_opt=SCDB 粘贴到谋数台中。

第一个规则的主要工作是为了搜索关键词,但是为了规则有效执行,在一个规则中我们抓取文章类型,在这里以文献为例我们抓取的内容就是“文献”并且勾上关键内容。

图2

如图2所示,具体操作如下:

#1.将目标抓取网页粘贴到谋数台网址栏处,并回车。

#2.看到网页加载完成。

#3.将抓取内容“文献”映射到整理箱中。

#4.将文献勾选关键内容。

2.跳转到连续动作工作台输入关键词及其动作

自动输入关键词的要点是要建立两条步骤,第一条步骤通过输入框的定位表达式来找到输入框后输入关键词。第二条步骤则是通过定位表达式找到搜索按钮然后爬虫自行点击按钮。

2.1建立输入步骤

图3

如图3所示,具体操作如下:

#1.输入目标主题名也就是第二个规则主题名,表示搜索关键词后由第二个规则来执行抓取

#2.点击谁在用查看输入的主题名是否有被别人占用,如果被别人已经占用则需要更换别的主题名。

#3.新建一条输入步骤,上文已经提到首先是进行输入动作,所以这里是新建一条输入步骤。

#4.输入要搜索的关键词。

#5.根据网页结构填写输入框的定位表达式也就是能够在网页上定位到输入框的XPath表达式,写好一个表达式后,可以利用MS谋数台的搜索功能,验证一下是否定位准确,具体参看搜索网页内容的使用方法。

2.2建立提交步骤

图4

如图4所示,具体操作如下:

#1.根据网页结构填写检索的定位表达式也就是能够在网页上定位到输入框的XPath表达式,写好一个表达式后,可以利用MS谋数台的搜索功能,验证一下是否定位准确,具体参看搜索网页内容的使用方法。

存规则后知网_搜索这个规则就完成了。

二、第二个规则——知网_搜索结果

这个规则负责来抓取由知网_搜索进行关键词搜索后的页面,该规则和定义普通规则操作相同。

将要抓取的内容映射到整理箱中,我们要抓取每篇文章的详细数据摘要作者等,则需建立层级抓取,在当前规则抓取每篇文章的详细数据页面的网址来为知网_文章数据生成线索。

图5

如图5所示,具体操作如下:

#1.将要抓取的下级链接映射到整理箱中

#2.勾关键内容

#3.点击整理箱顶节点做样例复制,要抓取当前页面所有文章的下级链接就需要做样例复制,详细参看教程:

#4.跳转到爬虫路线工作台做翻页线索,要抓取翻页后的文章就要做翻页线索,详细参看教程:

存规则后知网_搜索结果规则就完成了,接下来就需要做文章详细页面的抓取规则。

三、第三个规则——知网_文章数据_更多

1.将网页上的“更多”按钮做内容映射映射到整理箱中,并勾选关键内容。

2.在爬虫路线工作台做模拟点击,即为将“更多”作为记号做一条记号线索。

图6

如图6所示,具体操作如下:

#1.新建一条记号线索,并勾选连贯抓取,表示在执行抓取任务时,爬虫可以在同一个DS打数机窗口内抓取完当前页面后直接跳转到下一个页面进行抓取。

#2.点击“更多”按钮,自动定位到网页标签节点,展开节点,找到包含“更多”的text节点。

#3.右击text节点,线索映射→记号线索,可以看到“更多”自动填入到记号值。

#4.将节点做线索范围映射,右击翻页区块节点,选择线索映射→定位→线索1。完成后定位编号会显示翻页区块节点的定位编号。

存规则后知网_文章数据_更多规则就完成了,接下来就需要做点完“更多”知网来执行抓取的规则——知网_文章数据。

Tips:第三个、第四个规则演示的就是模拟点击,如果有不明白的同学可以参看教程:

四、第四个规则——知网_文章数据。

这个规则是最简单的类型,将需要抓取的内容映射到整理箱中即可。

图7

如图7所示,具体操作如下:#1.将要抓取的内容做内容映射到整理箱中。

五、修改文章详细页面网址参数,构造出新的网址,为第三个规则——知网_文章数据_更多生成线索

将第二个规则采集到的详情页链接导入excel。

图8

可以发现不是完整的网址,DS打数机也无法构造网址直接生成可访问的网址,所以需要用excel手动修改。

对比详情页的完整网址,如下所示:

http://www.cnki.net/KCMS/detail/detail.aspx?QueryID=2&CurRec=1&recid=&filename=GGYY201410012&dbname=CJFDLAST2015&dbcode=CJFQ&pr=&urlid=&yx=&v=MTY1NDFyQ1VSTCtlWnVkc0Z5emhXcnJBSWlyU2Q3RzRIOVhOcjQ5RVpvUjhlWDFMdXhZUzdEaDFUM3FUcldNMUY=

可以发现采集到的链接少了前面的域名,并多了“/kns”这部分,可用函数修改链接,

图9

在单元格J2输入公式="http://www.cnki.net/KCMS"&RIGHT(I2,LEN(I2)-4)得到可访问的网址,并往下填充,这样得到的网址就可以批量添加作为第三个规则的线索。

若有疑问可以或

java 知网爬虫_怎样抓取中国知网数据相关推荐

  1. java 爬数据工具 知乎_知乎爬虫之4:抓取页面数据

    本文由博主原创,转载请注明出处:知乎爬虫之4:抓取页面数据 咱们上一篇分析了知乎的登陆请求和如何拿到粉丝/关注的请求,那么咱们这篇就来研究下如何拿利用Jsoup到咱们想要的数据. 那么咱们说下,首先请 ...

  2. 知乎爬虫之4:抓取页面数据

    git爬虫项目地址( 终于上传代码了~~~~关注和star在哪里):https://github.com/MatrixSeven/ZhihuSpider(已完结) 附赠之前爬取的数据一份(mysql) ...

  3. python怎么爬虎牙_使用python爬虫框架scrapy抓取虎牙主播数据

    前言 本文利用python的scrapy框架对虎牙web端的主播.主播订阅数.主播当前观看人数等基本数据进行抓取,并将抓取到的数据以csv格数输出,以及存储到mongodb中 思路 观察虎牙网站后确认 ...

  4. 抓取中国天气网当前时段所有城市的天气数据(python+xpath)

    先给大家看一看效果图(我一共获取到了462个城市的天气): 前不久,2019年开放数据中心峰会在北京国际会议中心成功召开,ODCC指出:"对数据进行汇聚,在体系化融合中产生新的价值已成为未来 ...

  5. python爬虫实战之爬取中国农药网

    前言:这算是和研究生老师第一次正式的进行项目,虽说开始的有点随便,但是第二战还是挺成功的!自己作为一个本科生,也很幸运可以跟着学点知识,随便帮自己学院的老师出点力.还记得第一次交接任务时是和陈瑞学长, ...

  6. 网络爬虫中Fiddler抓取PC端网页数据包与手机端APP数据包

    1 引言 在编写网络爬虫时,第一步(也是极为关键一步)就是对网络的请求(request)和回复(response)进行分析,寻找其中的规律,然后才能通过网络爬虫进行模拟.浏览器大多也自带有调试工具可以 ...

  7. python淘宝爬虫基于requests抓取淘宝商品数据_python淘宝爬虫基于requests抓取淘宝商品数据...

    在学校蹭过python的课,觉得python异常强大,趁寒假有时间,瞎搞一下,希望能和大伙一起探讨学习.废话不多说了,直接正题. requests 是Python的http库,可以完成绝大部分与htt ...

  8. python淘宝爬虫基于requests抓取淘宝商品数据

    在学校蹭过python的课,觉得python异常强大,趁寒假有时间,瞎搞一下,希望能和大伙一起探讨学习.废话不多说了,直接正题. requests 是Python的http库,可以完成绝大部分与htt ...

  9. python爬虫怎么提取网页信息_Python爬虫是如何抓取并储存网页数据的?

    以下文章来源于早起Python ,作者刘早起 早起Python 专注于Python爬虫/数据分析/办公自动化 爬虫是Python的一个重要的应用,使用Python爬虫我们可以轻松的从互联网中抓取我们想 ...

最新文章

  1. 算法笔记-桶排序代码与原理、非比较排序、计数排序、基数排序、C#代码
  2. R构建列联表(Contingency Table or crosstabs)
  3. Linux C编程--进程介绍6--进程的各种标识
  4. 那些年Android黑科技①:只要活着,就有希望
  5. 使用postman消费Marketing Cloud的contact读取API
  6. 1.1 创建 Android 项目
  7. linux进程阻塞的原因,释放大块内存时的阻塞问题
  8. 中讯环亚开始招大客户销售啦
  9. linux 防火墙 80端口,Linux配置防火墙,开启80端口、3306端口
  10. 基于SSM的新闻管理系统
  11. SuSE Linux 9.1 Pro + 永中Office2004简单评测
  12. 计算机打字正确姿势,电脑打字手指的正确姿势,涨知识了
  13. 杂记(关于域名、网名以及一些常用图像格式、像素)
  14. 廖雪峰的0Python教程
  15. css中vh/vw与%的区别
  16. 智能网联汽车信息安全研究报告
  17. WHU 1572 Cyy and Fzz(AC自动机+dp)
  18. 2020“数维杯”国际大学生数学建模竞赛赛题分析
  19. [电路]4-两端电路等效变换、电阻串并联
  20. 如何使用 React 编写无限滚动列表

热门文章

  1. 用selenium给我的flask商品中心服务整点样例数据
  2. 不良资产回收处置创新方式
  3. Python 转义字符\r,\n,\t,\\,\b
  4. CRC 转载自poiu_elab用于收藏
  5. vue组件的总结( 组件传值 )
  6. 面条html5,6道面条分享,味道都不错,做法也简单
  7. 001 摄像头拍照+旋转+截取部分+计算棋盘的四个角点坐标+四点定位拉伸
  8. 基于springboot的健身房管理系统(mysql)-JAVA.VUE【数据库设计、论文、源码、开题报告】
  9. Android实现音乐后台播放
  10. Euler Operators