这个记录一下webscraper的使用过程。帮朋友爬取山东慈善总会的网页。由于比较简单,我不想写代码了,就用webscraper把。

首先是网站上的新闻,如图:

这个新闻有13页,都是比较简单的网页。问题在于要爬去多个页面,然后提取二级页面的内容。

使用webscraper,

这里就是需要二级页面的内容,包括title, time, content。links是设置的链接。 页面的链接形式自由最后一个数字在变:

eaa-7aef73cf6329&page=2

如下:

所以startI_url 就用中括号, 从1-13, 设置步长为1.这样就会爬取13也的新闻标题。

然后,建立一个选择器。设置名字是links, type 这里要选择link,因为是链接,需要点击进去,多选选中,然后点选每一个标题,就可以得到新闻的链接。

保存这个而选择, 在下面在设置其他三个选择器。

这里需要输入名字是title, 需要点击进入一个二级页面。然后进一步选择标题,时间,内容,逐个设置。

设置好了以后,是这样的。

可以看到他们的父选择器是links。是上面的最开始的新闻目录页。

然后开始愉快的爬取。很快。

下一步是爬取微博。

微博比较讨厌,一直头大,后来想了想,还是不写代码了。不管写代码和是其他,都得访问微博手机版。因为微博电脑版很麻烦。所以推荐使用手机版。就是在电脑里登陆微博手机版。

比如山东慈善总会的微博。

电脑版是这样的

而,手机版是这样的。

如果使用代码,那么就需要分析这个地址。

https://m.weibo.cn/api/container/getIndex?uid=5676362252&t=0&luicode=10000011&lfid=100103type%3D1%26q%3D%E5%B1%B1%E4%B8%9C%E6%85%88%E5%96%84%E6%80%BB%E4%BC%9A&type=uid&value=5676362252&containerid=1076035676362252&since_id=4613643721770979

就是旁边两个xhr应该是都可以。然后变成json,提取内容。也不是很麻烦。但是本着能省事就省事的原则,还是不想写代码。

就用webscraper把。

微博手机版要爬去,需要使用webscraper里面的 元素滚动选择器。

具体是这样的。

首先新建一个container,他是ellement scroll down ,这里点select,选择每一个微博的卡片。

这里需要注意的一点是,首页有一个置顶微博,不用选,如果选它,就会影响后面的一般微博的选择。

select的css是:

div:nth-of-type(n+4) div.card-wrap

其实我是有点怀疑这个css对不对。感觉好复杂,而且不一定能够找到元素。不符合一点简洁的原则,如果写代码的话,我肯定不会这样用css。另外我还加上一个控制元素数量的css, 就是:

nth-of-type(-n+100),这个是通过别的网页看到的。但是这个功能以前我也用过。在代码里面。没想到webscraper里也可以这样用, 就试试吧。

完整的选择器

div:nth-of-type(n+4) div.card-wrap:nth-of-type(-n+100)

滚动100次,提取每一次所有的微博卡片内容。另外,我看有些微博,还有全文链接。手贱又提取了全文的主要内容。

最后是这样的。

因位微博是简要内容,所以是brief,如果有全文链接,那么就提取全文。就是href里面的内容。

href里又弄了一个。

肿起来是这样的。

不过,webscraper好像没有sleep功能。 我只找到延时,设置了3000ms

后来,微博因位请求太频繁,直接给我

来了个小鸡, 不过好在山东省慈善总会的内容不多,基本上也爬完了。除了小鸡,我也不纠结了。保存成csv发给同事了

我向应该是我爬取全文,造成访问太频繁的原因。

总体来说还行,webscraper使用确实极大提高了工作效率,不用写头大的代码了。

记录webscraper的使用过程相关推荐

  1. 生产中NFS案例记录---写入权限解决过程

        生产中NFS案例记录---写入权限解决过程 NFS配置要求: 1. 将oracle文件写入到NFS Server端,注意权限要与oracle端一致. 2. Oracle端目录文件所属用户为or ...

  2. 又开发好一个系统,详细记录软著申请过程

    大家好,我是小悟 又开发好一个系统,详细记录软著申请过程 经过几个通宵达旦的撸代码之后,又开发好了一个系统,和以往一样,系统开发好了少不了申请软件著作权证书,兄弟们,软著申请搞起来啊. 在版权保护中心 ...

  3. 组装电脑购机指南和记录自己的装机过程

    组装电脑购机指南和记录自己的装机过程 最近家里组装了一台电脑,从采购到组装,前前后后涉及的内容挺多的,我特地在此总结下,防止自己忘记 心急的小白可以直接看配件每部分的总结,你可以略过枯燥的概念,直接比 ...

  4. python爬虫,记录一下爬取过程,列表数据,翻页,post方式,保存字典

    记录一下自己的爬虫的过程把,最近在做个项目. 要爬取的网站比较简单. 其中的问题是: post方式,网站的数据有一些需要使用post方式才能获得. 比如, 这部分要看到<发起的项目>,需要 ...

  5. 【每日随笔】记录完整的劳动仲裁过程 一 ( 赢火虫律师平台 | 赢火虫手机端跟进案件信息 | 等待律师接单 | 提交信息给律师 )

    文章目录 前言 一.赢火虫律师平台 二.赢火虫手机端跟进案件信息 三.提交信息给律师 前言 给一个刚入行的朋友帮忙 , 朋友遇到极品公司 , 拖欠工资 , 这里记录一下处理过程 ; 碰到这种公司 , ...

  6. 史上最详细的UEFI+GTP安装ubuntu18.04LTS全记录,涵盖安装过程中的各种问题,所有的问题都将在这里终结。

    首先,若还有朋友不知道UEFI,可以先百度了解一下.截止到现在2019年,90%的朋友所使用的电脑都支持UEFI,不支持UEFI的电脑应该已经退役的差不多了.所以当你百度了解UEFI之后,相信你会有想 ...

  7. cocos2d-x 3.4版本游戏打包AKP (重点记录如何解决打包过程中遇到的各种问题)

    主要记录下打包遇到的各种问题,主要讲解打包中遇到的问题如何解决.如果大家有何我同样的问题,希望能够帮到你. 过程 一 : 1. 配置环境变量 2.下载 ADT包含(eclipse和SDK)   NDK ...

  8. 简单的时间轴HTML源码 可记录网站的成长过程

    介绍: 无聊乱逛看到一个时间轴的单页引导页,弄下来把源码发给大家, 也方便记录大家网站的成长过程, 网盘下载地址: http://kekewangLuo.net/7kuP6stootR 图片:

  9. CentOS换系统盘记录+home缩容过程

    换系统盘: 之前买了块三星980 1T做CentOS的系统盘,可三星暴0E事件门,让人不踏实,打算换掉.网上查询简便的方法,用dd命令似乎很简单,准备好后就开始行动. 1.插入新盘,不要分区,直接dd ...

最新文章

  1. 接口测试和单元测试的区别
  2. MQ 消息中间件梳理
  3. 天津计算机考研901,2013年天津大学901计算机考研真题
  4. # 字符串从右往左查找_字符串匹配(搜索,查找)算法
  5. 如何开始了解一个新知识(Vuex)
  6. 面向对象三大特性: 封装
  7. 技术员联盟Win11 64位官方全新旗舰版镜像V2021.08
  8. iphone固件降级_手机资讯:降级必备:Phone5如何下载备份SHSH文件
  9. Microsoft Project学习系列(一)
  10. 关于java重载函数,参数为null时,调用的处理。(精确性原则)
  11. currenthashmap扩容原理_HashMap 深入解析(二)
  12. 思步网6月底再次重磅出击:《CrystalBall User Manual 7.3(水晶球操作手册7.3)中英文对照版》
  13. java udp 接收16进制,java udp接收16进制乱码
  14. PHP直播源码js判断浏览器版本
  15. 51单片机串口中断控制灯
  16. centos7部署rap2
  17. 硅谷火爆的云原生,你会玩吗?
  18. Axure8与Axure9交互差异总结-1 移动元件交互事件的差异
  19. 了解眩光与星芒,夜景灯光拍摄翻倍美
  20. 苹果 macOS 12.4 正式版发布

热门文章

  1. 均值极差图控制上下限_SPC之I-MR控制图
  2. 【Paper】2019_Bearing-only circumnavigation control of the multi-agent system around a moving target
  3. 【Matlab 图像】bwlabel() 连通域及图像分割
  4. LaTex 变形的字母
  5. Ardino基础教程 1_让Arduino说出HelloWorld
  6. STM32 进阶教程 20 - 串口+DMA实现OneWire总线
  7. 类和对象—继承—同名成员处理
  8. Android中对Log日志文件的分析
  9. Linux学习记录-11
  10. 11.18-11.19总结(transform,transition,媒体查询,弹性盒子)