记录webscraper的使用过程
这个记录一下webscraper的使用过程。帮朋友爬取山东慈善总会的网页。由于比较简单,我不想写代码了,就用webscraper把。
首先是网站上的新闻,如图:
这个新闻有13页,都是比较简单的网页。问题在于要爬去多个页面,然后提取二级页面的内容。
使用webscraper,
这里就是需要二级页面的内容,包括title, time, content。links是设置的链接。 页面的链接形式自由最后一个数字在变:
eaa-7aef73cf6329&page=2
如下:
所以startI_url 就用中括号, 从1-13, 设置步长为1.这样就会爬取13也的新闻标题。
然后,建立一个选择器。设置名字是links, type 这里要选择link,因为是链接,需要点击进去,多选选中,然后点选每一个标题,就可以得到新闻的链接。
保存这个而选择, 在下面在设置其他三个选择器。
这里需要输入名字是title, 需要点击进入一个二级页面。然后进一步选择标题,时间,内容,逐个设置。
设置好了以后,是这样的。
可以看到他们的父选择器是links。是上面的最开始的新闻目录页。
然后开始愉快的爬取。很快。
下一步是爬取微博。
微博比较讨厌,一直头大,后来想了想,还是不写代码了。不管写代码和是其他,都得访问微博手机版。因为微博电脑版很麻烦。所以推荐使用手机版。就是在电脑里登陆微博手机版。
比如山东慈善总会的微博。
电脑版是这样的
而,手机版是这样的。
如果使用代码,那么就需要分析这个地址。
https://m.weibo.cn/api/container/getIndex?uid=5676362252&t=0&luicode=10000011&lfid=100103type%3D1%26q%3D%E5%B1%B1%E4%B8%9C%E6%85%88%E5%96%84%E6%80%BB%E4%BC%9A&type=uid&value=5676362252&containerid=1076035676362252&since_id=4613643721770979
就是旁边两个xhr应该是都可以。然后变成json,提取内容。也不是很麻烦。但是本着能省事就省事的原则,还是不想写代码。
就用webscraper把。
微博手机版要爬去,需要使用webscraper里面的 元素滚动选择器。
具体是这样的。
首先新建一个container,他是ellement scroll down ,这里点select,选择每一个微博的卡片。
这里需要注意的一点是,首页有一个置顶微博,不用选,如果选它,就会影响后面的一般微博的选择。
select的css是:
div:nth-of-type(n+4) div.card-wrap
其实我是有点怀疑这个css对不对。感觉好复杂,而且不一定能够找到元素。不符合一点简洁的原则,如果写代码的话,我肯定不会这样用css。另外我还加上一个控制元素数量的css, 就是:
nth-of-type(-n+100),这个是通过别的网页看到的。但是这个功能以前我也用过。在代码里面。没想到webscraper里也可以这样用, 就试试吧。
完整的选择器
div:nth-of-type(n+4) div.card-wrap:nth-of-type(-n+100)
滚动100次,提取每一次所有的微博卡片内容。另外,我看有些微博,还有全文链接。手贱又提取了全文的主要内容。
最后是这样的。
因位微博是简要内容,所以是brief,如果有全文链接,那么就提取全文。就是href里面的内容。
href里又弄了一个。
肿起来是这样的。
不过,webscraper好像没有sleep功能。 我只找到延时,设置了3000ms
后来,微博因位请求太频繁,直接给我
来了个小鸡, 不过好在山东省慈善总会的内容不多,基本上也爬完了。除了小鸡,我也不纠结了。保存成csv发给同事了
我向应该是我爬取全文,造成访问太频繁的原因。
总体来说还行,webscraper使用确实极大提高了工作效率,不用写头大的代码了。
记录webscraper的使用过程相关推荐
- 生产中NFS案例记录---写入权限解决过程
生产中NFS案例记录---写入权限解决过程 NFS配置要求: 1. 将oracle文件写入到NFS Server端,注意权限要与oracle端一致. 2. Oracle端目录文件所属用户为or ...
- 又开发好一个系统,详细记录软著申请过程
大家好,我是小悟 又开发好一个系统,详细记录软著申请过程 经过几个通宵达旦的撸代码之后,又开发好了一个系统,和以往一样,系统开发好了少不了申请软件著作权证书,兄弟们,软著申请搞起来啊. 在版权保护中心 ...
- 组装电脑购机指南和记录自己的装机过程
组装电脑购机指南和记录自己的装机过程 最近家里组装了一台电脑,从采购到组装,前前后后涉及的内容挺多的,我特地在此总结下,防止自己忘记 心急的小白可以直接看配件每部分的总结,你可以略过枯燥的概念,直接比 ...
- python爬虫,记录一下爬取过程,列表数据,翻页,post方式,保存字典
记录一下自己的爬虫的过程把,最近在做个项目. 要爬取的网站比较简单. 其中的问题是: post方式,网站的数据有一些需要使用post方式才能获得. 比如, 这部分要看到<发起的项目>,需要 ...
- 【每日随笔】记录完整的劳动仲裁过程 一 ( 赢火虫律师平台 | 赢火虫手机端跟进案件信息 | 等待律师接单 | 提交信息给律师 )
文章目录 前言 一.赢火虫律师平台 二.赢火虫手机端跟进案件信息 三.提交信息给律师 前言 给一个刚入行的朋友帮忙 , 朋友遇到极品公司 , 拖欠工资 , 这里记录一下处理过程 ; 碰到这种公司 , ...
- 史上最详细的UEFI+GTP安装ubuntu18.04LTS全记录,涵盖安装过程中的各种问题,所有的问题都将在这里终结。
首先,若还有朋友不知道UEFI,可以先百度了解一下.截止到现在2019年,90%的朋友所使用的电脑都支持UEFI,不支持UEFI的电脑应该已经退役的差不多了.所以当你百度了解UEFI之后,相信你会有想 ...
- cocos2d-x 3.4版本游戏打包AKP (重点记录如何解决打包过程中遇到的各种问题)
主要记录下打包遇到的各种问题,主要讲解打包中遇到的问题如何解决.如果大家有何我同样的问题,希望能够帮到你. 过程 一 : 1. 配置环境变量 2.下载 ADT包含(eclipse和SDK) NDK ...
- 简单的时间轴HTML源码 可记录网站的成长过程
介绍: 无聊乱逛看到一个时间轴的单页引导页,弄下来把源码发给大家, 也方便记录大家网站的成长过程, 网盘下载地址: http://kekewangLuo.net/7kuP6stootR 图片:
- CentOS换系统盘记录+home缩容过程
换系统盘: 之前买了块三星980 1T做CentOS的系统盘,可三星暴0E事件门,让人不踏实,打算换掉.网上查询简便的方法,用dd命令似乎很简单,准备好后就开始行动. 1.插入新盘,不要分区,直接dd ...
最新文章
- 接口测试和单元测试的区别
- MQ 消息中间件梳理
- 天津计算机考研901,2013年天津大学901计算机考研真题
- # 字符串从右往左查找_字符串匹配(搜索,查找)算法
- 如何开始了解一个新知识(Vuex)
- 面向对象三大特性: 封装
- 技术员联盟Win11 64位官方全新旗舰版镜像V2021.08
- iphone固件降级_手机资讯:降级必备:Phone5如何下载备份SHSH文件
- Microsoft Project学习系列(一)
- 关于java重载函数,参数为null时,调用的处理。(精确性原则)
- currenthashmap扩容原理_HashMap 深入解析(二)
- 思步网6月底再次重磅出击:《CrystalBall User Manual 7.3(水晶球操作手册7.3)中英文对照版》
- java udp 接收16进制,java udp接收16进制乱码
- PHP直播源码js判断浏览器版本
- 51单片机串口中断控制灯
- centos7部署rap2
- 硅谷火爆的云原生,你会玩吗?
- Axure8与Axure9交互差异总结-1 移动元件交互事件的差异
- 了解眩光与星芒,夜景灯光拍摄翻倍美
- 苹果 macOS 12.4 正式版发布
热门文章
- 均值极差图控制上下限_SPC之I-MR控制图
- 【Paper】2019_Bearing-only circumnavigation control of the multi-agent system around a moving target
- 【Matlab 图像】bwlabel() 连通域及图像分割
- LaTex 变形的字母
- Ardino基础教程 1_让Arduino说出HelloWorld
- STM32 进阶教程 20 - 串口+DMA实现OneWire总线
- 类和对象—继承—同名成员处理
- Android中对Log日志文件的分析
- Linux学习记录-11
- 11.18-11.19总结(transform,transition,媒体查询,弹性盒子)