用XPath提取捧腹网笑话文本
记录XPath基本语法,使用一些简单的XPath语法提取文本
基本语法
- 获取文本
/text()
a/text()
获取a标签下的文本a//text()
获取a标签下的所有标签的文本//a[text()]='下一页>'
获取包含“下一页”文本的a标签
/@
- 获取属性
/@属性名
- 筛选属性
//标签[@属性名]
- 获取属性
//
- 在xpath开始的时候表示从当前html中任意位置开始选择
a//b
表示a标签下的任意b标签
|
- 或语法,多个条件一起
开始
- F12开发者模式抓包段子,发现
<dl>
标签为所选段子文本内容; - 在XPath Heaper中输入
//dl
发现右上角红框都选取了;
- 通过属性筛选去除右上角内容,但依然包括了用户名和打赏等不需要的文本;
- 进一步属性筛选,发现只能选择短文本,不能选择隐藏的长文本;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]
- 因此用
|
或符号;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative imgboxBtn"]|//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]
- 完成全部段子的提取。
用XPath提取捧腹网笑话文本相关推荐
- golang实现捧腹网爬取笑话
爬虫的步骤见:here 以下golang代码实现对捧腹网笑话的爬取,并保存到本地的joy文件夹(程序会自行创建)内 package mainimport ("fmt""n ...
- Android实战:手把手实现“捧腹网”APP(一)-----捧腹网网页分析、数据获取
"捧腹网"页面结构分析 捧腹网M站地址: http://m.pengfu.com/ 捧腹网M站部分截图: 从截图中(可以直接去网站看下),我们可以看出,该网站相对简单,一 ...
- python3制作捧腹网段子页爬虫
0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...
- Golang实现并发版网络爬虫:捧腹网段子爬取并保存文件
爬取捧腹网段子 url分页分析 https://www.pengfu.com/xiaohua_1.html 1 下一页+1 https://www.pengfu.com/xiaohua_2.html ...
- Android实战:手把手实现“捧腹网”APP(三)-----UI实现,逻辑实现
APP页面实现 根据原型图,我们可以看出,UI分为两部分,底部Tab导航+上方列表显示. 所以此处,我们通过 FragmentTabHost+Fragment,来实现底部的导航页面,通过Recycle ...
- Go语言段子爬虫--捧腹网
最后我们来进行一次网络段子的爬虫,爬取捧腹网的段子数据 1.爬取网页的段子链接: 程序代码: package mainimport ("fmt""net/http&quo ...
- Go语言之进阶篇爬捧腹网
1.爬捧腹网 网页规律: https://www.pengfu.com/xiaohua_1.html 下一页 +1 https://www.pengfu.com/xiaohua_2.html 主页 ...
- python爬虫之爬取捧腹网段子
原文链接:http://www.nicemxp.com/articles/12 背景:抓取捧腹网首页的段子和搞笑图片链接 如图: 地址:https://www.pengfu.com/ 首页中有很多子页 ...
- 安卓外包公司—捧腹网Android与iPhone客户端(最新上线案例分享)
捧腹网是中国领先的幽默笑话分享网站,致力于提供一个分享各类幽默笑话,搞笑图片,动态图,搞笑视频,经典段子,冷笑话,冏人冏事等幽默内容的互动平台,为大家带去欢乐和笑声.让我们一起分享快乐,捧腹 ...
最新文章
- Hibernate配置文件解释
- 数据库基本概念 - 表、字段、sql语句
- Spring3 集成 Hibernate3
- 【C语言】C语言实现面向对象编程之多态
- 力扣(简单+中等)50题整理总结
- java实现遍历文件夹下的文件及文件夹
- Appium Java
- 关于Tomcat的部署
- C++菱形继承逆向分析
- 在苹果Mac中如何使用 BetterZip 将文件压缩到指定目录下?
- 上海市青少年算法2022年6月月赛(丙组)
- 二行代码解决全部网页木马
- 2019第十二届全国大学生信息安全竞赛部分WriteUp
- Windows之外的天空 非主流操作系统Top10
- OpenRisc-27-wishbone接口的vga ipcore的分析与仿真
- 【已解】英雄联盟lol撸啊撸“寻找对局”按钮无法点击,开不了赛解决方法
- JavaFx界面设计【SceneBuilder版】适合初学者
- quick-cocos2d-x 绑定C++自定义类
- 【Typora】 自定义背景颜色(护眼绿) 高亮颜色 选中内容颜色 高亮快捷键
- 解决MySQL的Unknown system variable ‘tx_isolation‘