记录XPath基本语法,使用一些简单的XPath语法提取文本

基本语法
  • 获取文本/text()

    • a/text()获取a标签下的文本
    • a//text()获取a标签下的所有标签的文本
    • //a[text()]='下一页>'获取包含“下一页”文本的a标签
  • /@
    • 获取属性/@属性名
    • 筛选属性//标签[@属性名]
  • //
    • 在xpath开始的时候表示从当前html中任意位置开始选择
    • a//b表示a标签下的任意b标签
  • |
    • 语法,多个条件一起

开始

  • F12开发者模式抓包段子,发现<dl>标签为所选段子文本内容;
  • 在XPath Heaper中输入//dl发现右上角红框都选取了;
  • 通过属性筛选去除右上角内容,但依然包括了用户名打赏等不需要的文本;
  • 进一步属性筛选,发现只能选择短文本,不能选择隐藏的长文本;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"]
  • 因此用|符号;
//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative imgboxBtn"]|//dl[@class="clearfix dl-con"]//div[@class="content-img clearfix pt10 relative"] 
  • 完成全部段子的提取。

用XPath提取捧腹网笑话文本相关推荐

  1. golang实现捧腹网爬取笑话

    爬虫的步骤见:here 以下golang代码实现对捧腹网笑话的爬取,并保存到本地的joy文件夹(程序会自行创建)内 package mainimport ("fmt""n ...

  2. Android实战:手把手实现“捧腹网”APP(一)-----捧腹网网页分析、数据获取

    "捧腹网"页面结构分析 捧腹网M站地址: http://m.pengfu.com/ 捧腹网M站部分截图:      从截图中(可以直接去网站看下),我们可以看出,该网站相对简单,一 ...

  3. python3制作捧腹网段子页爬虫

    0x01 春节闲着没事(是有多闲),就写了个简单的程序,来爬点笑话看,顺带记录下写程序的过程.第一次接触爬虫是看了这么一个帖子,一个逗逼,爬取煎蛋网上妹子的照片,简直不要太方便.于是乎就自己照猫画虎, ...

  4. Golang实现并发版网络爬虫:捧腹网段子爬取并保存文件

    爬取捧腹网段子 url分页分析 https://www.pengfu.com/xiaohua_1.html 1 下一页+1 https://www.pengfu.com/xiaohua_2.html ...

  5. Android实战:手把手实现“捧腹网”APP(三)-----UI实现,逻辑实现

    APP页面实现 根据原型图,我们可以看出,UI分为两部分,底部Tab导航+上方列表显示. 所以此处,我们通过 FragmentTabHost+Fragment,来实现底部的导航页面,通过Recycle ...

  6. Go语言段子爬虫--捧腹网

    最后我们来进行一次网络段子的爬虫,爬取捧腹网的段子数据 1.爬取网页的段子链接: 程序代码: package mainimport ("fmt""net/http&quo ...

  7. Go语言之进阶篇爬捧腹网

    1.爬捧腹网 网页规律: https://www.pengfu.com/xiaohua_1.html   下一页 +1 https://www.pengfu.com/xiaohua_2.html 主页 ...

  8. python爬虫之爬取捧腹网段子

    原文链接:http://www.nicemxp.com/articles/12 背景:抓取捧腹网首页的段子和搞笑图片链接 如图: 地址:https://www.pengfu.com/ 首页中有很多子页 ...

  9. 安卓外包公司—捧腹网Android与iPhone客户端(最新上线案例分享)

         捧腹网是中国领先的幽默笑话分享网站,致力于提供一个分享各类幽默笑话,搞笑图片,动态图,搞笑视频,经典段子,冷笑话,冏人冏事等幽默内容的互动平台,为大家带去欢乐和笑声.让我们一起分享快乐,捧腹 ...

最新文章

  1. Hibernate配置文件解释
  2. 数据库基本概念 - 表、字段、sql语句
  3. Spring3 集成 Hibernate3
  4. 【C语言】C语言实现面向对象编程之多态
  5. 力扣(简单+中等)50题整理总结
  6. java实现遍历文件夹下的文件及文件夹
  7. Appium Java
  8. 关于Tomcat的部署
  9. C++菱形继承逆向分析
  10. 在苹果Mac中如何使用 BetterZip 将文件压缩到指定目录下?
  11. 上海市青少年算法2022年6月月赛(丙组)
  12. 二行代码解决全部网页木马
  13. 2019第十二届全国大学生信息安全竞赛部分WriteUp
  14. Windows之外的天空 非主流操作系统Top10
  15. OpenRisc-27-wishbone接口的vga ipcore的分析与仿真
  16. 【已解】英雄联盟lol撸啊撸“寻找对局”按钮无法点击,开不了赛解决方法
  17. JavaFx界面设计【SceneBuilder版】适合初学者
  18. quick-cocos2d-x 绑定C++自定义类
  19. 【Typora】 自定义背景颜色(护眼绿) 高亮颜色 选中内容颜色 高亮快捷键
  20. 解决MySQL的Unknown system variable ‘tx_isolation‘

热门文章

  1. Linux 资源清理
  2. MYSQL 单表删除1000万数据
  3. 罗赛塔软件破解Android,Rosetta Stone
  4. BDC操作与常见问题
  5. 职教云python程序设计答案_智慧职教云课堂APPPython程序设计题目答案
  6. cct 二级java复习资料_年第一次全国高校安徽考区计算机水平考试(CCT)
  7. 干货 | 代理模式Mock平台在携程的应用
  8. UWB定位技术与其他定位技术比较
  9. 浅析淘宝刷单--我们如何网购
  10. 水下机器人二维变速圆周运动的SBL定位EKF滤波仿真分析