爬取一个页面中的div,想获取div中的文字,我是这么写的:

selector.xpath(‘//div[@class=”text-con”]’).xpath(‘string(.)’).extract()[0].lstrip().rstrip()

但在这个 div中包含一个 style标签和两个script标签,这样把样式和script中的代码也获取了,怎么过滤script标签和style标签,然后只获取文字内容,网上看了看说用not 但是我始终没成功,不知道是不是用法不对

回答

chrome可以直接生成xpath查询条件,可以试试

selector.xpath(‘//div[@class=”text-con”]/text()’).xpath(‘string(.)’).extract()[0].lstrip().rstrip()

楼上+1,用xpath的/text()属性即可获取标签内的文本信息。推荐一个特别好的xpath教程,当年我就是跟着这个教程学的: http://zvon.org/xxl/XPathTutorial/General_chi/examples.html

如果单纯要删除

1)可以参考这篇文章,用strip_elements函数删除元素:

https://www.cnblogs.com/XD00/p/10626312.html

2)或者可以参考这篇的”方法二”,用lxml的Cleaner来过滤:

https://www.jianshu.com/p/26e443a9edb6

python爬取疫情信息html.xpath p标签_python xpath 如何过滤div中的script和style标签相关推荐

  1. python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!

    原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...

  2. python爬取微博热搜写入数据库_python实现爬取微博热搜存入Mysql

    python爬取微博热搜存入Mysql最终的效果 使用的库 目标分析 一:得到数据 二:链接数据库 总代码 最终的效果 废话不多少,直接上图 这里可以清楚的看到,数据库里包含了日期,内容,和网站lin ...

  3. python爬取考研成绩什么时候出来_Python 爬取揭秘,你的考研调剂对手就有谁?...

    原标题:Python 爬取揭秘,你的考研调剂对手就有谁? [CSDN编者按]考研成绩揭晓后,不少考生都要面临调剂的问题.而宁夏大学曝出的新闻,也让考生对考研额外增加了一份焦虑.那么,在考研调剂中,你的 ...

  4. python爬取网易云音乐热评_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  5. python爬取京东数据加载失败_python 爬京东数据时,无法登陆。

    想使用python爬取京东的快递信息,现在需要解决的首要问题是使用python模拟浏览器登陆,遇到了下面的问题. _t _ntNBMNX ({"username":"\u ...

  6. python爬取网易云音乐评论分析_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  7. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  8. python爬取豆瓣高分书籍信息(request+xpath)

    复习了xpath,感觉还是熟悉的感觉.上次爬了微博爬了贴吧,这次就用xpath爬个豆瓣图书数据,作为学习时间序列的数据吧! 面向对象编程爬取 1.把自己要做的事情分类 #获取url的规律组成url_l ...

  9. python爬取js加载的数据_Python爬虫:爬取JS加载数据的网页

    比如简书: Paste_Image.png 我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计 程序运行统计的结果见文章: 我统计了彭小六简书360篇文章中使用的词语 需要 ...

最新文章

  1. 大数据中用到的新的数据类型bigint、decimal、smallint、tinyint
  2. Delphi中Indy 10的安装和老版本的卸载
  3. H264 数据avi文件封装和拆解
  4. 【架构】软件分层架构视角图
  5. 七大排序的个人总结(二) 归并排序(Merge
  6. 苹果电脑您没有权限来打开应用程序_苹果电脑换“芯”,全网最快的Apple Silicon M1 MacBook Air发售...
  7. 国内服务器 显示国外ip,国外ip访问国内服务器地址
  8. Google Chrome(谷歌浏览器)安装使用
  9. 开源漫画服务器Mango
  10. 微信公众号和服务器的关系,微信公众号订阅号和服务号主要区别
  11. x1c 语言设置,创新经典平衡点 ThinkPad X1Carbon评测
  12. 剪辑手法中过肩拍摄的镜头怎么称呼?
  13. p3.第一章 Python基础入门 -- Python编程基本概念 (三)
  14. 用c语言绘制数学函数图像,用c语言画数学函数图像.DOC
  15. 树莓派安装nexmon固件补丁步骤
  16. oracle 11g用户名密码区分大小写
  17. 报名老刘的LinuxProbe,获取《Linux就该这么学》
  18. 《三》kubectl命令行管理工具、YAML配置详解
  19. 量子计算机芯片的制造过程,全干货!一文读懂芯片制造及量子芯片!
  20. 打工人的Linux(存储管理)

热门文章

  1. 基于线段的激光雷达和单目联合曲面重建​
  2. PCL点云分割(2)
  3. 设置IDEA最多同时打开的窗口数量为100
  4. Ubuntu 12.04 64bit上安装Apache Traffic Server 4.1.2
  5. AppiumForWin安装
  6. 关于移动端rem适配
  7. 也分享一个存储过程代码生成器 开源
  8. [转]mysql性能的检查和调优方法
  9. 在虚拟机中 windows 2003 装.net framework 3.5 出现问题.
  10. Microsoft patterns practices Enterprise Library released