获取指定html的标签内容


打开网页的开发者模式,得到路径标签,然后加上/text() 即可得到标签的文本内容//*[@id="sonsyuanwen"]/div[1]/h1

对于网页爬取来说,还是很方便的

# -*- ecoding: utf-8 -*-
# @ModuleName: test005
# @Function:
# @Author: darling
# @Time: 2022-04-18 13:58import requestsfrom lxml import etreedef get_url():resource = requests.get('https://so.gushiwen.cn/shiwenv_444df93c9bdf.aspx')html = etree.HTML(resource.text)title = html.xpath('//*[@id="sonsyuanwen"]/div[1]/h1/text()')neir=html.xpath('//*[@id="contson444df93c9bdf"]/text()')print(title,neir)return resourceif __name__ == "__main__":res = get_url()print(res)

python 使用xpath获取网页标签内容相关推荐

  1. xpath 取标签下所有文字内容_对Xpath 获取子标签下所有文本的方法详解

    对Xpath 获取子标签下所有文本的方法详解 在爬虫中遇见这种怎么办 想提取名称, 但是 名称不在一个标签里 使用xpath string()方法 例如 data.xpath("string ...

  2. python 打开网页开发者工具_Python获取网页指定内容(BeautifulSoup工具的使用方法)...

    page = urllib2.urlopen(url) contents = page.read() #获得了整个网页的内容也就是源代码 print(contents) url代表网址,content ...

  3. python通过xpath解析网页爬取高清大图和王者荣耀英雄海报

    python通过xpath解析网页 xpath XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言.最初是用来搜寻 XML 文档的,但 ...

  4. 利用python模块pandas获取网页表格,并保存为excel

    文章只用于学习交流 利用python模块pandas获取网页表格. 网页上的表格内容,想要保存下来,有没有办法呢?答案是有的. 主要有两个步骤, 一是读取表格内容, 二是保存读取后的内容. 在这里只讲 ...

  5. python 获取网页的内容

    1.安装pip 我的个人桌面系统用的linuxmint,系统默认没有安装pip,考虑到后面安装requests模块使用pip,所以我这里第一步先安装pip. 1 $ sudo apt install ...

  6. 从网页标签内容里获取图片

    场景描述 很多时候,我们后台数据库里会保存网页标签内容,方便 APP 端或者网页端显示动态页面,存放的内容例如:<p>message</p><p><img s ...

  7. python使用requests库获取网页的内容

    网站地址:https://www.k374.com/index.php 网站内容如下: 第一步导入requests库,使用它访问网页获取到源代码 内容如下: import requests r = r ...

  8. header python 环境信息_python获取网页header头部信息(python小白学习笔记二)

    方法一:代码查看 通过python获取网页的链接url,返回码,以及相关的信息 #对反爬虫网页,可以设置一些headers信息,模拟成浏览器取访问网站 import urllib.request ur ...

  9. Python 爬虫:获取 JS 动态内容——应用宝搜索应用

      本内容主要介绍如何获取网页中 JS 动态生成的内容. 文章目录 1.1 Ajax 异步加载生成网页内容 1.2 从网页响应中找到 JS 脚本返回的数据 1.2.1 找到 JS 请求的数据接口 1. ...

最新文章

  1. Flask开发服务器启动方式
  2. 外部的Navicat连接docker中的mysql
  3. Code First 数据库的表中属性的配置
  4. 6 种不同情况下写的代码
  5. Enums and Structs in C#(C#里的枚举和结构) (from codeproject)
  6. c++ --- 字符串中的标点符号
  7. Git error. Command: `git ls-files --cached --exclude-standard --recurse-submodules`
  8. Chrome保存mht网页文件的方法 – 无需任何插件,完美!
  9. 利用SpringAOP 实现 日志输出
  10. 基于情感词典的情感值分析
  11. Linux实现删除撤回的方法。
  12. 微信小程序图片上传并预览
  13. WKwebview弹框报错Attempt to present UIAlertController on XXwhich is already presenting (null)
  14. SAP中由生产版本有误导致的生产报工时提示“错误确定成本核算”问题实例
  15. 第8章 中医证型关联规则挖掘
  16. item_password-获得淘口令真实url接口,淘宝app短链接商品接口,1688商品淘口令url接口
  17. 微服务电商实战(十一)搭建vue项目对接注册登陆接口,解决跨域问题,使用七牛云实现头像上传
  18. MATLAB算法实战应用案例精讲-【人工智能】语义分割(补充篇)(附matlab代码实现)
  19. KJ分析法(亲和图)的应用实例及知识分享
  20. HDU 1512 Monkey King 左偏树 + 并查集

热门文章

  1. Coordinated Omission 问题 造成 wrk 压测结果不准
  2. Vue:首屏加载页实现
  3. 窗口看门狗与独立看门狗区别
  4. 模电数电自动控制原理实验台QY-MS301C
  5. 屈原·渔父的算法追求
  6. 聚光灯效果(css+html)
  7. WordPress遇到qq邮箱不能注册,不能重置密码问题(您的密码重设链接无效,请在下方请求新链接。)
  8. centos 禁止自动锁屏 自动锁屏解决办法
  9. 【win10+cuda7.5+cudnn6.0安装caffe⑥】报错及处理方式
  10. 【CSS】纯css实现立体摆放图片效果