有时候我们并不想要网页中的具体文字内容,而是某一部分的HTML代码:

<div class="pageContent"><p style="text-indent:2em;">南方地区...</p></div>

这时候可以用到 etree.tostring

import requests
from lxml import etreeurl = 'http://www.weather.com.cn/index/zxqxgg1/new_wlstyb.shtml'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36 QBCore/4.0.1326.400 QQBrowser/9.0.2524.400 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2875.116 Safari/537.36 NetType/WIFI MicroMessenger/7.0.20.1781(0x6700143B) WindowsWechat(0x63010200)'}
res = requests.get(url,headers = headers)
res.encoding = 'utf-8'
html = etree.HTML(res.text)
news_title = html.xpath('/html/body/div[4]/div[1]/div[2]/div/div[1]/span/text()')[0]
content = html.xpath('/html/body/div[4]/div[1]/div[2]/div/div[2]')[0]
# 获取HTML代码
result = etree.tostring(content,encoding='utf-8').decode()
# 对HTML代码增加文字大小
wltq_content = result.replace('class="pageContent"', 'class="pageContent" style=font-size:16px')
print(wltq_content)

python通过xpath读取html指定的内容并获取该部分html代码相关推荐

  1. python awk 读文件_测试python awk sed 读取文件指定位置时的性能

    #!/bin/env python #coding:utf8 ''' awk 打印指定行数 sed 打印指定行数 python 打印指定位置,某长度字符串 awk 耗时最长,很长 sed awk 时间 ...

  2. python用pandas读取excel指定列_Python用Pandas读写Excel

    Pandas是python的一个数据分析包,纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具. Pandas提供了大量能使我们快速便捷地处理数据的函数和方法. 一.安装包 pan ...

  3. python利用win32com读取doc和pdf内容,并保存到文件

    将使用win32com包进行处理 读取doc文件 # coding=utf-8 import os, fnmatch from win32com import client as wc from wi ...

  4. Python 硬盘模式读取文件,保存内容到文件

    import codecs ''' 第一步 import codecs filepath=r"F:\dangdangwang.txt"file=codecs.open(filepa ...

  5. golang 读取 文件指定行内容

    示例如下: package mainimport ("os""bufio""fmt" )func main(){fmt.Println(Re ...

  6. .rpt文件内容读取java_python读取PDF指定表格内容批量文件重命名

    帮以前大学写的一个小程序代码,写的时间比较急,有点乱,一天的作品,给有兴趣的人看下: import

  7. python从字符串中提取指定的内容

    有如下字符串: text=cssPath:"http://imgcache.qq.com/ptlogin/v4/style/32",sig:"OvL7F1OQEojtPk ...

  8. python按行读取文件取消空白行_python去掉空白行的多种实现代码

    测试代码 jb51.txt 1:www.jb51.net 2:www.jb51.net 3:www.jb51.net 4:www.jb51.net 5:www.jb51.net 6:www.jb51. ...

  9. Python大疆相片/航片/照片的内容信息获取:以m300为例JPG

    前言:项目需要直接读取大疆无人机JPG的位置和云台信息,对网上现有代码进行注释和个人解读 JPG作为复杂的图像数据很多人都知道存在一个叫做EXIF的数据规范, 在这个数据规范中,包含了相机数据.拍摄数 ...

最新文章

  1. mysql实现sass_使用sass绘制三角形
  2. 动态规划最常见的习题 (最长公共子串、最长公共子序列、最短编辑距离)
  3. java的autotype,关于 fastjson 异常 autoType is not support 问题分析解决
  4. J.U.C系列(五)BlockingQueue的使用
  5. 撕掉“丑”的标签,体素是如何让游戏更有趣的?
  6. 神奇的 SQL 之 ICP → 索引条件下推
  7. OpenStack —— DevStack配置安装
  8. 设为首页和加入收藏js
  9. 无法启动调试--未安装 Silverlight Developer 运行时。请安装一个匹配版本
  10. 梦幻家园前37关(iPad)
  11. png图片如何在线转换成jpg格式的
  12. 计算机系统中引入虚拟内存的好处是什么,虚拟内存的作用是什么
  13. 装了linux的u盘格式化,u盘格式化容量变小了u盘安装linuxcentos
  14. html5拨打电话自动录音,html5实现手机触摸出现录音以及离开停止录音并上传的功能(代码)...
  15. 全栈开发-IDE介绍与设置、字符串格式化、数据类型、for循环
  16. 如何在JMeter负载测试中模拟不同的网络速度
  17. ⾯板数据分析、空间计量、空间杜宾模型学习资料
  18. 实习 | QQ音乐(深圳)娱乐营销实习生
  19. 前端之Html+Css实现动画的方法
  20. Apache log4j漏洞总结

热门文章

  1. js 全国城市3级联动
  2. 回收站的文件删除了还能恢复吗?
  3. 3.15国际消费者权益日:消费者隐私威胁与保护
  4. 工银e生活开发脱坑日志(7)Missing argument 6 for IcbcSignature::verify()
  5. 对MySQL的查询生成报表(初学者新尝试)
  6. div 隐藏 ,表单内容清除
  7. 社保+年假查询指南 -- 小黑日常超细详解
  8. “植物奶油”危害堪比苏丹红 欧美已经封杀叫停
  9. [并发进阶]——读写锁 原理
  10. 配音教学,配音自我修养书单