bytearray([source [, encoding [, errors]]])

bytearray([source [, encoding [, errors]]])返回一个byte数组。Bytearray类型是一个可变的序列,并且序列中的元素的取值范围为 [0 ,255]。

参数source:

如果source为整数,则返回一个长度为source的初始化数组;

如果source为字符串,则按照指定的encoding将字符串转换为字节序列;

如果source为可迭代类型,则元素必须为[0 ,255]中的整数;

如果source为与buffer接口一致的对象,则此对象也可以被用于初始化bytearray。

lxml库的使用

比较详细 http://www.crifan.com/python_try_lxml_parse_html/

简单来说selector = etree.HTML(html) 用来返回一个<Element html at 0x28b0620>,

其由<Element head at 0x28c13f0>,<Element body at 0x28c1fa8>...等组成

使用content = selector.xpath('//span[@class="ctt"]')来解析xml,

xpath的使用

xpath基本上是用一种类似目录树的方法来描述在XML文档中的路径。比如用“/”来作为上下层级间的分隔。第一个“/”表示文档的根节点(注意,不是指文档最外层的tag节点,而

是指文档本身)。比如对于一个HTML文件来说,最外层的节点应该是"/html"。 定位某一个HTML标签,可以使用类似文件路径里的绝对路径,如page.xpath(u"/html/body

/p"),它会找到body这个节点下所有的p标签;也可以使用类似文件路径里的相对路径,可以这样使用:page.xpath(u"//p"),它会找到整个html代码里的所有p标签。

除此之外还可以使用[@class] 等条件来进一步筛选内容,缩小范围。

提取内容时,可能会遇到嵌套标签的情况,可以使用xpath('string(.)')直接提取出所有字符串

代码样例

# -*-coding:utf8-*-
__author__ = 'Liu_100'
import requests
from lxml import etree
cookie = {'Cookie':'_T_WM=8a2006293dfe5dc8c4d35223168328e8; SUB=_2A256TE82DeRxGedH6VcZ-SrPyTiIHXVZz1F-rDV6PUNbuNBeLRP3kW1LHesKXdUoJYW0wFPmv0w89PMwWXf5_w..; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WF1xfN7lmTJsSVpAxdGfnZF5JpX5K2hUgL.Fo24eo-R1KB0eoB2dJLoIEXLxK-LB--LB.BLxK-LB--LB.BLxK-L12qL12zLxKBLB.2LB.2LxK-LBonL1K5t; SUHB=0rr6esvipUlF8C; ALF=1466944614; SSOLoginState=1464352614'}
url = 'http://weibo.cn/u/1890493665'
# html = requests.get(url).content
# print html
html = requests.get(url, cookies=cookie).content
# html = requests.get(url, cookies=cookie).text
# html = bytes(bytearray(html, encoding='utf-8'))
selector = etree.HTML(html)
content = selector.xpath('//span[@class="ctt"]')
for each in content:text = each.xpath('string(.)')print text

转载于:https://www.cnblogs.com/autoria/p/5536603.html

requests/lxml的简单用例相关推荐

  1. 京东图片爬取(requests+lxml 最简单的方式)

    最容易让新手看懂上手的语言python,最强大的爬虫模块requests+最便捷的节点提取方式xpath from retrying import retry from lxml import etr ...

  2. 使用 requests+lxml 库的 Python 爬虫实例(以爬取网页连载小说《撒野》为例)

    需求目标 介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例,本文以爬取网页连载小说<撒野>为例~ 当然有很多小说基本都能找到现成的 .txt 或者 . ...

  3. K8S Yaml 详细说明及简单样例

    一.K8S Yaml 配置文件主要分为基本标签.元数据标签.资源内容 3 个部分 基本标签 apiVersion: v1 #必选,版本号,例如v1 kind: Pod #必选,Pod 元数据标签 me ...

  4. Python spider (二) Requests Lxml bs4

    1.安装Requests && Lxml && bs4 pip install requests pip install bs4 pip install lxml 2. ...

  5. python requests 示例_Python Requests模块的简单示例

    这篇文章主要为大家详细介绍了Python Requests模块的简单示例,具有一定的参考价值,可以用来参考一下. 对python这个高级语言感兴趣的小伙伴,下面一起跟随512笔记的小编两巴掌来看看吧! ...

  6. JDBC 连接Hive 简单样例(开启Kerberos)

    今天在移动的云平台上通过jdbc连接hive,发现云平台使用了 kerberos的认证.与宁波实验环境不同. 发现一文解决了问题,转载如下: 原文地址:http://blog.csdn.net/zen ...

  7. 重要性采样(Importance Sampling)简介和简单样例实现

    重要性采样(Importance Sampling)简介和简单样例实现 在渲染领域,重要性采样这个术语是很常见的,但它究竟是什么呢?我们首先考虑这样的一种情况: 如果场景里有一点P,我们想计算P点的最 ...

  8. C语言单元测试之安装gtest教程及一个简单样例

    准备工作 安装包:gtest1.7.0版本(最新的1.8.0版本一直安装失败,1.7.0版本一次成功) 安装链接:百度网盘 https://pan.baidu.com/s/1mDy9sB3sBIMei ...

  9. matlab 简单算例,(简单算例)基于Matlab的电力系统潮流编程计算.pdf

    (简单算例)基于Matlab的电力系统潮流编程计算 基于Matlab的电力系统潮流编程计算 口黄扬威吴喜春郭志峰张斯翔 (三峡大学电气与新能源学院湖北·宜昌443002) 摘要:通过介绍电力系统的实际 ...

最新文章

  1. 前端解决跨域问题的8种方案(最新最全)
  2. 用递归来判断输入的字符串是否是回文
  3. 用命令行操作 VirtualBox 和 SGD
  4. 201421410040 张运焘 实验一
  5. TortoiseGit git push提示fatal: HttpRequestException encountered remote: Invalid username or password.
  6. 中断技术之中断的定义,中断服务程序的设计方法,中断处理的过程以及中断向量表的建立
  7. 在react中使用定时器
  8. ICCV 2019 | 微软开源无监督学习的医学图像配准方法:递归级联网络
  9. STM32F103使用DAC功能输出三角波
  10. pip不是内部命令问题
  11. 使用python读取excel文件数据,修改dbf文件
  12. 洛伦兹吸引子 matlab,混沌蝴蝶——洛伦兹吸引子
  13. 计算机二级考试报名如何上传照片?
  14. python因式分解算法_费马因式分解算法优化及素数判定
  15. 1000瓶水有1瓶水有毒,老鼠喝一滴就会死,但是需要一周毒发,请问最少需要多少老鼠多少时间才能找到那瓶有毒的水。
  16. 1、RPC框架解析:开篇-什么是RPC?
  17. 应用程序无法正常启动0xc00007b的解决(二)
  18. adb命令删除offline离线手机设备
  19. CREO:CREO软件之工程图界面的【创建】、【布局】、【表】、【注释】的简介(图文教程)之详细攻略
  20. 中国超级计算机神威 上市公司,神威、天河、曙光三巨头引领中国超级计算机发展...

热门文章

  1. 单片机带掉电保护c语言,基于LM358的单片机掉电保护电路
  2. 多规格选择样式/问卷调查选择(小程序)
  3. 随机论---生命起源随想
  4. 实时获取Android手机CPU频率
  5. 齐博x1用户登录接口
  6. 300mm直径硅片湿洗槽出水口设计
  7. 卫星伪距定位matlab,GPS卫星运动及定位matlab仿真.doc
  8. XILINX FPGA和CPLD引脚约束步骤
  9. 【香蕉oi】耍望节(数位DP+倍增优化)
  10. 微信婚恋相亲交友小程序