import requests

s=requests.Session()

re=s.get(lgurl,headers=headers)  #此处s可以直接换成requests

the_page=re.content  #content 为二进制文本

from lxml import etree

html=etree.HTML(the_page)

joblistPath='//*[@id="s_position_list"]/ul/li'   #此处joblistPath可使用浏览器中的copy xpath选项中的内容

result=html.xpath(joblistPath)

result[0].tag  #获取result结果集中第一个元素的标签名称,例<a class='shjdb'  > 中的tag是a.

result[0].xpath(/a/@href) #返回根目录下a下所有子元素的属性href的值,例<a href='shjdb'  > <li href='123.com'>,中返回的是‘123.com’.

result[0].text  #返回的是元素的内容,即标签对中间的文本,例<a href="link5.html">fifth item</a>中返回的是fifth item

转载于:https://www.cnblogs.com/Ting-light/p/9548153.html

lxml简单用法 解析网页相关推荐

  1. 用Xpath选择器解析网页(lxml)

    在<爬虫基础以及一个简单的实例>一文中,我们使用了正则表达式来解析爬取的网页.但是正则表达式有些繁琐,使用起来不是那么方便.这次我们试一下用Xpath选择器来解析网页. 首先,什么是XPa ...

  2. 使用selenium等待网页加载完成,lxml解析网页,利用urllib爬取图片

    本来想爬六维空间(http://bt.neu6.edu.cn/)的搞笑图片来着...不知道为啥这两天上不去了... 于是就拿品知人大试一下python的这两个库. 用到的lxml函数可以参考:http ...

  3. python爬虫自学网站_Python爬虫3步曲:5分钟学习用Python解析网页

    使用正则表达式解析网页是Python的一个擅长的领域.如果还想更加深入地学习正则表达式,或者在平时经常用到正则表达式,可以进入Regular Expression 101网站学习,网站地址为 http ...

  4. python爬虫如何从一个页面进入另一个页面-Python爬虫 (一):爬取一个简单的静态网页...

    版本:python3.7 平台:windows10 工具 :pycharm 断断续续学习了py3爬虫2周左右的时间,发现自己学习的过于零散化,所以想通过这个专栏系统的整理下自己所学过的知识.如有错误, ...

  5. 网页爬虫 python-Python爬虫解析网页的4种方式

    文章目录 爬虫的价值 正则表达式 requests-html BeautifulSoup lxml的XPath 爬虫的价值 常见的数据获取方式就三种:自有数据.购买数据.爬取数据.用Python写爬虫 ...

  6. python 简单网页_Python爬虫 (一):爬取一个简单的静态网页

    版本:python3.7 平台:windows10 工具 :pycharm 断断续续学习了py3爬虫2周左右的时间,发现自己学习的过于零散化,所以想通过这个专栏系统的整理下自己所学过的知识.如有错误, ...

  7. Python爬虫之解析网页

    常用的类库为lxml, BeautifulSoup, re(正则) 以获取豆瓣电影正在热映的电影名为例,url='https://movie.douban.com/cinema/nowplaying/ ...

  8. python爬虫分析_Python爬虫解析网页的4种方式

    文章目录 爬虫的价值 正则表达式 requests-html BeautifulSoup lxml的XPath 爬虫的价值 常见的数据获取方式就三种:自有数据.购买数据.爬取数据.用Python写爬虫 ...

  9. Python爬虫解析网页的4种方式 值得收藏

    用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存中, ...

  10. beautifulsoup网页爬虫解析_Python爬虫3步曲:5分钟学习用Python解析网页

    使用正则表达式解析网页是Python的一个擅长的领域.如果还想更加深入地学习正则表达式,或者在平时经常用到正则表达式,可以进入Regular Expression 101网站学习,网站地址为 http ...

最新文章

  1. ImportError: No module named images
  2. 多重比对序列的格式及其应用
  3. Nginx配置中一个不起眼字符/的巨大作用,失之毫厘谬以千里
  4. java中配置bean_Spring中基于Java的配置@Configuration和@Bean用法
  5. oracle表分区失效14400,Oracle11g:分区表数据操作出现ORA-14400异常处理详解
  6. h5微信本地调试 vue_vueh5中使用微信sdk
  7. 去中心化抵押借贷市场当前总借款量94.24亿美元
  8. BZOJ 1103: [POI2007]大都市meg [DFS序 树状数组]
  9. oracle linux 图形化,Linux下Oracle 12C R2图形化安装过程
  10. cpu out of order, 性能优化
  11. NoSQL之【MongoDB】学习(二):DML和查询操作说明
  12. ActiveMQ开发配置与用例
  13. 标准C程序设计七---121
  14. 拓端tecdat|R语言Metropolis Hastings采样和贝叶斯泊松回归Poisson模型
  15. 【MacOS】MacOS 添加虚拟打印机
  16. 软件工程-读《构建之法》读后感
  17. 打印后台程序服务没有运行,无法添加或使用打印机的处理方法
  18. Markdown 语法手册 (完整整理版)转抄
  19. h5 换脸 php,DIY海报H5案例|换脸show颜值
  20. 需账号密码登陆的网页爬虫

热门文章

  1. java 访问 https网站_解决java访问https网站报错的问题
  2. ambari安装hive时连接失败_都快2020年了,ambari自定义服务集成,你还没掌握吗?文末有福利...
  3. 大数斐波那契数列(nyoj655)光棍的yy
  4. jdi屏幕斜纹_如何看待小米6使用有斜纹的jdi屏幕?
  5. 曲线运动与万有引力公式_粤教版第三章第一节万有引力定律
  6. qt5 tcp服务器编程 多固定客户_服务器与客户端进程之间端口号联系
  7. n=sizeof(a)/sizeof(int)的含义(C语言)
  8. java图片上写字不见了_用java在图片上写字
  9. 北理工java分析题_2020春北理工《Java技术与应用》在线作业-1(参考)
  10. tree 先序遍历 叶子结点_编程:按先序序列输出二叉树的叶子结点