python版本:3.7.3
lxml版本:4.3.3

(pip install lxml 的时候也出现了错误,最后是用 pip3 install lxml==4.3.3才下载完成的,但是感觉这俩也没有多大区别…)

因为版本原因,直接使用 from lxml import etree 导入是不可以的,所以我采用了如下:import lxml.html
etree = lxml.html.etree

最后把爬取的超链接循环打印了出来

import requests
import chardet
import lxml.html
etree = lxml.html.etreeurl = 'http://www.tipdm.com' #这是一个大数据企业的网站,不是打广告!
res = requests.get(url)
res.encoding = chardet.detect(res.content)['encoding']
#print(res.text)
html = lxml.etree.HTML(res.text)
h = html.xpath('//*[@id=\"menu\"]/li/a/@href')
for i in h:print(i)

最后,本人还在学习与摸索当中,还请各位大神老师指点!

使用python lxml库中的xpath、etree爬取网页超链接相关推荐

  1. python爬虫(一):正则表达式爬取网页文本

    文章目录 1 正则表达式 2 网页文本爬取 2.1 单页文本 2.2 多页文本 2.2.1 演示文本 2.2.2 文本信息获取 3 实战记录 3.1 网页纯文本处理 3.1.1 常规网页 3.1.2 ...

  2. [ Python ] 爬虫类库学习之 xpath,爬取彼岸图网的 小姐姐 图片

    安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...

  3. python爬虫网页中的图片_Python爬取网页中的图片(搜狗图片)详解

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...

  4. python外国网站爬虫_python 网络爬虫-爬取网页外部网站

    前言 上一篇中我们在维基百科的内部网站上随机跳转进入文章类网页,而忽视外部网站链接.本篇文章将处理网站的外部链接并试图收集一些网站数据.和单个域名网站爬取不同,不同域名的网站结构千差万别,这就意味我们 ...

  5. python爬虫获取的网页数据为什么要加[0-python3爬虫爬取网页思路及常见问题(原创)...

    学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...

  6. Python爬取网页所需内容+王者荣耀官网

    目标: 完成对王者荣耀游戏的所有英雄头像.皮肤等数据的内容爬取及图片下载,所涉及到的模块内容有requests.json.lxml.selenium.os等.王者荣耀英雄官网地址如下:https:// ...

  7. python 正则表达式 re 爬取网页及分析总结

    来源于此为了方便自己查找,进行了简化与整理. 本文涉及内容如下: 获取< tr>< /tr>标签之间内容 获取< a href->< /a>超链接之间内 ...

  8. python lxml xpath_Python的lxml库学习之XPATH语法

    原标题:Python的lxml库学习之XPATH语法 预备阅读: 前言 前面已经学习了Python的lxml库,从库的名称来看,lxml包含了xml,所以lxml同样可以解析XML文档,而lxml使用 ...

  9. Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,...

    Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...

  10. web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础

    在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表 ...

最新文章

  1. Python 列表List 的使用
  2. 用什么表示python异常_求大神给讲讲python的异常问题!以下是我的代码!没看出来有什么不同的呀?...
  3. panda对于EXCEL单元赋值如何能够设置string?
  4. python将文件数据转换成二维列表
  5. LaTeX设置参考文献条目行距以及条目内行距的方法
  6. 【MySQL】MySQL Insert into select 大量锁表导致无法插入
  7. 临界区设计太大或太小有何缺点_空压机100课之016:离心式压缩机的结构、原理及优缺点...
  8. 阿里高德城市大脑·智慧交通战略发布,公共服务版首次亮相!
  9. ios内联函数 inline
  10. R语言绘制流程图(一)
  11. cf鼠标宏数据大全_两只“轻量、不打孔、右手工学”鼠标,DX30E和魔幻豹ULTRA
  12. 用python演绎神奇的生命游戏,在游戏中学习numpy和matplotlib动画
  13. win10关闭触摸板自动开启
  14. C++ 使用 OpenCV 实现证件照蓝底换成白底功能(或其他颜色如红色)详解
  15. matlab设置x轴和y轴的坐标显示范围和刻度
  16. token 微信access 过期_.Net微信开发之如何解决access_token过期问题
  17. ICC学习——LAB2
  18. js将当前时间格式化为年-月-日 时:分:秒
  19. 如何通过Apple ID找回弄丢的设备
  20. c语言有关break的应用,关于c语言中的break用法

热门文章

  1. 全国青少年信息学奥林匹克竞赛到底是什么?
  2. Green Screen Wizard Pro(绿幕摄影软件)官方正式版V12.1 | 绿屏拍摄有什么软件?
  3. 关于 mysql数据库“ERROR 1118 (42000): Row size too large.“ 的解决方法
  4. Win7操作系统:请求的操作需要提升
  5. position之relative
  6. 电脑无缘无故黑屏,无法调节亮度。
  7. 显卡天梯图2021年9月新版
  8. 新浪微博相册图片外链限制,图床不显示解决方法总结!
  9. dispatch_barrier_GCD学习之dispatch_barrier_async详解
  10. Android向系统日历添加日程提醒事件