使用python lxml库中的xpath、etree爬取网页超链接

python版本：3.7.3
lxml版本：4.3.3

（pip install lxml 的时候也出现了错误，最后是用 pip3 install lxml==4.3.3才下载完成的，但是感觉这俩也没有多大区别…）

因为版本原因，直接使用 from lxml import etree 导入是不可以的，所以我采用了如下：import lxml.html
etree = lxml.html.etree

最后把爬取的超链接循环打印了出来

import requests
import chardet
import lxml.html
etree = lxml.html.etreeurl = 'http://www.tipdm.com' #这是一个大数据企业的网站，不是打广告！
res = requests.get(url)
res.encoding = chardet.detect(res.content)['encoding']
#print(res.text)
html = lxml.etree.HTML(res.text)
h = html.xpath('//*[@id=\"menu\"]/li/a/@href')
for i in h:print(i)

最后，本人还在学习与摸索当中，还请各位大神老师指点！

使用python lxml库中的xpath、etree爬取网页超链接相关推荐

python爬虫（一）：正则表达式爬取网页文本
文章目录 1 正则表达式 2 网页文本爬取 2.1 单页文本 2.2 多页文本 2.2.1 演示文本 2.2.2 文本信息获取 3 实战记录 3.1 网页纯文本处理 3.1.1 常规网页 3.1.2 ...
[ Python ] 爬虫类库学习之 xpath，爬取彼岸图网的小姐姐图片
安装:pip install lxml 实例化一个etree对象 from lxml import etree 1.将本地的html文档中的源码数据加载到etree对象中 etree.parse(fi ...
python爬虫网页中的图片_Python爬取网页中的图片（搜狗图片）详解
前言最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...
python外国网站爬虫_python 网络爬虫-爬取网页外部网站
前言上一篇中我们在维基百科的内部网站上随机跳转进入文章类网页,而忽视外部网站链接.本篇文章将处理网站的外部链接并试图收集一些网站数据.和单个域名网站爬取不同,不同域名的网站结构千差万别,这就意味我们 ...
python爬虫获取的网页数据为什么要加[0-python3爬虫爬取网页思路及常见问题（原创）...
学习爬虫有一段时间了,对遇到的一些问题进行一下总结. 爬虫流程可大致分为:请求网页(request),获取响应(response),解析(parse),保存(save). 下面分别说下这几个过程中可以 ...
Python爬取网页所需内容+王者荣耀官网
目标: 完成对王者荣耀游戏的所有英雄头像.皮肤等数据的内容爬取及图片下载,所涉及到的模块内容有requests.json.lxml.selenium.os等.王者荣耀英雄官网地址如下:https:// ...
python 正则表达式 re 爬取网页及分析总结
来源于此为了方便自己查找,进行了简化与整理. 本文涉及内容如下: 获取< tr>< /tr>标签之间内容获取< a href->< /a>超链接之间内 ...
python lxml xpath_Python的lxml库学习之XPATH语法
原标题:Python的lxml库学习之XPATH语法预备阅读: 前言前面已经学习了Python的lxml库,从库的名称来看,lxml包含了xml,所以lxml同样可以解析XML文档,而lxml使用 ...
Python爬虫高级库之一的lxml库中，ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象，...
Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...
web爬虫讲解—urllib库中使用xpath表达式—BeautifulSoup基础
在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpath表 ...

使用python lxml库中的xpath、etree爬取网页超链接

使用python lxml库中的xpath、etree爬取网页超链接相关推荐

最新文章

热门文章