Xpath解析库介绍:

数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错.
网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 在获取标签的文本或属性.

xpath安装, 初体验 --> 使用步骤:

1.xpath安装: pip install lxml
2.from lxml import etree

xpath语法:

1.常用规则:
1. nodename: 节点名定位
2. //: 从当前节点选取子孙节点
3. /: 从当前节点选取直接子节点
4. nodename[@attribute="…"] 根据属性定位标签
5. @attributename: 获取属性
6. text(): 获取文本

xpath语法的便捷获取（谷歌浏览器）:

右键的copy有xpath解析

爬取网名案例

#爬网名
import requests,time
from lxml import etree
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
url='http://www.resgain.net/net_name_tags.html'
res=requests.get(url=url,headers=headers)
html=res.content.decode('utf-8')
tree=etree.HTML(html)
urls=tree.xpath('/html/body/div[3]/div/div/div/a/@href')
index=0
names=tree.xpath('/html/body/div[3]/div/div/div/a/text()')
for i in urls:time.sleep(1)res1=requests.get(url='http://www.resgain.net/'+i,headers=headers)html1=res1.content.decode('utf-8')tree1=etree.HTML(html1)wms=tree1.xpath('/html/body/div[3]/div[1]/div/div/div/text()')file_name='网名'with open(file_name+'/'+names[index],'w',encoding='utf-8') as f:for j in wms:time.sleep(1)f.write(j+'\n')index+=1

利用xpath爬取网名相关推荐

利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息那么我们需要将 ...
几十行代码实现Java爬虫，结合jsoup爬取网名昵称
原文链接:点击打开链接 crawler4j是一个开源爬虫框架(https://github.com/yasserg/crawler4j), 我们可以使用它进行爬虫.以爬取 http://www.nib ...
利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...
python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...
利用python爬取网易云歌手top50歌曲歌词
python近年来,发展迅速,成为了最炙手可热的语言. 那么如何来进行网易云歌手top50的歌曲歌词爬取呢 1. 首先进行网易云并进行喜欢的歌手搜索如下: 在这里需要注意的是http://music. ...
Python爬虫之利用xpath爬取ip代理网站的代理ip
爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库用命令行安装第三方库 pip install req ...
利用selenium爬取网易云音乐歌手歌曲信息并分析
1.网页分析网址:https://music.163.com/#/search/m/?s=许嵩&type=1 观察网页,所有的歌曲信息都在class="srchsongst&quo ...
python利用selenium爬取网易云入驻歌手id、歌手主页id、歌手姓名、歌手粉丝数量
首先需要访问入驻歌手页,可以看到两个a结点中的链接,其中第一个链接为歌手主页,后面的数字是其主页id:第二个链接为歌手的信息主页,后面的数字为歌手id,通过第二个链接的访问可以查看歌手的粉丝数量成功 ...
利用xpath爬取斗鱼主播热度和房间标题
import requests import pandas as pd from bs4 import BeautifulSoup import os import time import rando ...
利用jupyter爬取网易云音乐华语歌曲信息
1.导selenium包 from selenium import webdriver 2.进入谷歌 browser = webdriver.Chrome() 3.点击事件进入网页 browser.g ...

利用xpath爬取网名

Xpath解析库介绍:

xpath安装, 初体验 --> 使用步骤:

xpath语法:

xpath语法的便捷获取（谷歌浏览器）:

爬取网名案例

利用xpath爬取网名相关推荐

最新文章

热门文章