Xpath解析库介绍:

数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错.
网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 在获取标签的文本或属性.

xpath安装, 初体验 --> 使用步骤:

1.xpath安装: pip install lxml
2.from lxml import etree

xpath语法:

1.常用规则:
1. nodename: 节点名定位
2. //: 从当前节点选取子孙节点
3. /: 从当前节点选取直接子节点
4. nodename[@attribute="…"] 根据属性定位标签
5. @attributename: 获取属性
6. text(): 获取文本

xpath语法的便捷获取(谷歌浏览器):

右键的copy有xpath解析

爬取网名案例

#爬网名
import requests,time
from lxml import etree
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
url='http://www.resgain.net/net_name_tags.html'
res=requests.get(url=url,headers=headers)
html=res.content.decode('utf-8')
tree=etree.HTML(html)
urls=tree.xpath('/html/body/div[3]/div/div/div/a/@href')
index=0
names=tree.xpath('/html/body/div[3]/div/div/div/a/text()')
for i in urls:time.sleep(1)res1=requests.get(url='http://www.resgain.net/'+i,headers=headers)html1=res1.content.decode('utf-8')tree1=etree.HTML(html1)wms=tree1.xpath('/html/body/div[3]/div[1]/div/div/div/text()')file_name='网名'with open(file_name+'/'+names[index],'w',encoding='utf-8') as f:for j in wms:time.sleep(1)f.write(j+'\n')index+=1

利用xpath爬取网名相关推荐

  1. 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中

    我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...

  2. 几十行代码实现Java爬虫,结合jsoup爬取网名昵称

    原文链接:点击打开链接 crawler4j是一个开源爬虫框架(https://github.com/yasserg/crawler4j), 我们可以使用它进行爬虫.以爬取 http://www.nib ...

  3. 利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...

    python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...

  4. 利用python爬取网易云歌手top50歌曲歌词

    python近年来,发展迅速,成为了最炙手可热的语言. 那么如何来进行网易云歌手top50的歌曲歌词爬取呢 1. 首先进行网易云并进行喜欢的歌手搜索如下: 在这里需要注意的是http://music. ...

  5. Python爬虫之利用xpath爬取ip代理网站的代理ip

    爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...

  6. 利用selenium爬取网易云音乐歌手歌曲信息并分析

    1.网页分析 网址:https://music.163.com/#/search/m/?s=许嵩&type=1 观察网页,所有的歌曲信息都在class="srchsongst&quo ...

  7. python利用selenium爬取网易云入驻歌手id、歌手主页id、歌手姓名、歌手粉丝数量

    首先需要访问入驻歌手页,可以看到两个a结点中的链接,其中第一个链接为歌手主页,后面的数字是其主页id:第二个链接为歌手的信息主页,后面的数字为歌手id,通过第二个链接的访问可以查看歌手的粉丝数量 成功 ...

  8. 利用xpath爬取斗鱼主播热度和房间标题

    import requests import pandas as pd from bs4 import BeautifulSoup import os import time import rando ...

  9. 利用jupyter爬取网易云音乐华语歌曲信息

    1.导selenium包 from selenium import webdriver 2.进入谷歌 browser = webdriver.Chrome() 3.点击事件进入网页 browser.g ...

最新文章

  1. PyTorch 学习笔记(四):权值初始化的十种方法
  2. safari post 请求接收不到_我是谁?我在哪?我要到哪去?——HTTP请求头
  3. python中的enumerate 函数(编号的实现方式)
  4. 近期活动盘点:知识智能高峰论坛暨“知识智能联合研究中心”年度报告会、新时代的医学影像及心脑血管成像的应用思享会...
  5. (转载)聊聊Git原理
  6. java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnException
  7. pipelineDB学习笔记-2. Stream (流)
  8. oracle進程時高時低,oracle低權限下獲取shell
  9. 如何在ogre游戏界面添加自己的信息,比如显示某变量的值
  10. 【重构与模式】6.1用Creation Method替换构造函数
  11. 《信息化项目文档模板一——项目需求说明书》
  12. 聊天社交即时通信源码IM 群聊/语音/视频/红包支付/不依赖第三方sdk即时通讯
  13. 英文分词的算法和原理
  14. 识别连笔字的软件_3个最实用的字体识别的在线工具
  15. AARRR模型——激活:获客红海背后的蓝海(上)
  16. 收藏 | 堪称神器的42款Chrome插件
  17. 红孩儿网狐Cocos经典棋牌开发教程-卞安-专题视频课程
  18. 机器学习分支之一:强化学习
  19. [转] 一百本名著中的一百句话
  20. Vue.js 教程---菜鸟教程

热门文章

  1. 3分钟,把你的安卓手机/平板变成你的电脑副屏
  2. 日常随笔——m1 macbook安装和配置qt
  3. 《视觉SLAM十四讲》笔记(1-3)
  4. iOS性能优化-UI卡顿检测
  5. 蓝带 拱桥 区别_蓝带
  6. Windows 11 已修复 AMD CPU 性能问题
  7. 主板显卡服务器维修,显卡无显示怎么维修 显卡无显示解决方法【详细介绍】...
  8. ip a命令显示的UP与LOWER_UP的区别
  9. python分形曲线代码_Python:绘制L-System的分形图
  10. java imageio temp_java-使用ImageIO.write jpg文件时出现问题:粉红色背景