利用xpath爬取网名
Xpath解析库介绍:
数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错.
网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 在获取标签的文本或属性.
xpath安装, 初体验 --> 使用步骤:
1.xpath安装: pip install lxml
2.from lxml import etree
xpath语法:
1.常用规则:
1. nodename: 节点名定位
2. //: 从当前节点选取子孙节点
3. /: 从当前节点选取直接子节点
4. nodename[@attribute="…"] 根据属性定位标签
5. @attributename: 获取属性
6. text(): 获取文本
xpath语法的便捷获取(谷歌浏览器):
右键的copy有xpath解析
爬取网名案例
#爬网名
import requests,time
from lxml import etree
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
url='http://www.resgain.net/net_name_tags.html'
res=requests.get(url=url,headers=headers)
html=res.content.decode('utf-8')
tree=etree.HTML(html)
urls=tree.xpath('/html/body/div[3]/div/div/div/a/@href')
index=0
names=tree.xpath('/html/body/div[3]/div/div/div/a/text()')
for i in urls:time.sleep(1)res1=requests.get(url='http://www.resgain.net/'+i,headers=headers)html1=res1.content.decode('utf-8')tree1=etree.HTML(html1)wms=tree1.xpath('/html/body/div[3]/div[1]/div/div/div/text()')file_name='网名'with open(file_name+'/'+names[index],'w',encoding='utf-8') as f:for j in wms:time.sleep(1)f.write(j+'\n')index+=1
利用xpath爬取网名相关推荐
- 利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中 下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息 那么我们需要将 ...
- 几十行代码实现Java爬虫,结合jsoup爬取网名昵称
原文链接:点击打开链接 crawler4j是一个开源爬虫框架(https://github.com/yasserg/crawler4j), 我们可以使用它进行爬虫.以爬取 http://www.nib ...
- 利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...
python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...
- 利用python爬取网易云歌手top50歌曲歌词
python近年来,发展迅速,成为了最炙手可热的语言. 那么如何来进行网易云歌手top50的歌曲歌词爬取呢 1. 首先进行网易云并进行喜欢的歌手搜索如下: 在这里需要注意的是http://music. ...
- Python爬虫之利用xpath爬取ip代理网站的代理ip
爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...
- 利用selenium爬取网易云音乐歌手歌曲信息并分析
1.网页分析 网址:https://music.163.com/#/search/m/?s=许嵩&type=1 观察网页,所有的歌曲信息都在class="srchsongst&quo ...
- python利用selenium爬取网易云入驻歌手id、歌手主页id、歌手姓名、歌手粉丝数量
首先需要访问入驻歌手页,可以看到两个a结点中的链接,其中第一个链接为歌手主页,后面的数字是其主页id:第二个链接为歌手的信息主页,后面的数字为歌手id,通过第二个链接的访问可以查看歌手的粉丝数量 成功 ...
- 利用xpath爬取斗鱼主播热度和房间标题
import requests import pandas as pd from bs4 import BeautifulSoup import os import time import rando ...
- 利用jupyter爬取网易云音乐华语歌曲信息
1.导selenium包 from selenium import webdriver 2.进入谷歌 browser = webdriver.Chrome() 3.点击事件进入网页 browser.g ...
最新文章
- PyTorch 学习笔记(四):权值初始化的十种方法
- safari post 请求接收不到_我是谁?我在哪?我要到哪去?——HTTP请求头
- python中的enumerate 函数(编号的实现方式)
- 近期活动盘点:知识智能高峰论坛暨“知识智能联合研究中心”年度报告会、新时代的医学影像及心脑血管成像的应用思享会...
- (转载)聊聊Git原理
- java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/exceptions/YarnException
- pipelineDB学习笔记-2. Stream (流)
- oracle進程時高時低,oracle低權限下獲取shell
- 如何在ogre游戏界面添加自己的信息,比如显示某变量的值
- 【重构与模式】6.1用Creation Method替换构造函数
- 《信息化项目文档模板一——项目需求说明书》
- 聊天社交即时通信源码IM 群聊/语音/视频/红包支付/不依赖第三方sdk即时通讯
- 英文分词的算法和原理
- 识别连笔字的软件_3个最实用的字体识别的在线工具
- AARRR模型——激活:获客红海背后的蓝海(上)
- 收藏 | 堪称神器的42款Chrome插件
- 红孩儿网狐Cocos经典棋牌开发教程-卞安-专题视频课程
- 机器学习分支之一:强化学习
- [转] 一百本名著中的一百句话
- Vue.js 教程---菜鸟教程
热门文章
- 3分钟,把你的安卓手机/平板变成你的电脑副屏
- 日常随笔——m1 macbook安装和配置qt
- 《视觉SLAM十四讲》笔记(1-3)
- iOS性能优化-UI卡顿检测
- 蓝带 拱桥 区别_蓝带
- Windows 11 已修复 AMD CPU 性能问题
- 主板显卡服务器维修,显卡无显示怎么维修 显卡无显示解决方法【详细介绍】...
- ip a命令显示的UP与LOWER_UP的区别
- python分形曲线代码_Python:绘制L-System的分形图
- java imageio temp_java-使用ImageIO.write jpg文件时出现问题:粉红色背景