Python爬虫学习3----xpath爬取哔哩哔哩排行榜
爬取哔哩哔哩月排行榜,并输出csv格式文件。
import requests
import lxml.html
import csvsource = requests.get('https://www.bilibili.com/ranking/all/0/0/30').content.decode('utf-8')
selector = lxml.html.fromstring(source)
items = selector.xpath('//ul[@class="rank-list"]/li')
item_dict_list = []
for item in items:video_ranking = item.xpath('div[@class="num"]/text()')[0]video_name = item.xpath('div[@class="content"]/div[@class="info"]/a/text()')[0]#normalize-space 去掉\r\n\tvideo_view_counts = item.xpath('normalize-space(div[@class="content"]/div[@class="info"]/div[@class="detail"]/span[1]/text())')video_comments_counts = item.xpath('normalize-space(div[@class="content"]/div[@class="info"]/div[@class="detail"]/span[2]/text())')video_composite_scores = item.xpath('div[@class="content"]/div[@class="info"]/div[@class="pts"]/div/text()')[0]video_url = item.xpath('div[@class="content"]/div[@class="info"]/a/@href')[0]item_dict = {'video_ranking':video_ranking,'video_name': video_name,'video_view_counts': video_view_counts,'video_comments_counts': video_comments_counts,'video_composite_scores': video_composite_scores,'video_url':video_url}item_dict_list.append(item_dict)
with open('E:\\哔哩哔哩月排行.csv','w',encoding='utf-8-sig',newline='') as f:writer = csv.DictWriter(f,fieldnames=['video_ranking','video_name','video_view_counts','video_comments_counts','video_composite_scores','video_url'])writer.writeheader()writer.writerows(item_dict_list)
Python爬虫学习3----xpath爬取哔哩哔哩排行榜相关推荐
- python爬虫学习 之 定向爬取 淘宝商品价格
python爬虫学习 之 定向爬取 淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
- Python爬虫如何实用xpath爬取豆瓣音乐
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- Python爬虫之利用xpath爬取ip代理网站的代理ip
爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...
- 爬虫爬评书吧_爬虫学习:xpath爬取评书网
在家闲着,想找点评书听,但找了很久都没找到方便打包下载的地方.于是就拿起自学的python爬虫,自己动手丰衣足食. 运行环境:Windows7,python3.7 操作步骤: 1.打开选好的评书主页面 ...
- Python爬虫学习,批量爬取下载抖音视频
这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙 项目源码展示 ''' 注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料, ...
- python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站
注意事项 版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...
- Python爬虫学习---------使用beautifulSoup4爬取名言网
爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签) #! /usr/bin/python3 # -*- coding:utf-8 -*-from urllib.requ ...
- Python 爬虫学习08 将爬取到的数据保存到SQL
import pymssql #引入pymssql模块 import sys from bs4 import BeautifulSoup # 网页解析,获取数据 import re # 正则表达式,进 ...
- python爬虫-----学习bs,爬取丁香园特定帖子的所有回复内容
beautifsoup----爬虫数据挖掘又一大利器 – 安装: conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs ...
- 爬虫学习4——Xpath爬取网页信息
xpath是在XML文档中搜索内容的一门语言,我们常见的html是xml的一个子集 目录 安装lxml模块 获取网页数据 text()拿文本 .xpath使用[1]选择同种标签的第一个./a[@hre ...
最新文章
- python3函数可变输入参量
- CISP-PTE注册信息安全专业人员渗透测试工程师知识体系大纲
- [六省联考2017]组合数问题
- dlsym 如何查看一个so里面的_如何查看并且使用android系统本身包含的so库?
- kvm 虚拟机常用命令
- 2016年程序员如何提高自己的方法有哪些?
- iOS中使用URL Scheme进行App跳转
- bode图处理----当相频特性曲线纵坐标超过正负180度
- 操作系统死锁 四个必要条件
- 国内下载Android源码教程
- JAVA 模拟扑克牌洗牌发牌案例
- Google 3D压缩项目Draco简析
- STM32F103C6T6初步学习
- 【饭谈】【超详细】的资深测开的招聘要求,大家看看这符合了值多少钱?
- Serval的试卷答案(线段树)
- ef1a启动子_启动子的选择和预测
- Alibaba微服务组件Sentinel
- linux内核裁剪的具体过程和选择
- Mongo数据库简介
- vue3+vite UC浏览器兼容