Python爬虫学习3----xpath爬取哔哩哔哩排行榜

爬取哔哩哔哩月排行榜，并输出csv格式文件。

import requests
import lxml.html
import csvsource = requests.get('https://www.bilibili.com/ranking/all/0/0/30').content.decode('utf-8')
selector = lxml.html.fromstring(source)
items = selector.xpath('//ul[@class="rank-list"]/li')
item_dict_list = []
for item in items:video_ranking = item.xpath('div[@class="num"]/text()')[0]video_name = item.xpath('div[@class="content"]/div[@class="info"]/a/text()')[0]#normalize-space 去掉\r\n\tvideo_view_counts = item.xpath('normalize-space(div[@class="content"]/div[@class="info"]/div[@class="detail"]/span[1]/text())')video_comments_counts = item.xpath('normalize-space(div[@class="content"]/div[@class="info"]/div[@class="detail"]/span[2]/text())')video_composite_scores = item.xpath('div[@class="content"]/div[@class="info"]/div[@class="pts"]/div/text()')[0]video_url = item.xpath('div[@class="content"]/div[@class="info"]/a/@href')[0]item_dict = {'video_ranking':video_ranking,'video_name': video_name,'video_view_counts': video_view_counts,'video_comments_counts': video_comments_counts,'video_composite_scores': video_composite_scores,'video_url':video_url}item_dict_list.append(item_dict)
with open('E:\\哔哩哔哩月排行.csv','w',encoding='utf-8-sig',newline='') as f:writer = csv.DictWriter(f,fieldnames=['video_ranking','video_name','video_view_counts','video_comments_counts','video_composite_scores','video_url'])writer.writeheader()writer.writerows(item_dict_list)

Python爬虫学习3----xpath爬取哔哩哔哩排行榜相关推荐

python爬虫学习之定向爬取淘宝商品价格
python爬虫学习之定向爬取淘宝商品价格 import requests import redef getHTMLText(url):try:r = requests.get(url, tim ...
Python爬虫如何实用xpath爬取豆瓣音乐
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
Python爬虫之利用xpath爬取ip代理网站的代理ip
爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库用命令行安装第三方库 pip install req ...
爬虫爬评书吧_爬虫学习：xpath爬取评书网
在家闲着,想找点评书听,但找了很久都没找到方便打包下载的地方.于是就拿起自学的python爬虫,自己动手丰衣足食. 运行环境:Windows7,python3.7 操作步骤: 1.打开选好的评书主页面 ...
Python爬虫学习，批量爬取下载抖音视频
这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙项目源码展示 ''' 注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料, ...
python爬取web漫画网站_[Python爬虫学习]利用selenuim爬取漫画网站
注意事项版本 Python版本为 Python-3.8.3 系统为 Windows10 浏览器为 Firefox-77.0 前置 \(selenium\) \(BeautifulSoup\) \(r ...
Python爬虫学习---------使用beautifulSoup4爬取名言网
爬取名言网top10标签对应的名言,并存储到mysql中,字段(名言,作者,标签) #! /usr/bin/python3 # -*- coding:utf-8 -*-from urllib.requ ...
Python 爬虫学习08 将爬取到的数据保存到SQL
import pymssql #引入pymssql模块 import sys from bs4 import BeautifulSoup # 网页解析,获取数据 import re # 正则表达式,进 ...
python爬虫-----学习bs，爬取丁香园特定帖子的所有回复内容
beautifsoup----爬虫数据挖掘又一大利器 – 安装: conda install beautifulsoup4 或者 pip install beautifulsoup4(这个4代表着bs ...
爬虫学习4——Xpath爬取网页信息
xpath是在XML文档中搜索内容的一门语言,我们常见的html是xml的一个子集目录安装lxml模块获取网页数据 text()拿文本 .xpath使用[1]选择同种标签的第一个./a[@hre ...

Python爬虫学习3----xpath爬取哔哩哔哩排行榜

Python爬虫学习3----xpath爬取哔哩哔哩排行榜相关推荐

最新文章

热门文章