视频文件详细信息python3_如何用python3爬取自己的收藏夹视频信息
【Part1 查找请求链接、请求头、请求参数】
1.点开自己b站收藏夹的某一个子收藏夹的具体网址
2.右键,‘检查’;
3.点击开发工具栏的Network;
4.刷新网页;
5.选择XHR;
6.左侧窗口点击List_all请求找到请求连接
7.右侧窗口的Headers--General--Request URL ,找到请求的网址,复制粘贴,直到?前的内容;再找到user-agent作为请求头;最后找到Query String Parameters的所有params参数找到请求头和请求参数
8.查看Preview部分的json层级
查看preview中的json层级
【Part2爬取数据并用csv或者excel保存】
【写入csv】
import requests
import csv
headers={'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
start_url='# 自创建收藏夹其中一个收藏夹的网址 ?之前的内容'
with open('bilibili_1.csv','w',encoding='utf-8') as file:#with open语句处理csv的写入
writer=csv.writer(file)
writer.writerow(['视频标题','视频链接','视频简介'])# 写入第一行标题
for i in range(1,5):#一次爬取4(1-4)页,否则有可能被当成恶意请求
params={
'media_id': '224273278',
'pn': i,
'ps': 20,
'keyword':'',
'order': 'mtime',
'type': 0,
'tid': 0,
'jsonp': 'jsonp'
}
res=requests.get(start_url,headers=headers,params=params)
json=res.json()
list=json['data']['medias']# 一层一层提取Json
for info in list:# 用for循环爬取所有目标值
title=info['title']
link=info['link']
intro=info['intro']
writer.writerow([title,link,intro])#写入数据
【写入excel】
import requests
import openpyxl
headers={'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
start_url='# 自创建收藏夹其中一个收藏夹的网址 ?之前的内容'
wb=openpyxl.Workbook()
sheet=wb.active
sheet.title = '搞笑视频'
sheet.append(['标题','链接','简介'])
for i in range(1,5):
params={
'media_id': '224273278',
'pn': i,
'ps': 20,
'keyword':'',
'order': 'mtime',
'type': 0,
'tid': 0,
'jsonp': 'jsonp'
}
res=requests.get(start_url,headers=headers,params=params)
json=res.json()
list=json['data']['medias']
for info in list:
title=info['title']
link=info['link']
intro=info['intro']
sheet.append([title,link,intro])
wb.save('bilibili_lol.xlsx')
wb.close() # 最后要写上关闭文件
【追加sheet】需要变动的地方
import openpyxl
wb=openpyxl.load_workbook('bilibili_lol.xlsx')
sheet4=wb.create_sheet()
sheet4.title='17_18'
sheet4.append(['标题','链接','简介'])
import requests
import openpyxl
headers={'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36'}
start_url='https://api.bilibili.com/x/v3/fav/resource/list'
for i in range(17,19):
params={
'media_id': '224273278',
'pn': i,
'ps': 20,
'keyword':'',
'order': 'mtime',
'type': 0,
'tid': 0,
'jsonp': 'jsonp'
}
res=requests.get(start_url,headers=headers,params=params)
json=res.json()
list=json['data']['medias']
for info in list:
title=info['title']
link=info['link']
intro=info['intro']
sheet4.append([title,link,intro])
wb.save('bilibili_lol.xlsx')
wb.close()
视频文件详细信息python3_如何用python3爬取自己的收藏夹视频信息相关推荐
- Selenium+Python3爬取微博我发出的评论信息
Selenium+Python3爬取微博我发出的评论信息 需求 代码 注: 需求 记录对话信息:对话文本.时间.用户.被回复链接.被回复用户.被回复文本. 将数据信息持久化保存,可选择截图. 代码 # ...
- python3爬取58同城一页招聘信息并存入数据库,虽然有一些扒不下来,希望有大神指点
直接上代码 import requests from bs4 import BeautifulSoup import time import pymysql#得到每个的详细信息 def get_inf ...
- 爬取今日头条收藏夹文章列表信息
阶段一: 了解Python,开始学习Python的基本语法,观看相关爬虫视频,了解到爬取网页信息的简单措施 阶段二: 开始着手分析头条收藏夹页面. 头条收藏夹地址格式: 地址中有三个变量参数,as,c ...
- python3爬取网易云歌曲的相关信息
打开网易云音乐的[云音乐飙升榜]:https://music.163.com/#/discover/toplist ,按F12检查元素,切换到Network,然后选择Doc,可以查看接口得到的数据,如 ...
- Python3 爬取豆瓣电影信息
原文链接: Python3 爬取豆瓣电影信息 上一篇: python3 爬取电影信息 下一篇: neo4j 查询 豆瓣api https://developers.douban.com/wiki/?t ...
- 请教python3爬取没数字的星级?
请教: 星级的源码是这样的,如何用python3爬取星级呢? 初学者,求大佬们赐教o(╥﹏╥)o 其他的书名和价格都可以拿到,就是这个星级不知道咋办 import requests from bs4 ...
- Python3 爬取携程网[2]: 爬取北京五星级酒店详细信息
目录 1. 需求分析 2. 实验环境 3. 具体实现 3.1 分析页面 3.2 请求 3.3 响应 3.3.1 BeautifulSoup提取标签信息 3.3.2 正则表达式提取字符串信息 3.3.3 ...
- Python2 Python3 爬取赶集网租房信息,带源码分析
*之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是 ...
- 如何用python爬取网页数据,python爬取网页详细教程
大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...
最新文章
- PoseFormer:首个纯基于Transformer的 3D 人体姿态估计网络,性能达到 SOTA
- Keras的回调函数
- 2022年全球及中国晶圆探针卡市场需求策略与发展格局规模预测报告
- linux centos7.6.1810安装nfs命令整理
- sql两个表查不同数据_产品操作MySQL第6篇 – 数据过滤-WHERE子句
- (二十)TCPIP面试宝典-进入大厂必备总结(中)
- 200多个js技巧代码(五)
- C# Winform控件动态删除
- python elasticsearch bulk_Elasticsearch —— bulk批量导入数据
- 不想在博问中提出的问题
- java版微信调小i机器人接口说明书_小i机器人微信公众平台调用api
- zip()和enumerate()用于for-in中遍历可迭代对象
- 线性规划 整数规划 01规划
- 文件批量改名特工 v1.0 怎么用
- CSS 选择所有子元素添加样式
- 有一行电文,已按以下规律译成密码: A-Z a-z B-Y b-y C-X c-x,即第一个字母变成第26个字母,第i个字母变成第(26-i+1)个字母,非字母字符不变。要求编程将密码译回原文,并
- 两个一维数组合成二维数组
- HTML基础 结构,标题h1和段落p 写一个三毛语录
- 基于opencv的图像阴影消除车辆变道检测
- 水晶报表(Crystal Report)- 水晶报表常见问题总结
热门文章
- zen-cart首页能否在中间栏显示“所有商品”?
- [C++对象模型][8]多重继承与虚函数表
- 谈我的“先做人,再做技术人员,最后做程序员”
- 前百度智能硬件产品负责人邓晗:语⾳交互设计的原则
- 干货 | 要怎样和程序猿谈一场没有bug的恋爱
- 你的微信朋友圈让你焦虑了吗?
- 【262】pscp命令 实现windows与linux互传文件
- unity android 集成指南
- Centos6.4_X64飞信安装
- PostgreSQL的德哥教程