2020-9-6 提取B站视频的标题(就是提取网页的文字)
成功代码[一]
(python)(爬虫)
注:自己备份用的,怕我到时候找不到ヾノ≧∀≦)o
作用:提取B站视频的标题(就是提取网页的文字)
基本功能:提取标题
import requests
import re
from bs4 import BeautifulSouptitle=open(r"./title.txt","w",encoding='utf')#打开文件def find(key):url = "https://search.bilibili.com/all?keyword="+key#搜索结果页一般是在主页网址后面加上(all?keyword="要搜索的字段")try:#尝试html = requests.get(url)html.raise_for_status()except:#如果错误的话print("error")finally:#执行完成后收尾(类似析构函数)return html.text#以中文编码返回def getsoup(html):soup = BeautifulSoup(html,"html.parser")#解析器:lxml, html5lib, 和 html.parserfor data in soup.find_all('a',class_ = "title"):#class后面有个下划线,寻找标志为a,属性"类"为title的字段d = re.compile('title=".*"').findall(str(data))#一次筛选 通过正则表达式来筛选从(title=")到(")之间的字段d1 = re.compile('\".*?\"').findall(str(d))#二次筛选 通过正则表达式来筛选从(")到(")的字段 .*表示范围内的所有字符(除了\n),(?)表示找到第一个结尾匹配项就停止,例:从(")开始找到第一个(")就停止title.write(str(d1[0]))#写入结果(下标是因为[1]下面不是我要的)title.write("\n")#换行html=find('初音')
getsoup(html)
扩展1:页数是在搜索后面加上(&page=50)
例:https://search.bilibili.com/all?keyword=“初音”&page=50就是搜索"初音"的搜索结果的第50页
作用:遍历全部页面的标题后输出到txt文件里
import requests
import re
from bs4 import BeautifulSoupc=open(r"./url2.txt","w",encoding='utf')def find(key,page):page = str(page)url = "https://search.bilibili.com/all?keyword="+key+"&page="+pagetry:html = requests.get(url)html.raise_for_status()except:print("error")finally:return html.text#以中文编码返回def getsoup(html):soup = BeautifulSoup(html,"html.parser")#解析器:lxml, html5lib, 和 html.parserfor data in soup.find_all('a',class_ = "title"):#class后面有个下划线d = re.compile('title=".*"').findall(str(data))d1 = re.compile('\".*?\"').findall(str(d))c.write(str(d1[0]))c.write("\n")def find_all_page(key):html = find(key,1)soup=BeautifulSoup(html,"html.parser")data = soup.find_all('button',class_ = "pagination-btn")d = data[len(data)-1]#获取页表总数,倒数第1个(减一,下标是从零开始的)d1 = re.compile('.*').findall(str(d))d2 = str(d1[2])d3 = list(d2)d4 = len(d3)d5 = int(d3[d4-2]+d3[d4-1])#全部页码(不知道有没有更好的方法来取数字...)num = 0while num<=d5:#循环取标题html1 = find(key,num)getsoup(html1)num+=1find_all_page("初音")
2020-9-6 提取B站视频的标题(就是提取网页的文字)相关推荐
- python 提取 B 站视频中的音频
需要工具 you-get moviepy 代码实现 #-*- coding: utf-8 -*- import subprocess import os import moviepy.editor a ...
- 一键提取,将视频中的音频提取
相对比起文件.图片.音频格式,视频格式更难转换.担心选择的软件有病毒.或者转换后的画质不清晰.或者转换超慢耽误时间.现在还是很多人喜欢MP4格式的视频,音频呢?还是比较多选择MP3.在视频中提取音频呢 ...
- Python 仅下载B站视频的音频
Python 仅下载B站视频的音频 因为各音源网站都要会员而且资源都不全,但是B站上所有的歌或者郭德纲的相声是都可以分享的,所以想在B站上下载想要的歌或者其他的音频. 首先打开一个连接https:// ...
- selenium、you-get下载B站视频、监控播放量和弹幕
selenium.you-get下载B站视频.监控播放量和弹幕 说明 完整代码 运行结果 说明 前两段代码是使用you-get下载视频,第一段是说明.第三段代码爬取b站视频的标题+播放量+弹幕数.注意 ...
- 将B站视频设置为浏览器背景,你确定不试试?
动图效果 说在前面 心血来潮做了个插件,通过该插件我们使用B站视频来做自己浏览器网页的背景视频,这样浏览起来是不是会更加的赏心悦目. 使用步骤 插件下载 Gitee地址:https://gitee.c ...
- python b站日排行榜_B站2020年每周必看热门视频数据盘点!Python数据分析
1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...
- B站2020年每周必看热门视频数据盘点!Python数据分析
1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...
- B站2020年每周必看热门视频数据盘点(数据分析)1.数据抓取2.数据清洗3.数据分析及可视化
1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...
- 【自嗨笔记#5】2020 最新B站视频下载方法
[自嗨笔记#5]2020 最新B站视频下载方法 最近,因公司需要创办抖音号,宣传造势,我就想自己找点素材练习练习剪辑.那么,学习素材从哪里来呢!小破站!!不多说,正文开始! 先说下情况,B站的视频,音 ...
最新文章
- LeetCode简单题之按既定顺序创建目标数组
- QIIME 2教程. 15样品分类和回归q2-sample-classifier(2020.11)
- 学习IT技术你需要的是书?视频教程?还是老师?
- django引入现有数据库
- SSE命令示例代码(整型、读写控制寄存器、混杂、矩阵变换)
- Array的用法总结-swift
- 渗透测试流程(单台服务器)
- Swift 语言概览 -自己在Xcode6 动手写1
- 开源的人品测试机 (windows版)
- 怎么把matlab中的图导出,matlab的数据能保存到excel表格-如何将matlab 中输出的图形保存到Excel中去,详细点...
- strcmp() Anyone? UVA - 11732 左孩子右兄弟Trie/计数
- 连接Oracle时报错ORA-28547
- 在IPCAM上实现RTSP协议直播-live555 转
- 华硕FX50JK4200安装Win8.1后如何禁用触摸板
- 胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式
- 几招让你轻松解决 Uni-app、原生 App 混合开发问题
- 微信小程序之移动端适配
- 吹气球 Burst Balloons
- pgsql删除表中所有数据_pg数据库 删除所有表
- 为什么计算机二级未来教育评分低,未来教育计算机Msoffice二级, PPT评分总是说文件不存在, 分数总是0分, 到底是为什么?...