2020-9-6 提取B站视频的标题(就是提取网页的文字)

成功代码[一]

(python)(爬虫)

注:自己备份用的,怕我到时候找不到ヾﾉ≧∀≦)o

作用:提取B站视频的标题(就是提取网页的文字)

基本功能:提取标题

import requests
import re
from bs4 import BeautifulSouptitle=open(r"./title.txt","w",encoding='utf')#打开文件def find(key):url = "https://search.bilibili.com/all?keyword="+key#搜索结果页一般是在主页网址后面加上(all?keyword="要搜索的字段")try:#尝试html = requests.get(url)html.raise_for_status()except:#如果错误的话print("error")finally:#执行完成后收尾(类似析构函数)return html.text#以中文编码返回def getsoup(html):soup = BeautifulSoup(html,"html.parser")#解析器:lxml, html5lib, 和 html.parserfor data in soup.find_all('a',class_ = "title"):#class后面有个下划线,寻找标志为a,属性"类"为title的字段d = re.compile('title=".*"').findall(str(data))#一次筛选 通过正则表达式来筛选从(title=")到(")之间的字段d1 = re.compile('\".*?\"').findall(str(d))#二次筛选 通过正则表达式来筛选从(")到(")的字段 .*表示范围内的所有字符(除了\n),(?)表示找到第一个结尾匹配项就停止,例:从(")开始找到第一个(")就停止title.write(str(d1[0]))#写入结果(下标是因为[1]下面不是我要的)title.write("\n")#换行html=find('初音')
getsoup(html)

扩展1:页数是在搜索后面加上(&page=50)
例:https://search.bilibili.com/all?keyword=“初音”&page=50就是搜索"初音"的搜索结果的第50页

作用:遍历全部页面的标题后输出到txt文件里

import requests
import re
from bs4 import BeautifulSoupc=open(r"./url2.txt","w",encoding='utf')def find(key,page):page = str(page)url = "https://search.bilibili.com/all?keyword="+key+"&page="+pagetry:html = requests.get(url)html.raise_for_status()except:print("error")finally:return html.text#以中文编码返回def getsoup(html):soup = BeautifulSoup(html,"html.parser")#解析器:lxml, html5lib, 和 html.parserfor data in soup.find_all('a',class_ = "title"):#class后面有个下划线d = re.compile('title=".*"').findall(str(data))d1 = re.compile('\".*?\"').findall(str(d))c.write(str(d1[0]))c.write("\n")def find_all_page(key):html = find(key,1)soup=BeautifulSoup(html,"html.parser")data = soup.find_all('button',class_ = "pagination-btn")d = data[len(data)-1]#获取页表总数,倒数第1个(减一,下标是从零开始的)d1 = re.compile('.*').findall(str(d))d2 = str(d1[2])d3 = list(d2)d4 = len(d3)d5 = int(d3[d4-2]+d3[d4-1])#全部页码(不知道有没有更好的方法来取数字...)num = 0while num<=d5:#循环取标题html1 = find(key,num)getsoup(html1)num+=1find_all_page("初音")

2020-9-6 提取B站视频的标题(就是提取网页的文字)相关推荐

python 提取 B 站视频中的音频
需要工具 you-get moviepy 代码实现 #-*- coding: utf-8 -*- import subprocess import os import moviepy.editor a ...
一键提取，将视频中的音频提取
相对比起文件.图片.音频格式,视频格式更难转换.担心选择的软件有病毒.或者转换后的画质不清晰.或者转换超慢耽误时间.现在还是很多人喜欢MP4格式的视频,音频呢?还是比较多选择MP3.在视频中提取音频呢 ...
Python 仅下载B站视频的音频
Python 仅下载B站视频的音频因为各音源网站都要会员而且资源都不全,但是B站上所有的歌或者郭德纲的相声是都可以分享的,所以想在B站上下载想要的歌或者其他的音频. 首先打开一个连接https:// ...
selenium、you-get下载B站视频、监控播放量和弹幕
selenium.you-get下载B站视频.监控播放量和弹幕说明完整代码运行结果说明前两段代码是使用you-get下载视频,第一段是说明.第三段代码爬取b站视频的标题+播放量+弹幕数.注意 ...
将B站视频设置为浏览器背景，你确定不试试？
动图效果说在前面心血来潮做了个插件,通过该插件我们使用B站视频来做自己浏览器网页的背景视频,这样浏览起来是不是会更加的赏心悦目. 使用步骤插件下载 Gitee地址:https://gitee.c ...
python b站日排行榜_B站2020年每周必看热门视频数据盘点！Python数据分析
1.数据抓取数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...
B站2020年每周必看热门视频数据盘点！Python数据分析
1.数据抓取数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...
B站2020年每周必看热门视频数据盘点（数据分析）1.数据抓取2.数据清洗3.数据分析及可视化
1.数据抓取数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...
【自嗨笔记#5】2020 最新B站视频下载方法
[自嗨笔记#5]2020 最新B站视频下载方法最近,因公司需要创办抖音号,宣传造势,我就想自己找点素材练习练习剪辑.那么,学习素材从哪里来呢!小破站!!不多说,正文开始! 先说下情况,B站的视频,音 ...

2020-9-6 提取B站视频的标题(就是提取网页的文字)

成功代码[一]

2020-9-6 提取B站视频的标题(就是提取网页的文字)相关推荐

最新文章

热门文章