成功代码[一]

(python)(爬虫)

注:自己备份用的,怕我到时候找不到ヾノ≧∀≦)o

作用:提取B站视频的标题(就是提取网页的文字)

基本功能:提取标题

import requests
import re
from bs4 import BeautifulSouptitle=open(r"./title.txt","w",encoding='utf')#打开文件def find(key):url = "https://search.bilibili.com/all?keyword="+key#搜索结果页一般是在主页网址后面加上(all?keyword="要搜索的字段")try:#尝试html = requests.get(url)html.raise_for_status()except:#如果错误的话print("error")finally:#执行完成后收尾(类似析构函数)return html.text#以中文编码返回def getsoup(html):soup = BeautifulSoup(html,"html.parser")#解析器:lxml, html5lib, 和 html.parserfor data in soup.find_all('a',class_ = "title"):#class后面有个下划线,寻找标志为a,属性"类"为title的字段d = re.compile('title=".*"').findall(str(data))#一次筛选 通过正则表达式来筛选从(title=")到(")之间的字段d1 = re.compile('\".*?\"').findall(str(d))#二次筛选 通过正则表达式来筛选从(")到(")的字段 .*表示范围内的所有字符(除了\n),(?)表示找到第一个结尾匹配项就停止,例:从(")开始找到第一个(")就停止title.write(str(d1[0]))#写入结果(下标是因为[1]下面不是我要的)title.write("\n")#换行html=find('初音')
getsoup(html)

扩展1:页数是在搜索后面加上(&page=50)
例:https://search.bilibili.com/all?keyword=“初音”&page=50就是搜索"初音"的搜索结果的第50页

作用:遍历全部页面的标题后输出到txt文件里

import requests
import re
from bs4 import BeautifulSoupc=open(r"./url2.txt","w",encoding='utf')def find(key,page):page = str(page)url = "https://search.bilibili.com/all?keyword="+key+"&page="+pagetry:html = requests.get(url)html.raise_for_status()except:print("error")finally:return html.text#以中文编码返回def getsoup(html):soup = BeautifulSoup(html,"html.parser")#解析器:lxml, html5lib, 和 html.parserfor data in soup.find_all('a',class_ = "title"):#class后面有个下划线d = re.compile('title=".*"').findall(str(data))d1 = re.compile('\".*?\"').findall(str(d))c.write(str(d1[0]))c.write("\n")def find_all_page(key):html = find(key,1)soup=BeautifulSoup(html,"html.parser")data = soup.find_all('button',class_ = "pagination-btn")d = data[len(data)-1]#获取页表总数,倒数第1个(减一,下标是从零开始的)d1 = re.compile('.*').findall(str(d))d2 = str(d1[2])d3 = list(d2)d4 = len(d3)d5 = int(d3[d4-2]+d3[d4-1])#全部页码(不知道有没有更好的方法来取数字...)num = 0while num<=d5:#循环取标题html1 = find(key,num)getsoup(html1)num+=1find_all_page("初音")

2020-9-6 提取B站视频的标题(就是提取网页的文字)相关推荐

  1. python 提取 B 站视频中的音频

    需要工具 you-get moviepy 代码实现 #-*- coding: utf-8 -*- import subprocess import os import moviepy.editor a ...

  2. 一键提取,将视频中的音频提取

    相对比起文件.图片.音频格式,视频格式更难转换.担心选择的软件有病毒.或者转换后的画质不清晰.或者转换超慢耽误时间.现在还是很多人喜欢MP4格式的视频,音频呢?还是比较多选择MP3.在视频中提取音频呢 ...

  3. Python 仅下载B站视频的音频

    Python 仅下载B站视频的音频 因为各音源网站都要会员而且资源都不全,但是B站上所有的歌或者郭德纲的相声是都可以分享的,所以想在B站上下载想要的歌或者其他的音频. 首先打开一个连接https:// ...

  4. selenium、you-get下载B站视频、监控播放量和弹幕

    selenium.you-get下载B站视频.监控播放量和弹幕 说明 完整代码 运行结果 说明 前两段代码是使用you-get下载视频,第一段是说明.第三段代码爬取b站视频的标题+播放量+弹幕数.注意 ...

  5. 将B站视频设置为浏览器背景,你确定不试试?

    动图效果 说在前面 心血来潮做了个插件,通过该插件我们使用B站视频来做自己浏览器网页的背景视频,这样浏览起来是不是会更加的赏心悦目. 使用步骤 插件下载 Gitee地址:https://gitee.c ...

  6. python b站日排行榜_B站2020年每周必看热门视频数据盘点!Python数据分析

    1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...

  7. B站2020年每周必看热门视频数据盘点!Python数据分析

    1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...

  8. B站2020年每周必看热门视频数据盘点(数据分析)1.数据抓取2.数据清洗3.数据分析及可视化

    1.数据抓取 数据集的获取是我们进行数据分析的第一步.现在获取数据的主要途径一般为:现成数据:自己写爬虫去爬取数据:使用现有的爬虫工具爬取所需内容,保存到数据库,或以文件的形式保存到本地. 博主用的是 ...

  9. 【自嗨笔记#5】2020 最新B站视频下载方法

    [自嗨笔记#5]2020 最新B站视频下载方法 最近,因公司需要创办抖音号,宣传造势,我就想自己找点素材练习练习剪辑.那么,学习素材从哪里来呢!小破站!!不多说,正文开始! 先说下情况,B站的视频,音 ...

最新文章

  1. LeetCode简单题之按既定顺序创建目标数组
  2. QIIME 2教程. 15样品分类和回归q2-sample-classifier(2020.11)
  3. 学习IT技术你需要的是书?视频教程?还是老师?
  4. django引入现有数据库
  5. SSE命令示例代码(整型、读写控制寄存器、混杂、矩阵变换)
  6. Array的用法总结-swift
  7. 渗透测试流程(单台服务器)
  8. Swift 语言概览 -自己在Xcode6 动手写1
  9. 开源的人品测试机 (windows版)
  10. 怎么把matlab中的图导出,matlab的数据能保存到excel表格-如何将matlab 中输出的图形保存到Excel中去,详细点...
  11. strcmp() Anyone? UVA - 11732 左孩子右兄弟Trie/计数
  12. 连接Oracle时报错ORA-28547
  13. 在IPCAM上实现RTSP协议直播-live555 转
  14. 华硕FX50JK4200安装Win8.1后如何禁用触摸板
  15. 胖子哥的大数据之路(二)- 大数据结构化数据存储应用模式
  16. 几招让你轻松解决 Uni-app、原生 App 混合开发问题
  17. 微信小程序之移动端适配
  18. 吹气球 Burst Balloons
  19. pgsql删除表中所有数据_pg数据库 删除所有表
  20. 为什么计算机二级未来教育评分低,未来教育计算机Msoffice二级, PPT评分总是说文件不存在, 分数总是0分, 到底是为什么?...

热门文章

  1. H5唤起关注公众号页面
  2. SolidWorks2021安装包下载SolidWorks2021安装教程
  3. 扫雷(不能一键分享、只能保存个喽)
  4. 抖音开放平台,究竟开放了什么?
  5. 在wifi开启时,强制通过手机网络发送请求
  6. Unity的 Stats 窗口, Batched、SetPass、Draw Call 等
  7. 铁路不通或服务器无响应,中华铁路连接服务器失败 连接不上网络怎么办
  8. 虚幻骨骼重定向-TPos
  9. 深入理解线程池 ThreadPoolExecutor
  10. 3D渲染中纹理映射技术与贴图制作技巧简介