• BiLiBiLi
  • Time: 2020年11月6日19:44:58
  • Author: Yblackd

@

目录
  • BiLiBiLi

    • 介绍
    • 软件架构
    • 安装教程
    • 使用说明
    • 源码下载

BiLiBiLi

介绍

b站视频详情数据抓取,自动打包并发送到指定邮箱(单个或者群发)

软件架构

  • 定时任务:采用win自带或者time.sleep()
  • 采用python自动化测试(selenium),获取b站动态生成源码,
  • 采用selenium 和 bs4 对page_source进行规则匹配清洗。
  • 清洗完数据写入json和Excel文件(有json数据转换Excel函数)--按照日期保存;
  • 按日期将文件夹压缩zip
  • 将压缩后的zip发送给指定的 邮箱或者邮箱群组

安装教程

  1. 更新浏览器版本(Chrome, Firefox, Edge等,方便找对应的webDriver); 自行百度(浏览器名 webdriver),第一个推介点进去搜索对应的 浏览器版本下载(相同最后,没有尽量选择相近)
  2. 安装python,和pip
  3. pip install -r requirments.txt,安装依赖,如果安装失败,就手敲吧,一般问题不大
  4. 按照使用说明更改必要参数

使用说明

  1. run.py:

    • 修改up_user_name = "立体设计师峥嵘" # up主名: 更改你自己要抓取的up主名称

    • 发送邮件参数

      mail_cfg = {# 邮箱登录设置,使用SMTP登录'server_username': "xxx@qq.com",  # '你的邮箱''server_pwd': "xxxxx",  # QQ和163邮箱需要:'16位随机码', QQ企业邮箱你的登录密码# 邮件内容设置'msg_to': ['xxx@qq.com', 'xxx@163.com'],  # 可以在此添加收件人单个,多个群发'msg_subject': u'日期:' + num_ct,'msg_date': email.utils.formatdate(),'msg_content': u"正文: BiLiBiLi视屏详情抓取--数据文件, 抓取时间:" + timestr,# 附件'attach_file': target
      }
  2. 如果只是修改上面说明参数,运行应该问题不大,关键就是webdriver的配置:下载好后不用添加环境变量,只要记录对应位置,代码里面声明就好;邮箱发送功能记得开启SMTP/POP

  3. 如果还是有问题,留言评论好了

源码下载

下载链接:

BiLiBiLi爬虫相关推荐

  1. SAE 部署 bilibili 爬虫

    layout: post title: sae部署bilibili爬虫 categories: python tags: spider sae 前端效果 sae准备工作 从本地上传的爬虫到sae一直被 ...

  2. bilibili爬虫+数据分析

    Python爬虫+数据分析+数据可视化实战 Python爬虫+数据分析+数据可视化实战 1. 背景介绍 2. 需求目标 3. 基于urllib的bangumi和bilibili一键爬虫脚本的编写 3. ...

  3. 找出bilibili隐藏在后方的视频并突破访问限制实现爬取

    冲浪无意看到网上的bilibili爬虫,请求可能有变了,部分并不是十分方便,于是就趁着周末,去尝试做了bilibili的这么一个视频爬虫,过程就不一一介绍了,主要是思路,本文也并不是写的小白向爬虫教程 ...

  4. 爬取初试----猫眼电影,猫眼评分

    之前看了很多关于爬虫的文章或教学视频,私以为这个教程最清晰,也是最有条理的 分享url : 作者:python爬虫 https://www.bilibili.com/read/cv998287 出处: ...

  5. 软件分享之博文收藏记录

    目录 前言 记录 前言 将自己一路学习Python的过程中,自认为不错的博文在CSDN上记录一份,以免电脑crashed.U盘没啦. 记录 2019/12/6 书签栏 博客园 - 开发者的网上家园 金 ...

  6. 莫烦python教程下载_Python 有哪些好的学习资料或者博客?

    Python是一门语法非常简单的语言,学习Python不需要花大量时间去学习它的语法,过一遍就行,主要靠实践.先给大家分享一个免费的Python的编程课,有Python的视频课程+代码实践课+辅导答疑 ...

  7. 今天分享个用Python爬虫爬取Bilibili弹幕的小例子解析

    先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为 https://www.bilib ...

  8. python爬虫bilibili_Python爬虫 bilibili视频弹幕提取过程详解

    两个重要点 1.获取弹幕的url是以 .xml 结尾 2.弹幕url的所需参数在视频url响应的 javascript 中 先看代码 import requests from lxml import ...

  9. ajax headers 参数有什么用_动态爬虫(ajax)-爬取bilibili热门视频信息

    前言 使用python爬虫爬取bilibli每日热门视频的数据 使用的第三方软件包括requests.my_fake_useragent 一.页面分析 在进行爬虫之前,我们先要对要爬取的页面进行分析, ...

最新文章

  1. MYSQL体系结构-来自期刊
  2. 如何最小化云API升级造成的中断?
  3. macOS下使用anaconda相关系列
  4. 最常用的动态sql语句梳理Mybatis(转)
  5. C# 窗口全屏 隐藏任务栏 (代码)
  6. 格式化css文件,css文件格式化脚本的方法
  7. 普通用户无法执行java,CentOS tomcat普通用户执行配置安装
  8. 简约至上,美炸天的Vue圆环菜单组件
  9. Spring Boot系列(十二)Spring Boot整合ActiveQ实现消息收发和订阅
  10. python跳过错误_Pandas之read_csv()读取文件跳过报错行的解决
  11. 狗头金一般什么地方有?
  12. 新手学v-text指令
  13. oracle 断电 监听问题,Oracle监听启动后又自动停止的问题及解决
  14. 微信小程序引入外部字体后编译包过大的问题解决
  15. 机载激光雷达原理与应用科普(三)
  16. 苹果手机回收价格怎么查询
  17. java 五角星_如何使用Java做出五角星
  18. 西安无房证明网上办理指南
  19. python3 实现自动生成入账记录表
  20. Packet Tracer 6.0基础知识

热门文章

  1. 1 java基础语法
  2. unreal报错 System.ArgumentException: Path fragment 'Document/\345\215\225\346\234\272\
  3. 【苹果家庭推群发】更新3.2更换证书连接到Apple Push Server
  4. Java缓存面试题——Redis解决方案
  5. 什么是Web1.0时代、Web2.0时代、Web3.0时代?
  6. 九联_UNT400G_S905L2_(联通)_线刷固件包
  7. python 条形图 动画_带Python的动画三维条形图
  8. Python哈希算法模块hashlib
  9. QT 计算器练习(字符串运算)
  10. apk文件在部分浏览器打不开