知乎Live内容管理器

简介

这是一个管理你购买过的知乎LIVE的工具,使用场景是往往我们听过的live是语音格式,无法保存、沉淀和搜索。知乎live本身做为一个付费内容,它的内容价值较高,所以做这样的工具能帮助自己更好的管理知识。希望您能注重版权,切勿随意分享自己购买过的live。

预览

安装和使用

使用技术

使用async做网络请求的处理,包括抓取知乎的live内容、将live中的音频提交至其他平台做文字转化、Web服务器。

使用百度提供的API进行语音文字之间的转换(经过实验对比,百度的转化效果最好)。

需要安装ffmpeg组件,因为知乎的音频格式为aac,而百度需要其他格式。

安装及使用

1、创建MYSQL数据库,需要数据库字符集为utf8mb4,否则emoji表情字符串导致无法插入数据

ALTER DATABASE zhihu CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;

ALTER TABLE message CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

ALTER TABLE live CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;

2、安装pipenv

# 注意python版本要 3.5.3+, 最好要选择3.6+

pip install pipenv

3、安装依赖,并修改config.py内的相关数据库配置

# 不推荐使用 pipenv

pipenv install

# 推荐使用 pip install -r requirements.txt -i http://pypi.douban.com/simple/

4、建表

pipenv shell

python run.py initdb

5、爬取(命令行内输入知乎用户名密码)

python run.py crawl

5.1、爬取VIP LIVE 全部(需要先输入账号密码, 且在vip有效内)

# 下载的文件为 live_all.txt

# 默认排除下载的文件为 big_live.txt (默认规则大于500消息), 如果要下载, 清空文件即可(不是删除)

# 注意, problem.txt 为部分live有谜之bug, 部分数据无法抓取, 所以如果断点下载这部分会出错

# 建议, 先不下载 (可以复制problem中内容到big_live中)

# 在i5平台, 8G内存, 100M带宽下, 一次全部下载大概8小时, 全程占用50m带宽, 最后acc+img 文件80G左右

python run.py crawlvip

6、转化(已安装ffmpeg套件可忽略)

# 未安装 ffmpeg套件, 需要先转换 文件

python run.py transform

7、清理数据

# 调整主讲人回复到问题后面, 运行后可以解决回复多次展示的问题

python run.py clean_data

8、启动管理后台

python run.py webserver

9、支持docker

docker run -it -d --name zhihu -p 8080:8080 -p -p 8000:8000 -v $(pwd):/app:ro xingdao/zhihu

# 注意 运行目录为项目根目录, 需要修改 config 内配置如:

mysql \

LOCAL_AUDIO_BASE_URL, LOCAL_IMG_BASE_URL,

LOCAL_FILE_BASE_URL, LOCAL_VIDEO_BASE_URL

挂载为只读挂载, 建议本地下载好数据后 再启动, 防止docker中误差作, 需要在dockers中修改数据的(运行下载等)请去除 'ro'标识

# 或者使用 项目中 Dockerfile 自行编译运行

备注

之前版本使用不同技术栈开发

欢迎提PR

python爬取知乎live_GitHub - hjlarry/zhihulive: 一个用来管理沉淀你所购知乎live的工具 ✨✨...相关推荐

  1. python爬取百度百科表格_第一个python爬虫(python3爬取百度百科1000个页面)

    以下内容参考自:http://www.imooc.com/learn/563 一.爬虫简介 爬虫:一段自动抓取互联网信息的程序 爬虫可以从一个url出发,访问其所关联的所有的url.并从每个url指向 ...

  2. python爬虫爬微信数据可信吗_我用 Python 爬取微信好友,最后发现一个大秘密

    前言 你身处的环境是什么样,你就会成为什么样的人.现在人们日常生活基本上离不开微信,但微信不单单是一个即时通讯软件,微信更像是虚拟的现实世界.你所处的朋友圈是怎么样,慢慢你的思想也会变的怎么样.最近在 ...

  3. 我用 Python 爬取微信好友,最后发现一个大秘密

    前言 你身处的环境是什么样,你就会成为什么样的人.现在人们日常生活基本上离不开微信,但微信不单单是一个即时通讯软件,微信更像是虚拟的现实世界.你所处的朋友圈是怎么样,慢慢你的思想也会变的怎么样.最近在 ...

  4. python爬取bilibili弹幕_GitHub - yxwangnju/Bilibili-Bullet-Screen-Crawler: 一个爬取bilibili上弹幕的简单python程序...

    Bilibili Bullet Screen Crawler 用python语言实现了一个简单的哔哩哔哩弹幕爬虫程序. 1. 运行环境 python 3 and higher versions. 运行 ...

  5. python爬取视频自动播放_介绍一个python视频处理库:moviepy

    处理视频是一个常见的需求.那么在python中如何用代码处理视频呢?最近我无意间发现了一个很好用的python视频处理库moviepy,其使用起来简单易用,而且功能比较强大,这里记录一下分享给大家. ...

  6. Python爬取整个网页的数据

    本案例是基于PyCharm开发的,也可以使用idea. 在项目内新建一个python文件Test.py Test.py # 导入urllib下的request模块 import urllib.requ ...

  7. 完全小白篇-使用Python爬取网络小说

    完全小白篇-使用Python爬取网络小说 一.找一个你要爬取的小说 二.分析网页 网页的展示方式 需要用到的库文件 三.向网站发送请求 四.正则提取 五.跳转的逻辑 六.后续处理 七.保存信息进入do ...

  8. 用python爬取漫画,代入感太强了

    导语: 哈喽,哈喽~当有人给你安利了一部超级好看的漫画时. 你点进去看了一下,这画风,这剧情,代入感太强我现在宣布我就是女主了. 但是看着看着,要vip你又没有,这是什么人间疾苦啊!我的女主光环呢? ...

  9. 如何使用python编程抢京东优惠券 知乎_学好Python爬取京东知乎价值数据

    原标题:学好Python爬取京东知乎价值数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这 ...

最新文章

  1. 明晚8点直播 | Transformer新型神经网络在机器翻译中的应用
  2. LOL手游上线!同步专属限量游戏红包封面,还不快来拿?
  3. c语言怎么独缺非空格字符,C语言-字符串(单个字符)
  4. html做转盘指针被压住,爸爸特制“写作业”转盘,被儿子反套路:愿赌服输!...
  5. jMeter Thread group 对应的 constant timer
  6. MFC遍历指定目录下的所有文件/文件夹(不遍历子目录)
  7. python standardscaler_Python快速实战机器学习之数据预处理
  8. 关于.NET框架的主要组件 10:45:02
  9. 220v转5v阻容降压电路
  10. 使用Intellij idea新建Java Web项目(servlet) 原理及初步使用
  11. xp系统qq安装不上网络连接服务器,windows xp系统不能登录qq的解决方法
  12. centos7 firewalld
  13. 交通灯控制(软件延时法)C语言,智能交通灯控制系统软件部分(49页)-原创力文档...
  14. Android基础入门
  15. 第三章 处理机调度与死锁(汤小丹版操作系统笔记) 超全超详细!!!
  16. 游戏服务器没有响应怎么回事,求助!!!为什么我进不了游戏!!!
  17. [人工智能-深度学习-61]:生成对抗网络GAN - 图像融合的基本原理与案例
  18. 零和博弈、正和博弈和负和博弈
  19. void函数内创建并返回一个结构体
  20. web performance tu ning

热门文章

  1. vivo老照片修复解密
  2. 数学建模系列-评价模型(一)---模糊综合评价法
  3. RBM(受限玻尔兹曼机)解析
  4. php怎么设置浏览器提示错误,浏览器怎么显示php错误
  5. (20)-- 制作兄弟连首页
  6. 使用Coding管理项目代码记录
  7. 本地存储-cookie|localStorage|sessionStorage|indexedDB
  8. 【附源码】计算机毕业设计java应急互助信息管理系统设计与实现
  9. SAP税务处理---采购/销售相关
  10. UI----Android开发艺术字体设置