第一步,安装 requests-html升级 pippip install --upgrade pip升级 urllib3sudo python3 -m pip install urllib3 --upgrade安装 requests-htmlsudo python3 -m pip install requests-html

第 1.1 步,给项目,安装 requests-html修改 setup.py 文件,

添加install_requires=[

'requests-html',

],修改 launch.json

添加"pythonPath": "/usr/bin/python3"命令行,安装sudo python3 -m setup installpython 文件中,使用from requests_html import HTMLSession

第 2 步,继续使用 youtube - dl新建一个信息提取类class XxxIE(InfoExtractor):建立匹配正则_VALID_URL = r'https?://(?:www\.|m\.)?xxx\.com.+posts?.+'

对应源代码

启动后,先走 YoutubeDL.py 文件的def extract_info(self, url, download=True, ie_key=None, extra_info={},

process=True, force_generic_extractor=False):

# ...

for ie in ies:

if not ie.suitable(url):

continue

# ...再走 extractor 文件夹下 common.py 文件的@classmethod

def suitable(cls, url):

if '_VALID_URL_RE' not in cls.__dict__:

cls._VALID_URL_RE = re.compile(cls._VALID_URL)

# ...

2.1 剩下的交给class XxxIE(InfoExtractor):先在 extractor 文件夹下的extractors.py

中引用一下XxxIE 中下载爬取,即可from requests_html import HTML

class XxxIE(InfoExtractor):

_GEO_COUNTRIES = ['CN']

IE_NAME = 'xxx: blog'

IE_DESC = 'wo qu'

_VALID_URL = r'https?://(?:www\.|m\.)?xxx\.com.+posts?.+'

_TEMPLATE_URL = '%s://www.xxx.com/%s/posts/%s/'

_LIST_VIDEO_RE = r']+?href="(?P/%s/sound/(?P\d+)/?)"[^>]+?title="(?P[^>]+)">'

def _real_extract(self, url):

scheme = 'https' if url.startswith('https') else 'http'

print("start ya yay ya")

print("\n\n\n")

self.downloadX(url, 1)

small = list(range(2, 20))

for index in small:

# ?page=2

src = url + "?page=" + str(index)

self.downloadX(src, index)

print("\n\n\n")

return {}

def downloadX(self, src, index):

audio_id = 123456

webpage = self._download_webpage(src, audio_id,

note='Download sound page for %s' % audio_id,

errnote='Unable to get sound page')

html = HTML(html=webpage)

# print(webpage)

jsonElement = html.find('#js-initialData')

jsonInfo = jsonElement[0].text

jsonX = json.loads(jsonInfo)

dic = jsonX['initialState']['entities']['articles']

print("page: " + str(index) + " : ")

for k, v in dic.items():

# pprint(v)

t = v.get('title')

print(t)

print("\n")

python如何爬取网站所有目录_python 爬取网站的博客目录相关推荐

  1. Scrum Meeting博客目录

    笨拙软件工程Scrum Meeting博客目录 一.Scrum Meeting 1. Alpha [Alpha阶段]第一次Scrum Meeting [Alpha阶段]第二次Scrum Meeting ...

  2. ZZQ的博客目录--更新于20210601

    呆呆象呆呆的所有博客目录 文章目录 呆呆象呆呆的所有博客目录 [==第1部分==:文献阅读与想法笔记]12 [==第2部分==:论文撰写与文档编辑]13 [==第3部分==:Linux系统理论操作学习 ...

  3. python自我总结笔记、加上一些自己思考_写技术博客那点事(此篇文章 鼓励自己 多思考 多学习 多做 )...

    前言 写文章是一个短期收益少,长期收益很大的一件事情,人们总是高估短期收益,低估长期收益.往往是很多人坚持不下来,特别是写文章的初期,刚写完文章没有人阅读会有一种挫败感,影响了后期创作. 从某种意义上 ...

  4. MachineLN博客目录

    MachineLN博客目录 https://blog.csdn.net/u014365862/article/details/78422372 本文为博主原创文章,未经博主允许不得转载.有问题可以加微 ...

  5. jekyll网站上传服务器,jekyll 高效搭建个人博客之完整流程

    jekyll.png 原创精选来自我的博客文章 目录 说在前面的话 作为一个和电脑.代码打交道的我,一直都想拥有自己的博客,一切都显得那么高(zhuang)大(bi)上(yong),在下定决心之后就在 ...

  6. md 生成目录 码云_搭建简易博客方案

    现在大家都喜欢用markdown来写技术博客,这篇文章将阐述搭建支持markdown的简易博客方法. 我的写作需求 通过阅读本文,您将学会搭建满足以下条件的博客: 博客只用书写markdown文件 能 ...

  7. !!!后续博客写到简书 + 博客园留博客目录

    简书:https://www.jianshu.com/u/88deb3ad8325 博客园是一个老牌,但是迟迟不支持程序员更喜欢的markdown,而且代码着色也略显单调,所以后续的博客会在简书上写, ...

  8. Swan Song Gamma阶段博客目录

    Swan Song Gamma阶段博客目录 一.Scrum Meeting 第十二周会议记录 第十三周会议记录 第十四周会议记录 二.测试报告 Gamma阶段测试报告 三.习得的软工原理/方法/技能? ...

  9. 关于PYTHON里SUPER使用时报的typeerror错误 - dongua的日志 - 网易博客

    关于PYTHON里SUPER使用时报的typeerror错误 - dongua的日志 - 网易博客 关于PYTHON里SUPER使用时报的typeerror错误 2009-08-25 17:16:08 ...

  10. Agile - 埃杰团队每日例会博客目录

    Agile - 埃杰团队每日例会博客目录 项目 这个作业属于哪个课程 2023北航敏捷软件工程 这个作业的要求在哪里 团队项目-每日例会报告 我们在这个课程的目标是 学习并实践软件工程开发的方法论.在 ...

最新文章

  1. PHP 截取字符串专题
  2. oracle sap 用友 保险财务系统比较,SAP和用友的财务管理系统比较详解
  3. docker部署openvas
  4. springmvc二: @RequestMapping
  5. 【Spark机器学习速成宝典】模型篇01支持向量机【SVM】(Python版)
  6. SpringBoot+SpringSecurity之多模块用户认证授权同步
  7. 【C++深度剖析教程31】被遗弃的多重继承
  8. AI 线上峰会 | 人工智能技术解析与实战
  9. centos7.x 通过yum方式安装java 1.8.0
  10. Spark源码分析之DiskBlockMangaer分析
  11. net java互相调用_Java与.NET的WebServices相互调用
  12. 对话张潼 | 腾讯AI Lab周岁:规模飙至370人,要做后来居上的终结者
  13. 好用的jquery.animateNumber.js数字动画插件
  14. paip.NullPointerException --ApplicationImpl. createValueBinding错误的解决
  15. 为什么CAD导出PDF没有颜色
  16. ajax加载图片使用,Lightbox–Ajax加载下图片灯箱的使用
  17. 小米摄像头云台版链接群晖NAS故障解决
  18. Wireshark用户使用手册系列完结篇
  19. 论文研读 —— 4. You Only Look Once Unified, Real-Time Object Detection (1/3)
  20. 《用户体验要素——以用户为中心的产品设计》读书笔记

热门文章

  1. 产品经理 | 职业选择及面试技巧
  2. Premiere Pro 2022离线语音转文本教程
  3. Silverlight 2.5D RPG游戏技巧与特效处理:(十四)体感系统
  4. 剑气纵横-autojs动画
  5. 4.2-知识图谱在电商领域中的应用实践
  6. semantic ui中文文档_求你别再用swagger了,给你推荐几个在线文档生成神器
  7. [BZOJ 3653] 谈笑风生
  8. MySQL8.0密码找回与权限刷新
  9. 排列奇偶性与排序的关系
  10. Linux环境下安装tomcat并配置开机自启