python如何爬取网站所有目录_python 爬取网站的博客目录
第一步,安装 requests-html升级 pippip install --upgrade pip升级 urllib3sudo python3 -m pip install urllib3 --upgrade安装 requests-htmlsudo python3 -m pip install requests-html
第 1.1 步,给项目,安装 requests-html修改 setup.py 文件,
添加install_requires=[
'requests-html',
],修改 launch.json
添加"pythonPath": "/usr/bin/python3"命令行,安装sudo python3 -m setup installpython 文件中,使用from requests_html import HTMLSession
第 2 步,继续使用 youtube - dl新建一个信息提取类class XxxIE(InfoExtractor):建立匹配正则_VALID_URL = r'https?://(?:www\.|m\.)?xxx\.com.+posts?.+'
对应源代码
启动后,先走 YoutubeDL.py 文件的def extract_info(self, url, download=True, ie_key=None, extra_info={},
process=True, force_generic_extractor=False):
# ...
for ie in ies:
if not ie.suitable(url):
continue
# ...再走 extractor 文件夹下 common.py 文件的@classmethod
def suitable(cls, url):
if '_VALID_URL_RE' not in cls.__dict__:
cls._VALID_URL_RE = re.compile(cls._VALID_URL)
# ...
2.1 剩下的交给class XxxIE(InfoExtractor):先在 extractor 文件夹下的extractors.py
中引用一下XxxIE 中下载爬取,即可from requests_html import HTML
class XxxIE(InfoExtractor):
_GEO_COUNTRIES = ['CN']
IE_NAME = 'xxx: blog'
IE_DESC = 'wo qu'
_VALID_URL = r'https?://(?:www\.|m\.)?xxx\.com.+posts?.+'
_TEMPLATE_URL = '%s://www.xxx.com/%s/posts/%s/'
_LIST_VIDEO_RE = r']+?href="(?P/%s/sound/(?P\d+)/?)"[^>]+?title="(?P[^>]+)">'
def _real_extract(self, url):
scheme = 'https' if url.startswith('https') else 'http'
print("start ya yay ya")
print("\n\n\n")
self.downloadX(url, 1)
small = list(range(2, 20))
for index in small:
# ?page=2
src = url + "?page=" + str(index)
self.downloadX(src, index)
print("\n\n\n")
return {}
def downloadX(self, src, index):
audio_id = 123456
webpage = self._download_webpage(src, audio_id,
note='Download sound page for %s' % audio_id,
errnote='Unable to get sound page')
html = HTML(html=webpage)
# print(webpage)
jsonElement = html.find('#js-initialData')
jsonInfo = jsonElement[0].text
jsonX = json.loads(jsonInfo)
dic = jsonX['initialState']['entities']['articles']
print("page: " + str(index) + " : ")
for k, v in dic.items():
# pprint(v)
t = v.get('title')
print(t)
print("\n")
python如何爬取网站所有目录_python 爬取网站的博客目录相关推荐
- Scrum Meeting博客目录
笨拙软件工程Scrum Meeting博客目录 一.Scrum Meeting 1. Alpha [Alpha阶段]第一次Scrum Meeting [Alpha阶段]第二次Scrum Meeting ...
- ZZQ的博客目录--更新于20210601
呆呆象呆呆的所有博客目录 文章目录 呆呆象呆呆的所有博客目录 [==第1部分==:文献阅读与想法笔记]12 [==第2部分==:论文撰写与文档编辑]13 [==第3部分==:Linux系统理论操作学习 ...
- python自我总结笔记、加上一些自己思考_写技术博客那点事(此篇文章 鼓励自己 多思考 多学习 多做 )...
前言 写文章是一个短期收益少,长期收益很大的一件事情,人们总是高估短期收益,低估长期收益.往往是很多人坚持不下来,特别是写文章的初期,刚写完文章没有人阅读会有一种挫败感,影响了后期创作. 从某种意义上 ...
- MachineLN博客目录
MachineLN博客目录 https://blog.csdn.net/u014365862/article/details/78422372 本文为博主原创文章,未经博主允许不得转载.有问题可以加微 ...
- jekyll网站上传服务器,jekyll 高效搭建个人博客之完整流程
jekyll.png 原创精选来自我的博客文章 目录 说在前面的话 作为一个和电脑.代码打交道的我,一直都想拥有自己的博客,一切都显得那么高(zhuang)大(bi)上(yong),在下定决心之后就在 ...
- md 生成目录 码云_搭建简易博客方案
现在大家都喜欢用markdown来写技术博客,这篇文章将阐述搭建支持markdown的简易博客方法. 我的写作需求 通过阅读本文,您将学会搭建满足以下条件的博客: 博客只用书写markdown文件 能 ...
- !!!后续博客写到简书 + 博客园留博客目录
简书:https://www.jianshu.com/u/88deb3ad8325 博客园是一个老牌,但是迟迟不支持程序员更喜欢的markdown,而且代码着色也略显单调,所以后续的博客会在简书上写, ...
- Swan Song Gamma阶段博客目录
Swan Song Gamma阶段博客目录 一.Scrum Meeting 第十二周会议记录 第十三周会议记录 第十四周会议记录 二.测试报告 Gamma阶段测试报告 三.习得的软工原理/方法/技能? ...
- 关于PYTHON里SUPER使用时报的typeerror错误 - dongua的日志 - 网易博客
关于PYTHON里SUPER使用时报的typeerror错误 - dongua的日志 - 网易博客 关于PYTHON里SUPER使用时报的typeerror错误 2009-08-25 17:16:08 ...
- Agile - 埃杰团队每日例会博客目录
Agile - 埃杰团队每日例会博客目录 项目 这个作业属于哪个课程 2023北航敏捷软件工程 这个作业的要求在哪里 团队项目-每日例会报告 我们在这个课程的目标是 学习并实践软件工程开发的方法论.在 ...
最新文章
- PHP 截取字符串专题
- oracle sap 用友 保险财务系统比较,SAP和用友的财务管理系统比较详解
- docker部署openvas
- springmvc二: @RequestMapping
- 【Spark机器学习速成宝典】模型篇01支持向量机【SVM】(Python版)
- SpringBoot+SpringSecurity之多模块用户认证授权同步
- 【C++深度剖析教程31】被遗弃的多重继承
- AI 线上峰会 | 人工智能技术解析与实战
- centos7.x 通过yum方式安装java 1.8.0
- Spark源码分析之DiskBlockMangaer分析
- net java互相调用_Java与.NET的WebServices相互调用
- 对话张潼 | 腾讯AI Lab周岁:规模飙至370人,要做后来居上的终结者
- 好用的jquery.animateNumber.js数字动画插件
- paip.NullPointerException --ApplicationImpl. createValueBinding错误的解决
- 为什么CAD导出PDF没有颜色
- ajax加载图片使用,Lightbox–Ajax加载下图片灯箱的使用
- 小米摄像头云台版链接群晖NAS故障解决
- Wireshark用户使用手册系列完结篇
- 论文研读 —— 4. You Only Look Once Unified, Real-Time Object Detection (1/3)
- 《用户体验要素——以用户为中心的产品设计》读书笔记