python解析钩针图解到markdown文件/requests/BeautifulSoup
一、钩针图解之家
# coding=utf-8
import requests
from bs4 import BeautifulSoupfilename = '钩针图解之家/钩针图解之家.md'if __name__ == '__main__':url = "https://mp.weixin.qq.com/s/ROqjMaJJEwHP7SNsGXs28w"homePage = requests.get(url)# print(res.encoding) # ISO-8859-1homePage.encoding = "utf-8"# print(homePage.text)# print(type(res)) # <class 'requests.models.Response'>homePageSoup = BeautifulSoup(homePage.text, 'html.parser')homePageList = homePageSoup.select("section p a ")# print(homePageList)print("总共有 : " + str(len(homePageList)))for index in range(len(homePageList)):# for li in homePageList:# print(li)href = homePageList[index]["href"]# print(href)detailPage = requests.get(href)detailPage.encoding = "utf-8"detailPageSoup = BeautifulSoup(detailPage.text, 'html.parser')detailPageList = detailPageSoup.select(".rich_pages")name = detailPageSoup.select("#activity-name")[0].text \.replace('\n', '').replace(' ', '').rstrip().lstrip()print(name)if index % 5 == 0:filename = '钩针图解之家/' + str(index) + '.md'with open(filename, 'a', encoding='utf-8') as file_object:file_object.write("# [" + str(index + 1) + "、" + name + "](" + href + ")")file_object.write("\n")for value in detailPageList:try:print(value)src = value['data-src']print(src)if src.endswith('=gif'):print('---->gif图')elif src == 'https://mmbiz.qpic.cn/mmbiz_jpg/HicjZk3q41ZPiaBxDmK6njcibLYFutxsGjuSqqq37umEMqOZeyMXR2EiakAoM1CEL2UJcbuYq4IS7LricActVPlSeCw/640?wx_fmt=jpeg':print('---->二维码图片')elif src == 'https://mmbiz.qpic.cn/mmbiz_jpg/HicjZk3q41ZPiaBxDmK6njcibLYFutxsGjuyVpqBS1Oib65U4xJYuTsfibkibewuibFOUxu4POCz2ypQ8icTI7fjXTlEXA/640?wx_fmt=jpeg':print('---->结束图片')else:file_object.write("![](" + src + ")")file_object.write("\n")except:print('------error-------')continuefinally:print('-------finally-----------')file_object.write("\n")file_object.write("\n")file_object.write("\n")file_object.write("\n")print('-------------------------------------->')print('===========================大结局===============================')
二、猫小姐的毛线屋
# coding=utf-8
import requests
from bs4 import BeautifulSoupfilename = '猫小姐的毛线屋/猫小姐的毛线屋111.md'if __name__ == '__main__':url = "https://mp.weixin.qq.com/s/iyzHblpOiLG2x_hxRyj8eA"homePage = requests.get(url)# print(res.encoding) # ISO-8859-1homePage.encoding = "utf-8"# print(res.text)# print(type(res)) # <class 'requests.models.Response'>homePageSoup = BeautifulSoup(homePage.text, 'html.parser')homePageList = homePageSoup.select("td p a")# for li in homePageList:print("总共有 : " + str(len(homePageList)))for index in range(len(homePageList)):# for index in range(len(fruits)):# print '当前水果 :', fruits[index]# print(li)href = homePageList[index]["href"]# print(href)detailPage = requests.get(href)detailPage.encoding = "utf-8"detailPageSoup = BeautifulSoup(detailPage.text, 'html.parser')detailPageList = detailPageSoup.select(".rich_pages")name = detailPageSoup.select("#activity-name")[0].text \.replace('\n', '').replace(' ', '').rstrip().lstrip()print(name)if index % 5 == 0:filename = '猫小姐的毛线屋/' + str(index) + '.md'with open(filename, 'a', encoding='utf-8') as file_object:file_object.write("# [" + str(index + 1) + "、" + name + "](" + href + ")")file_object.write("\n")file_object.write("\n")for value in detailPageList:src = value['data-src']print(src)if src.endswith('=gif'):print('---->gif图')elif src == 'https://mmbiz.qpic.cn/mmbiz_jpg/HicjZk3q41ZPiaBxDmK6njcibLYFutxsGjuSqqq37umEMqOZeyMXR2EiakAoM1CEL2UJcbuYq4IS7LricActVPlSeCw/640?wx_fmt=jpeg':print('---->二维码图片')elif src == 'https://mmbiz.qpic.cn/mmbiz_jpg/HicjZk3q41ZPiaBxDmK6njcibLYFutxsGjuyVpqBS1Oib65U4xJYuTsfibkibewuibFOUxu4POCz2ypQ8icTI7fjXTlEXA/640?wx_fmt=jpeg':print('---->结束图片')else:file_object.write("![](" + src + ")")file_object.write("\n")file_object.write("\n")file_object.write("\n")file_object.write("\n")file_object.write("\n")print('-------------------------------------->')print('===========================大结局===============================')
python解析钩针图解到markdown文件/requests/BeautifulSoup相关推荐
- Python解析CANoe录制的blf文件asc文件通用方法
Python解析CANoe录制的blf文件&asc文件通用方法 一.背景 由于很多时候我们在录制日志文件的时候更愿意选择BLF文件,至少目前我见到的很多公司都是使用的BLF文件来作为最 ...
- Python解析CANoe录制的asc文件
Python解析CANoe录制的asc文件 一.背景 由于很多时候我们需要单纯分析一些报文数据,筛选或者一些故障报文,这个时候,用CANoe打开太占用设备了,而且只能过滤到某一帧报文,当我们能 ...
- 使用python解析Wordpress导出的xml文件
在用wordpress导出日志时,得到的往往是xml文件,具体形式如下: <?xml version="1.0" encoding="UTF-8"?> ...
- 用Python解析WinMerge生成的Patch文件
这个代码是本人第一次用Python写的包含Class的代码. 该解析之前用VBA写过,刚刚学习了五天的Python, 检验一下自己学习的成果,也算给五一长假画上一个分号. 写的比较烂,自己看着都难受. ...
- Python解析access数据库(mdb文件或者accdb文件)
在工作中遇到这样一个问题,需要对上百个mdb文件进行数据统计,mdb文件实际上就是access数据库,使用微软的access工具即可打开. 但是我电脑上没有安装access数据库,而且官方的安装包还要 ...
- python 解析下载的二进制Excel文件内容
先描述一波问题场景: 需求是项目中调接口会下载Excel文件,然后解析出Excel文件中固定行列的值即可.如果直接读取Excel文件,使用xlrd库即可.但是调下载接口返回的二进制的内容~~~,如下: ...
- 用python解析SWMM的.OUT输出文件
一..OUT文件概述 SWMM中.OUT输出文件为二进制文件,用记事本打开会呈现如下图所示的乱码状态.但是.OUT文件中有很多重要结果信息(例如:节点全模拟时段水深.侧向来水.出口总流量等数据),用官 ...
- 本地markdown文件自动生成|图片批量压缩并转base64格式|告别图床服务器|博文神器
一.项目简介 问题来源 每次本地写好markdown格式的文档后,想要将它上传到博客网站上,但是本地的图片无法直接复制到网站的博客页面,每个图片需要重新点击上传,然后上传本地文件.其实也可以买一个图床 ...
- Python爬虫爬取微博热搜保存为 Markdown 文件
微博热搜榜python爬虫,仅供学习交流 源码及注释: # -*- coding=UTF-8 -*- #!usr/bin/env pythonimport os import time import ...
- 将py文件转换成html,(2条消息)自制 Python小工具 将markdown文件转换成Html文件
今天看到了一个Python库,名为markdown.瞬间就给了我一个灵感,那就是制作一个将markdown文件转换成html文件的小工具. 我的实验环境操作系统: Windows 7 64位 旗舰版 ...
最新文章
- 7、Altiris cms 7.0 软件管理 下
- 退出页面 数据保留_设计师常用的数据分析指标
- PAT甲级1001.A+B Format(20)
- Maximum Allowed Error 7 错误解决
- MySQL分区表概念以及优缺点
- java 面试题三十三 子类父类方法执行顺序的问题
- python 开发api_使用FastAPI和Python快速开发高性能API
- 2的负x次幂图像_数学| NO.2,3函数 T51
- VMware vSphere 7.0U3下载
- 计算机页面格式和编排,论文开题格式
- 新旧骗术揭秘:防止5G时代的电信诈骗
- java如何解压rar文件怎么打开_java解压RAR压缩文件
- Android自学笔记:Tab控件源码剖析
- hnu 数字电路 实验1.1 异或门
- 个人HTML期末大作业~ 个人网页(HTML+CSS)6页面带下拉特效~简单带表格带设计说明 ~学生网页设计作业源码
- Boring Old Menu Bar for Mac(菜单栏美化工具)
- Hashtable用法
- 服务器系统需要安装什么软件有哪些,在服务器上安装操作系统和必备软件
- Hello Kitty
- 程序员必读经典书籍推荐
热门文章
- 《人类简史》《未来简史》读后感作文5000字
- Elasticsearch 最佳运维实践总结
- BigDecimal表示0.1
- 医院招聘护士 计算机证,医院招聘护士面试自我介绍
- Qt -qss样式表
- 悲伤的时候总会想起什么
- fluent linux运行算例,在linux环境下运行fluent,case文件中带有udf的话,jou文件应该做什么改变呢?...
- Docker使用教程超详细
- 【TCP拥塞控制算法(TCP congestion control algorithm)学习笔记】
- spring boot打包本地idea跑能行,上线jar包跑不行 解决