python爬微信公众号教程_python爬搜狗微信获取指定微信公众号的文章

前言：

之前收藏了一个叫微信公众号的文章爬取，里面用到的模块不错。然而

偏偏报错= =。果断自己写了一个

正文：

第一步爬取搜狗微信搜到的公众号：

http://weixin.sogou.com/weixin?type=1&query=FreeBuf&ie=utf8&s_from=input&_sug_=n&_sug_type_=1&w=01015002&oq=&ri=11&sourceid=sugg&sut=0&sst0=1529673558816&lkt=0%2C0%2C0&p=40040108

将FreeBuf改为自己要搜的公众号

查看网页源代码：

正则匹配：

第一个正则：匹配指定的URL 正则： src=.*&timestamp=.*&ver=.*&signature=.*

蓝色标出来的是我们要的，注意多请求URL可以注意到URL，signature也就是签名是随机变化的。所以可得到正则：.*== ,取第一个，然后打开此链接爬取文章链接即可(更多细节会在代码看到)

代码：

importrequestsimportreimportthreading user=input(‘请输入要搜索的微信公众号或微信号:‘) headers={‘user-agent‘:‘Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)‘} url=‘http://weixin.sogou.com/weixin?type=1&s_from=input&query={}&ie=utf8&_sug_=y&_sug_type_=&w=01015002&oq=jike&ri=0&sourceid=sugg&stj=0%3B0%3B0%3B0&stj2=0&stj0=0&stj1=0&hp=36&hp1=&sut=4432&sst0=1529305369937&lkt=5%2C1529305367635%2C1529305369835‘.format(user.rstrip())defzhuaqu(): r= requests.get(url=url, headers=headers) rsw= re.findall(‘src=.*&timestamp=.*&ver=.*&signature=.*‘, str(r.text))if ‘验证码‘ instr(r.text):print(‘[-]发现验证码请访问URL:{}后在重新运行此脚本‘.format(r.url)) exit()else: cis= re.findall(‘.*?==‘, str(rsw[0])) qd= "".join(cis) qd2= "{}".format(qd) qd3= qd2.replace(‘;‘, ‘&‘) urls= ‘https://mp.weixin.qq.com/profile?‘.strip() +qd3 uewq=requests.get(url=urls,headers=headers)if ‘验证码‘ instr(uewq.text):print(‘[-]发现验证码请访问URL:{}后在重新运行此脚本‘.format(uewq.url)) exit()else: ldw= re.findall(‘src = ".*?" ;‘, uewq.text) ldw2=re.findall(‘timestamp = ".*?" ;‘,uewq.text) ldw3=re.findall(‘ver = ".*?" ;‘,uewq.text) ldw4=re.findall(‘signature = ".*?"‘,uewq.text) ldws="".join(ldw) ldw2s="".join(ldw2) ldw3s="".join(ldw3) ldw4s="".join(ldw4) ldwsjihe=ldws+ldw2s+ldw3s+ldw4s fk=ldwsjihe.split() fkchuli="".join(fk) gs=fkchuli.replace(‘"‘,‘‘) hew=gs.replace(‘;‘,‘&‘) wanc="http://mp.weixin.qq.com/profile?"+hew xiau=requests.get(url=wanc,headers=headers) houxu=re.findall(‘{.*?}‘,xiau.content.decode(‘utf-8‘)) title=re.findall(‘"title":".*?"‘,str(houxu)) purl=re.findall(‘"content_url":".*?"‘,str(houxu))for i inrange(0,len(title)): jc=‘{}:{}‘.format(title[i],‘https://mp.weixin.qq.com‘+purl[i]).replace(‘"‘,‘‘) jc2=jc.replace(‘content_url‘,‘‘) jc3=jc2.replace(‘;‘,‘&‘)print(jc3) t=threading.Thread(target=zhuaqu,args=()) t.start()

测试结果：

BGM：

原文：https://www.cnblogs.com/haq5201314/p/9215569.html

python爬微信公众号教程_python爬搜狗微信获取指定微信公众号的文章相关推荐

python爬取微博图片教程_Python爬取微博实例分析
引言利用Ajax分析微博并爬取其内容如微博内容,点赞数,转发数,评论数等. 分析打开陈一发微博网站:https://m.weibo.cn/p/1005051054009064,并同时打开开发者工具 ...
视频教程-微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统-微信开发
微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统微信企业号星级会员.10多年软件从业经历,国家级软件项目负责人,主要从事软件研发.软件企业员工技能培训.已经取得计算机技术与软件资格考试 ...
微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统-翟东平-专题视频课程...
微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统-2445人已学习课程介绍微信小程序系统教程[初级阶段],微信小程序0基础学起,讲解微信小程序开发的基础知识. 微信小 ...
本文是对优雅草蜻蜓C影视便捷追剧小程序微信支付配置教程-大部分小程序支付通用,从微信配置到后台的详解，其他小程序系统均可参考
本文是对优雅草蜻蜓C影视便捷追剧小程序微信支付配置教程-大部分小程序支付通用,从微信配置到后台的详解,其他小程序系统均可参考微信支付配置 1,下载工具编辑切换为居中添加图片注释,不超过 14 ...
python微信公众号爬虫_Python爬取指定微信公众号所有文章！
篇文章使用到的技术: mitmdump + 电脑版微信先分析打开可视化抓包工具, 勾选https代理.然后打开电脑版微信任意点击一个公众号,再点击查看历史消息注:想学习Python的小伙伴们可 ...
python爬取论文全文数据_Python爬取微信公众号历史文章进行数据分析
思路: 1. 安装代理AnProxy,在手机端安装CA证书,启动代理,设置手机代理: 2. 获取目标微信公众号的__biz; 3. 进入微信公众号的历史页面: 4. 使用Monkeyrunner控制滑 ...
python爬虫爬微信数据可信吗_Python爬取微信，我发现了之前没发现的秘密！
技术群里一位读者微信私聊我,问我能不能统计下微信好友信息并以文件形式保存.其实,以前也写过类似的文章,一篇是微信好友性别统计,一篇是制作好友签名的词云图.比较分散,今天就索性把他们整合一下,一次性完成 ...
python爬取虎扑评论_Python爬取NBA虎扑球员数据
虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...
python 数据分析书籍推荐知乎_Python 爬取知乎 9674 个问答，揭秘最受欢迎的 98 本书！...
原标题:Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书! 作者 | Yura 责编 | 胡巍巍高尔基这话有没有道理我不知道, 咱也不敢问, 主要是现在也问不了. 那对我来说,读 ...
python知乎爬虫收藏夹_Python爬取知乎问题收藏夹爬虫入门
简介知乎的网站是比较好爬的,没有复杂的反爬手段,适合初学爬虫的人作为练习因为刚刚入门python,所以只是先把知乎上热门问题的一些主要信息保存到数据库中,待以后使用这些信息进行数据分析,爬取的网页 ...

python爬微信公众号教程_python爬搜狗微信获取指定微信公众号的文章

python爬微信公众号教程_python爬搜狗微信获取指定微信公众号的文章相关推荐

最新文章

热门文章