前言:

之前收藏了一个叫微信公众号的文章爬取,里面用到的模块不错。然而

偏偏报错= =。果断自己写了一个

正文:

第一步爬取搜狗微信搜到的公众号:

http://weixin.sogou.com/weixin?type=1&query=FreeBuf&ie=utf8&s_from=input&_sug_=n&_sug_type_=1&w=01015002&oq=&ri=11&sourceid=sugg&sut=0&sst0=1529673558816&lkt=0%2C0%2C0&p=40040108

将FreeBuf改为自己要搜的公众号

查看网页源代码:

正则匹配:

第一个正则:匹配指定的URL 正则: src=.*&timestamp=.*&ver=.*&signature=.*

蓝色标出来的是我们要的,注意多请求URL可以注意到URL,signature也就是签名是随机变化的。所以可得到正则:.*== ,取第一个,然后打开此链接爬取文章链接即可(更多细节会在代码看到)

代码:

importrequestsimportreimportthreading user=input(‘请输入要搜索的微信公众号或微信号:‘) headers={‘user-agent‘:‘Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)‘} url=‘http://weixin.sogou.com/weixin?type=1&s_from=input&query={}&ie=utf8&_sug_=y&_sug_type_=&w=01015002&oq=jike&ri=0&sourceid=sugg&stj=0%3B0%3B0%3B0&stj2=0&stj0=0&stj1=0&hp=36&hp1=&sut=4432&sst0=1529305369937&lkt=5%2C1529305367635%2C1529305369835‘.format(user.rstrip())defzhuaqu(): r= requests.get(url=url, headers=headers) rsw= re.findall(‘src=.*&timestamp=.*&ver=.*&signature=.*‘, str(r.text))if ‘验证码‘ instr(r.text):print(‘[-]发现验证码请访问URL:{}后在重新运行此脚本‘.format(r.url)) exit()else: cis= re.findall(‘.*?==‘, str(rsw[0])) qd= "".join(cis) qd2= "{}".format(qd) qd3= qd2.replace(‘;‘, ‘&‘) urls= ‘https://mp.weixin.qq.com/profile?‘.strip() +qd3 uewq=requests.get(url=urls,headers=headers)if ‘验证码‘ instr(uewq.text):print(‘[-]发现验证码请访问URL:{}后在重新运行此脚本‘.format(uewq.url)) exit()else: ldw= re.findall(‘src = ".*?" ;‘, uewq.text) ldw2=re.findall(‘timestamp = ".*?" ;‘,uewq.text) ldw3=re.findall(‘ver = ".*?" ;‘,uewq.text) ldw4=re.findall(‘signature = ".*?"‘,uewq.text) ldws="".join(ldw) ldw2s="".join(ldw2) ldw3s="".join(ldw3) ldw4s="".join(ldw4) ldwsjihe=ldws+ldw2s+ldw3s+ldw4s fk=ldwsjihe.split() fkchuli="".join(fk) gs=fkchuli.replace(‘"‘,‘‘) hew=gs.replace(‘;‘,‘&‘) wanc="http://mp.weixin.qq.com/profile?"+hew xiau=requests.get(url=wanc,headers=headers) houxu=re.findall(‘{.*?}‘,xiau.content.decode(‘utf-8‘)) title=re.findall(‘"title":".*?"‘,str(houxu)) purl=re.findall(‘"content_url":".*?"‘,str(houxu))for i inrange(0,len(title)): jc=‘{}:{}‘.format(title[i],‘https://mp.weixin.qq.com‘+purl[i]).replace(‘"‘,‘‘) jc2=jc.replace(‘content_url‘,‘‘) jc3=jc2.replace(‘;‘,‘&‘)print(jc3) t=threading.Thread(target=zhuaqu,args=()) t.start()

测试结果:

BGM:

原文:https://www.cnblogs.com/haq5201314/p/9215569.html

python爬微信公众号教程_python爬搜狗微信获取指定微信公众号的文章相关推荐

  1. python爬取微博图片教程_Python爬取微博实例分析

    引言 利用Ajax分析微博并爬取其内容如微博内容,点赞数,转发数,评论数等. 分析 打开陈一发微博网站:https://m.weibo.cn/p/1005051054009064,并同时打开开发者工具 ...

  2. 视频教程-微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统-微信开发

    微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统 微信企业号星级会员.10多年软件从业经历,国家级软件项目负责人,主要从事软件研发.软件企业员工技能培训.已经取得计算机技术与软件资格考试 ...

  3. 微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统-翟东平-专题视频课程...

    微信小程序系统教程Java版[3/3阶段]_微信小程序电商系统-2445人已学习 课程介绍         微信小程序系统教程[初级阶段],微信小程序0基础学起,讲解微信小程序开发的基础知识. 微信小 ...

  4. 本文是对优雅草蜻蜓C影视便捷追剧小程序微信支付配置教程-大部分小程序支付通用,从微信配置到后台的详解,其他小程序系统均可参考

    本文是对优雅草蜻蜓C影视便捷追剧小程序微信支付配置教程-大部分小程序支付通用,从微信配置到后台的详解,其他小程序系统均可参考 微信支付配置 1,下载工具 ​ 编辑切换为居中 添加图片注释,不超过 14 ...

  5. python微信公众号爬虫_Python爬取指定微信公众号所有文章!

    篇文章使用到的技术: mitmdump + 电脑版微信 先分析打开可视化抓包工具, 勾选https代理.然后打开电脑版微信 任意点击一个公众号,再点击查看历史消息 注:想学习Python的小伙伴们 可 ...

  6. python爬取论文全文数据_Python爬取微信公众号历史文章进行数据分析

    思路: 1. 安装代理AnProxy,在手机端安装CA证书,启动代理,设置手机代理: 2. 获取目标微信公众号的__biz; 3. 进入微信公众号的历史页面: 4. 使用Monkeyrunner控制滑 ...

  7. python爬虫爬微信数据可信吗_Python爬取微信,我发现了之前没发现的秘密!

    技术群里一位读者微信私聊我,问我能不能统计下微信好友信息并以文件形式保存.其实,以前也写过类似的文章,一篇是微信好友性别统计,一篇是制作好友签名的词云图.比较分散,今天就索性把他们整合一下,一次性完成 ...

  8. python爬取虎扑评论_Python爬取NBA虎扑球员数据

    虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...

  9. python 数据分析 书籍推荐 知乎_Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书!...

    原标题:Python 爬取知乎 9674 个问答,揭秘最受欢迎的 98 本书! 作者 | Yura 责编 | 胡巍巍 高尔基这话有没有道理我不知道, 咱也不敢问, 主要是现在也问不了. 那对我来说,读 ...

  10. python知乎爬虫收藏夹_Python爬取知乎问题收藏夹 爬虫入门

    简介 知乎的网站是比较好爬的,没有复杂的反爬手段,适合初学爬虫的人作为练习 因为刚刚入门python,所以只是先把知乎上热门问题的一些主要信息保存到数据库中,待以后使用这些信息进行数据分析,爬取的网页 ...

最新文章

  1. Hibernate-----阶段总结
  2. 未来教育计算机三级课后题答案,未来教育计算机三级课后题答案
  3. 都2020 了,最流行的密码居然依旧是...
  4. Python中的负索引是什么?
  5. html修改原生checkbox选中的颜色_[三分钟小文]前端性能优化-HTML、CSS、JS部分
  6. wordpress 通过域名无法访问_VPS主机和宝塔面板搭建WordPress网站教程
  7. liunx 命令手册 (chm)
  8. android分析之Binder 01
  9. 面试微软等公司必备的书
  10. C#编程总结(十一)数字证书
  11. 拼音模糊查询+java,Java将汉语转换成拼音,用于字母的模糊查询
  12. arping命令 《openstack 网络》
  13. 单表(sqlserver不支持)、整库,支持本地和远程备份
  14. 手机模拟器安装证书抓包
  15. java 12306验证码识别_12306验证码图片库大全
  16. ARPG游戏设计制作随笔
  17. 使用viewer.js实现在线浏览Office文档
  18. MATLAB最速下降法求解函数极小值
  19. (区块链溯源)基于Hyperledger Fabric 的农产品区块链溯源方法
  20. 服务器 无线 有线,【干货】有线无线一体化移动网

热门文章

  1. 【数据分析】面经(搬运)
  2. IP地址屏蔽功能设计
  3. Python常见问题与解决方案
  4. moments音标_moment是什么意思_moment的翻译_音标_读音_用法_例句_爱词霸在线词典...
  5. 服务器ssl证书在哪查看,https证书查看
  6. butterworth matlab,Matlab实现Butterworth滤波器
  7. python滤波器处理数据的优点_使用Python对原始信号应用合适的butterworth滤波器
  8. 前后端分离的跨域问题
  9. Stanford CoreNLP依存关系分析、词性标注及句子主语分析(使用Python) 超详细截图手把手教学,新手友好
  10. Flink简介与部署