前言:

之前收藏了一个叫微信公众号的文章爬取,里面用到的模块不错。然而

偏偏报错= =。果断自己写了一个

正文:

第一步爬取搜狗微信搜到的公众号:

http://weixin.sogou.com/weixin?type=1&query=FreeBuf&ie=utf8&s_from=input&_sug_=n&_sug_type_=1&w=01015002&oq=&ri=11&sourceid=sugg&sut=0&sst0=1529673558816&lkt=0%2C0%2C0&p=40040108

将FreeBuf改为自己要搜的公众号

查看网页源代码:

正则匹配:

第一个正则:匹配指定的URL 正则: src=.*&timestamp=.*&ver=.*&signature=.*

蓝色标出来的是我们要的,注意多请求URL可以注意到URL,signature也就是签名是随机变化的。所以可得到正则:.*== ,取第一个,然后打开此链接爬取文章链接即可(更多细节会在代码看到)

代码:

importrequestsimportreimportthreading

user=input('请输入要搜索的微信公众号或微信号:')

headers={'user-agent':'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)'}

url='http://weixin.sogou.com/weixin?type=1&s_from=input&query={}&ie=utf8&_sug_=y&_sug_type_=&w=01015002&oq=jike&ri=0&sourceid=sugg&stj=0%3B0%3B0%3B0&stj2=0&stj0=0&stj1=0&hp=36&hp1=&sut=4432&sst0=1529305369937&lkt=5%2C1529305367635%2C1529305369835'.format(user.rstrip())defzhuaqu():

r= requests.get(url=url, headers=headers)

rsw= re.findall('src=.*&timestamp=.*&ver=.*&signature=.*', str(r.text))if '验证码' instr(r.text):print('[-]发现验证码请访问URL:{}后在重新运行此脚本'.format(r.url))

exit()else:

cis= re.findall('.*?==', str(rsw[0]))

qd= "".join(cis)

qd2= "{}".format(qd)

qd3= qd2.replace(';', '&')

urls= 'https://mp.weixin.qq.com/profile?'.strip() +qd3

uewq=requests.get(url=urls,headers=headers)if '验证码' instr(uewq.text):print('[-]发现验证码请访问URL:{}后在重新运行此脚本'.format(uewq.url))

exit()else:

ldw= re.findall('src = ".*?" ;', uewq.text)

ldw2=re.findall('timestamp = ".*?" ;',uewq.text)

ldw3=re.findall('ver = ".*?" ;',uewq.text)

ldw4=re.findall('signature = ".*?"',uewq.text)

ldws="".join(ldw)

ldw2s="".join(ldw2)

ldw3s="".join(ldw3)

ldw4s="".join(ldw4)

ldwsjihe=ldws+ldw2s+ldw3s+ldw4s

fk=ldwsjihe.split()

fkchuli="".join(fk)

gs=fkchuli.replace('"','')

hew=gs.replace(';','&')

wanc="http://mp.weixin.qq.com/profile?"+hew

xiau=requests.get(url=wanc,headers=headers)

houxu=re.findall('{.*?}',xiau.content.decode('utf-8'))

title=re.findall('"title":".*?"',str(houxu))

purl=re.findall('"content_url":".*?"',str(houxu))for i inrange(0,len(title)):

jc='{}:{}'.format(title[i],'https://mp.weixin.qq.com'+purl[i]).replace('"','')

jc2=jc.replace('content_url','')

jc3=jc2.replace(';','&')print(jc3)

t=threading.Thread(target=zhuaqu,args=())

t.start()

测试结果:

BGM:

python爬取公众号推荐_python爬搜狗微信获取指定微信公众号的文章相关推荐

  1. python爬取网易云音乐_python爬取网易云音乐简单案例

    首先找到想要下载的歌曲表单,例如: 打开推荐 点击推荐的歌曲表单 接下来我们尝试爬取这个表单的全部歌曲名,及歌曲的MP3地址 我使用fiddler4抓包工具抓取相关信息 #encoding=utf8 ...

  2. python爬取大众点评数据_Python 爬取大众点评 50 页数据,最好吃的成都火锅竟是它!...

    作者 | 胡萝卜酱 责编 | 伍杏玲 成都到处都是火锅店,有名的店,稍微去晚一点,排队都要排好久,没听说的店,又怕味道不好. 那么如何选择火锅店呢?最简单的肯定是在美团.大众点评上找一找啊.所以,本文 ...

  3. python爬取b站用户_python爬取b站排行榜

    爬取b站排行榜并存到mysql中 目的 b站是我平时看得最多的一个网站,最近接到了一个爬虫的课设.首先要选择一个网站,并对其进行爬取,最后将该网站的数据存储并使其可视化. 网站的结构 目标网站:bil ...

  4. python爬取论文全文数据_Python爬取微信公众号历史文章进行数据分析

    思路: 1. 安装代理AnProxy,在手机端安装CA证书,启动代理,设置手机代理: 2. 获取目标微信公众号的__biz; 3. 进入微信公众号的历史页面: 4. 使用Monkeyrunner控制滑 ...

  5. python爬取虎扑评论_Python爬取NBA虎扑球员数据

    虎扑是一个认真而有趣的社区,每天有众多JRs在虎扑分享自己对篮球.足球.游戏电竞.运动装备.影视.汽车.数码.情感等一切人和事的见解,热闹.真实.有温度. 受害者地址 https://nba.hupu ...

  6. python爬取网页json数据_python爬取json数据库

    手把手教你使用Python抓取QQ音乐数据(第一弹) [一.项目目标] 获取 QQ 音乐指定歌手单曲排行指定页数的歌曲的歌名.专辑名.播放链接. 由浅入深,层层递进,非常适合刚入门的同学练手. [二. ...

  7. python爬取json简单吗_Python爬取Json数据的示例

    Python教程栏目介绍爬取Json数据实例 相关免费学习推荐:python教程(视频) 本文中以爬取其中的AI流转率数据为例. 该地址返回的响应内容为Json类型,其中红框标记的项即为AI流转率值: ...

  8. python爬取微博图片教程_Python爬取微博实例分析

    引言 利用Ajax分析微博并爬取其内容如微博内容,点赞数,转发数,评论数等. 分析 打开陈一发微博网站:https://m.weibo.cn/p/1005051054009064,并同时打开开发者工具 ...

  9. python爬取豆瓣电影评论_python 爬取豆瓣电影评论,并进行词云展示及出现的问题解决办法...

    def getHtml(url): """获取url页面""" headers = {'User-Agent':'Mozilla/5.0 ( ...

最新文章

  1. 最受欢迎 Top 12 Python 开源框架,你都用过吗?
  2. Centos ab测试工具
  3. 这波操作,会把你的中间件架构带到另一个Level
  4. OpenCV gapi模块OMZ文本检测的实例(附完整代码)
  5. postman cookie设置_是时候抛弃Postman了,因为REST Client更香
  6. python time模块计算时长_python time模块详解
  7. jQuery load()方法特殊用法!
  8. oracle中存储过程 =,oracle中的存储过程使用
  9. 基于NPOI的报表引擎——ExcelReport
  10. oracle文件系统挂载点,挂载和取消挂载 Oracle Solaris 文件系统
  11. 什么叫小米粒吸尘机器人_2020年,吸尘器推荐选购,家用吸尘器什么牌子好?扫地机器人推荐,吸尘器选购避坑指南!...
  12. 导入 kotlin(7)
  13. Mac电脑共享“公共文件夹”以外的文件夹的设置教程
  14. hdu-1521 排列组合 指数型母函数
  15. 2021-05-18 C#.NET面试题 一张长方形的桌面上放n个一样大小的圆形硬币。这些硬币中可能有一些不完全在桌面内,也可能有一些彼此重叠;当再多放一个硬币而它的圆心在桌面内时,新放的硬币便必定与
  16. 关于数学计算机手抄报简单的,数学手抄报简单又漂亮图片
  17. Apache RocketMQ源码学习之生产者发送消息
  18. iOS自定义身份证键盘
  19. Python绘制太阳花(初学者)
  20. 【windows】卸载360壁纸

热门文章

  1. jsp在java软件中_5.2在JSP中使用JAVABEAN
  2. mysql加锁处理分析_MySQL 加锁处理分析 ---非常牛逼
  3. pandas使用notnull函数将dataframe中所有缺失值映射为False,非缺失值映射为True(map missing vlaues into False others into True
  4. R语言将多张可视化结果图像保存到PDF中实战:多图保存到同一PDF页、将多个绘图保存到PDF格式的不同页面
  5. R包操作相关:安装、卸载、加载、移除、已经安装的包、包的路径、函数查看等
  6. 使用聚类算法进行标签传播学习(Clustering for Semi-Supervised Learning)
  7. python可视化多个机器学习模型在独立测试集(test data set)上面的AUC值、可视化模型效能
  8. Linux grep 命令
  9. R语言绘图-常用参数
  10. 如何重新创建mysql数据库_重新创建数据库与数据表《 MySQL 基础 》