Python爬虫:搜狗(微信,知乎)公众号内容

搜狗微信公众号链接:https://weixin.sogou.com/weixin?query=神州十二号&type=2&page=2&ie=utf8&p=01030402&dp=1
需要登录,登录可以查看100页的内容


F12打开开发者工具,可以查看每一篇文章的跳转url:

这里比较简单,直接用xpath获取就可以了,不多说,上代码:

 import requests,refrom lxml import etreerequests.packages.urllib3.disable_warnings()# verify=False 小伙伴可以不用写,我机子用了抓包工具改了证书,所以加上这个字段避免了SSL错误。你们加上也可以,加上后会出警告,在代码最上面加上requests.packages.urllib3.disable_warnings()就可以啦response1 = requests.get(url="https://weixin.sogou.com/weixin?query=神州十二号&type=2&page=2&ie=utf8&p=01030402&dp=1",headers=headers,verify=False)response1.encoding = "utf-8"# print(response1.text)ele = etree.HTML(response1.text)href = ele.xpath('//h3/a/@href')print(href)

输出的href是长度为10列表:

['/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd9ZkRdRACIBsvWR3m8CGaK2hpmgNYDATnSci0zijFAMUzxHWSCGmy8LmrCwIcbY7JZ81YPLE3T9SY1XWcMM0Z-xwbUBfQW-Sko4pXr4oEISty62KNgX8FinBQfGIevAlqbPJa_2sCJUOaOtWKk74_ZW2GC0k7R3ZR0AyspM5D1JltOJBjQH7pCxQ..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd9c3AZohIBuieRv56nLOUpnm7QBavRX08wm1NgguMFbDCkoZo9pGHPXkl9qVrYKSf8g2uXEb8863BT2zt33p4qT5MmHddraHQB-P_cLGIkpmoTKUIT4yG94IfadQKd10RHbCWTKWuiznjhYahYpvUls_rRasC8ihpCUo2A-DLUWPSTJmCU1UgHwQ..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd95ToAckDjxv1_SOXcuyrBuK6zLBsFtXPgpxRWxf0zxeNAcuLn_J9AUVvhilXhHSJ8ip_9wYV2hoByGMY5tCQvDyA-I3fohKnFLYfw_vqoGdhyvPv4-c6BdapOhitqYdh1E1uwxYFRpLx0ZCQSaEWKqhAhLHjIjUfO_CUpFPrGAHh535pjGOOjYg..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd9UutRYWkJzwRVcqxaSrQ-G8KiHHOjnOX7tL8hEEk0bzmz6jUlZnEaH0hWZ1T-w8D0o-S-mauX2kfGUH8Or7tjSgj2tibhqKkDXXkgvzoTCWgnkG40n12ORVxZsbpmD49JnZBUiXeIzFZ7GKGjAAeLp0ubOAX1Sntjx6h0tQkLf8xAe0f8bRARvQ..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd91cAXHByGcF2kCySAnR4QNigPStA5D5mbo6wVnAT1ZpQy-7CLXJXvMPZdEF7YTDKuZSREgItNDBFe1wieC8kRokQDMpT99Bi4o209qP8hQ2GtnrSkaqOpTWztYszBGR_HVnOlH98hDHVvgDbv3xuJELIDGPd1QnJ9iR8rqiw_8Sd6VKrzu_4XKA..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd9rawxFTMyfZjY6-SxRegfcpyZETPEAXqvpY9SE2T8nWpL3NvElhuhCiqmpBoWFtnosRwSbFPe_9khQ_fr_6kesNqwPUt67yncghRwNaVEs4N8q-VRFSWZTZkNMYfWskzVW3tfnFQ56H0CyA1MasOCjfTssWyXPTPdwmOjQwSvpCfvzHZXxeLdyg..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd96B-zMEgp66EWlaAMLX9F9L7w4taujSdtzxjrmtTyCrd3ZgeAIGGANnCZbgTmvGjKM_9hCh9v0vyYyhSxW5z6rbr1UdrKWSEgAuytBZRM9dyXzz-YSKTES4XZ1TY0vzQki43IpNPIKL77BOkfl91ZDmrIvYoFr35AMl5N_xxQbvJQ_LeJW-Rhtg..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd9PZ-WxpMbY8sRDVAef4aim2r8FD0iXQlqzywMZA_q-f1IEUE5vyP_G-9FIo3uC0iWPyC3l0e3drBpdyAbW3v6Ni9voVsY5HdaZEMn8lRXx3VrmqiHPpPuplQFnEtHzLrpVH37lwa4iIL7FVTb0psWHZ53NdZAFEERDw5TCxuncXL2CsG6-xMgzQ..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd9ergUlF6_3mNbqgydXzx5m9KoITlcHnYDECaJoxXaBvQx13j55Li-ginBtWxYiPAVknlqPq8ICP-4muuB4bJeX9CDAW1gjnwgDHbWzI4m-22QvRsKTy3-c7FZvrAFcfYBZXo2dMdkE-_0LpRqw4MOS2BsoHf__1zbcDL7GQkGQ6tQ_LeJW-Rhtg..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46', '/link?url=dn9a_-gY295K0Rci_xozVXfdMkSQTLW6cwJThYulHEtVjXrGTiVgS7jybhXBZgWK-TO4QeI3eJOt0w-TiaSdK1qXa8Fplpd98a3ms5XOO3AZ8NnRcrx0q2ApW8Ngy03ma0bVG0mEeQPEsqAQCwMKxc6QPaI67hm7ogehZGkR-lsirhJ1Dxb3ZGT90CNo3h-ej-RrBsKO-dcQBO-Yc1qRVyvmwe1QSNJt_P5awcvQS93x995PaFFlPsx-pbJ6OTJjPVzNO0WGNCyrCDCayYmfpA..&type=2&query=%E7%A5%9E%E5%B7%9E%E5%8D%81%E4%BA%8C%E5%8F%B7&token=C245CF0365AEC8BBCFCB04FB0B5F9927CF6639FC61245B46']

url列表获取到了,但是不全,看看每一条内容跳转的链接是什么:

/link…前面加上域名https://weixin.sogou.com才是真实的跳转链接
这里直接字符串拼接列表里面的链接就可以了

重点来了!
点击进去后发现链接变了,说明发生了第二次跳转。

这里我走了一个弯路,以为搜狗将真实的url做了加密(因为url列表里面/link?url=后面的内容很像加密后的)☺
但是请求了这个链接过后,发现返回的内容里面是这样的:

这就好办了,直接用正则匹配所有的url,然后再拼接到一起就可以了,不多说,上代码:

 # href就是上面的url列表for h in href:url2 = "https://weixin.sogou.com" + hresponse2 = requests.get(url=url2,headers=headers,verify=False)print(response2.text)r = re.findall("url \+= '(.*?)'", response2.text)true_url = ""for i in r:true_url += iprint(true_url)

输出的true_url :

"http://mp.weixin.qq.com/s?src=11&timestamp=1629773949&ver=3271&signature=2NJAarqFMY0hKWeCNG*GDtNQPA*8t*A-WVC7PK0tZCZcigpZAttuPNsbGjQQe8FD5DORCy16jaiIBVRD8u1ZQYMdEaF7g5mJhC1mZS8Hwd8BH90okbIgTMycoqctIEyQ&new=1"

搞定,接下来就直接爬true_url里面想要的内容就好了!

注意:要传不同的cookies哦~

搜狗知乎也是一样,只不过返回的重定向内容变了,将正则表达式换成’window.location.replace("(.*?)")'获取真实的url就可以了

搜狗知乎链接

制作不易,多多鼓励~

Python爬虫:搜狗(微信,知乎)公众号内容相关推荐

  1. 搜狗微信为什么搜不到服务器,搜狗微信搜索平台公众号(订阅号及文章内容独家收录的方法)...

    "微信搜索"支持搜索微信公众号和微信文章,可以通过关键词搜索相关的微信公众号,或者是微信公众号推送的文章.不仅仅在 PC 端,搜狗的移动搜索客户端同样会进行相关的微信公众号推荐. ...

  2. 基于搜狗微信搜索获取公众号文章的阅读量及点赞量

    测试日期:2016/11/13 文章url样例(这个链接是有有效期的): http://mp.weixin.qq.com/s?src=3&timestamp=1479004927&ve ...

  3. 如何将微信公众号内容同步到头条自媒体?

    微信公众号上的内容是无法直接同步到头条自媒体上的,需要我们借助媒体管家才能够进行同步,如果我们想要将微信当中的公众号内容实的同步到头条自媒体,我们可以利用融媒宝,进行一键发布,这样我们就可以第一时间将 ...

  4. Python 爬虫之微信公众号

    Python 爬虫之微信公众号 源代码放在文末. 本次爬虫需要的工具如下: selenium 驱动器 对应浏览器的 webdriver 一个微信订阅号 在 2017 年 6 月左右,微信官方发布一篇文 ...

  5. Python爬虫,微信公众号话题标签内容采集打印PDF输出

    微信公众号内容采集,比较怪异,其参数,post参数需要话费时间去搞定,这里采集的是话题标签的内容,同时应用了pdfkit打印输出内容. 这里实现应用了两个版本,第一个是直接网页访问,其真实地址即pos ...

  6. requests利用selenium,代理Ip,云打码,验证码抠图操作 爬取搜狗微信公众号内容

    爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip.爬取第二层url时验证码出现次数更严重(和第一 ...

  7. 微信公众号内容如何获取,python教你抓包分析并保存数据

    前言 今天来教大家如何使用Fiddler抓包工具,获取公众号(PC客户端)的数据. Fiddler是位于客户端和服务器端的HTTP代理,是目前最常用的http抓包工具之一. 环境准备 python 3 ...

  8. 搜索引擎可搜到微信公众号内容?百度回应:不能

    10月22日消息,围绕今日"微信公众号内容可被谷歌等搜索引擎搜索"的报道,百度方面向21世纪经济报道记者回应称,百度尚不能检索到微信公众号内容. 今日早些时候,有媒体报道称,在谷歌 ...

  9. SAP系统和微信集成的系列教程之七:使用Redis存储微信用户和公众号的对话记录

    这是Jerry 2020年的第88篇文章,也是汪子熙公众号总共第269篇原创文章. 本系列的英文版Jerry写作于2017年,这个教程总共包含十篇文章,发表在SAP社区上. 系列目录 (1) 微信开发 ...

  10. 2020python考试题库_大学mooc2020用Python玩转数据期末考试公众号答案

    大学mooc2020用Python玩转数据期末考试公众号答案 更多相关问题 如图5-21所示,电路由对称三相电源供电.已知,R=XL=XC=44Ω,求. 根据以下资料,回答题:夏天公司2013年5月应 ...

最新文章

  1. 安装完python后怎么使用-python安装后怎么启用
  2. syslog-ng客户端,服务器配置
  3. angularjs directive指令 link在渲染完成之后执行
  4. Dev-C++配置问题
  5. IEEE Fellow 2020名单揭晓!BDTC 2019重磅嘉宾周伯文、叶杰平、陈宝权上榜
  6. 翻遍知乎1000多个高赞回答,我找到了这7本计算机圣经
  7. IP地址聚合-路由汇聚
  8. 用户DSN、系统DSN、文件DSN的区别
  9. Zookeeper + ActiveMQ 集群整合
  10. python预测身高 青少年编程电子学会python编程等级考试一级真题解析2021-12
  11. Unity制作AR图片和视频展示
  12. MacBook Pro做为Windows电脑的扩展屏【已解决】
  13. “相信美好,即将发生”——天泽智云
  14. iOS开发中UIImageView逆时针旋转,并得到旋转后的图片
  15. 盒子移动的问题,拖拽问题
  16. 代理ARP(Proxy ARP)实验
  17. java公路车组装教程_骑行入门:怎样组装一辆自行车——零部件的准备
  18. ChibiOS系列:五、将STM32 USART与ChibiOS串行驱动程序配合使用
  19. HTML+CSS+JS实现个人相册登录注册
  20. Vue的三种路由模式

热门文章

  1. excel中roundup使用指南
  2. 99.9%解决谷歌商店(Google Play)下载应用卡在等待中问题
  3. java开发微信公众号入门指引,jsp(java)开发微信公众平台入门
  4. HTML基础笔记——head标签
  5. php编程入门学习书籍
  6. 程序人生之项目团队那些人与事(1)
  7. 初识Kinect之二
  8. c# word 在当前光标位置插入内容
  9. 诺基亚、罗永浩,中国手机2014八大关键词
  10. Efficientnet网络详解及构建