微信公众号、微信号、微信文章爬虫(搜狗搜索)

微信上面的东西真的不好爬,幸好我找到了一个神器!!!
这个能不能弄点东西出来呢?

这个链接还挺整齐的

嗯哼~~~~~~我似乎发现了什么

直接上代码啦

import requests
import re
import openpyxldef oh_my_god(search="帅哥"):url = "https://weixin.sogou.com/weixin?query="headers = {'User-Agent': ''}#这里需要自己填入了with open("alldata.txt","w+") as file:for page in range(1,20):target_url = url+search+"&page="+str(page)data = requests.get(target_url,headers=headers)file.write(data.content.decode("utf-8"))def find_all(sub,s):index_list = []index = s.find(sub)while index != -1:index_list.append(index)index = s.find(sub,index+1)if len(index_list) > 0:return index_listelse:return -1txt_data = open("alldata.txt").read()begin_place = find_all("<p class=\"tit\">",txt_data)final_data = []for i in range(len(begin_place)-1):final_data.append(txt_data[begin_place[i]:begin_place[i+1]])gzh = []#公众号wx = []#微信gnjs = []#功能介绍ewm = []#二维码链接for i in range(len(final_data)):wx.append(final_data[i][final_data[i].find("微信号:<label name=")+31:final_data[i].find("</label>")])gzh.append(''.join(re.findall(u'[\u4e00-\u9fa5]',final_data[i][:final_data[i].find("微信号")])))gnjs.append(''.join(re.findall(u'[\u4e00-\u9fa5]',final_data[i][final_data[i].find("功能介绍")+5:final_data[i].find("最近文章")])))ewm.append(final_data[i][final_data[i].find("微信扫一扫关注")+47:final_data[i].find("data-id")-2])mywb = openpyxl.Workbook()mysheet = mywb.get_sheet_by_name('Sheet')mysheet['A1'] = '公众号'mysheet['B1'] = '微信'mysheet['C1'] = '功能介绍'mysheet['D1'] = '二维码链接'for i in range(len(gzh)):mysheet['A'+str(i+2)] = gzh[i]mysheet['B'+str(i+2)] = wx[i]mysheet['C'+str(i+2)] = gnjs[i]mysheet['D'+str(i+2)] = ewm[i]mywb.save('data.xlsx')if __name__ == '__main__':s = input('输入关键字')oh_my_god(search=s)

微信公众号、微信号、微信文章爬虫(搜狗搜索)相关推荐

  1. python爬虫如何实现每天爬取微信公众号的推送文章

    python爬虫如何实现每天爬取微信公众号的推送文章 上上篇文章爬虫如何爬取微信公众号文章 上篇文章python爬虫如何爬取微信公众号文章(二) 上面的文章分别介绍了如何批量获取公众号的历史文章url ...

  2. 微信公众号上的一次爬虫

    前段时间,需要在微信上的一个公众号进行登陆.并进行公众号内的操作.这篇文章主要记录通过两种方式进行模拟登陆并操作该公众号,分别为selenium以及requests两种方式. 前期准备工作 1. 利用 ...

  3. 甲子光年微信公众号往期精华文章[2019-08-14]

    甲子光年微信公众号往期精华文章[2019-08-14] -科创板- 科创板,一瓶AI的卸妆水? 冲刺科创板,从价值创造到价值经营科创板,野心与决心 -科技产业- RPA:AI落地的接盘侠 数据中台,下 ...

  4. 微信公众号教程-注册发布文章

    用博文来说,不便理解,直接上教学视频! 视频地址:微信公众号教程-注册发布文章

  5. delphi XE关于微信公众号支付及微信零钱支付的便捷解决方案

    delphi XE关于微信公众号支付及微信零钱支付的便捷解决方案 https://download.csdn.net/download/pulledup/12683611 一.需求 因为微信公众号支付 ...

  6. 微信公众号数据2019_如何制作微信公众号图文素材 微信公众号采集器好用吗

    现在有很多人都会通过微信公众号来发布文章.图片,这时候就需要使用一些编辑技巧了.下面拓途数据就和大家一同来看看如何制作微信公众号图文素材,微信公众号采集器好用吗? 微信公众号图文素材 如何制作微信公众 ...

  7. 微信公众号数据2019_微信公众号榜单排名,2020微信公众号排名

    微信公众号榜单排名,2020微信公众号排名 公众号排名优化的注意事项及细节今天给大家分享一下,作为微信公众号的排名优化对于大多数人来说都已经知道了有这个渠道的事情,其实很多的新产品及渠道出来以后有不少 ...

  8. 微信公众号数据2019_历史微信公众号排名,微信公众号新榜排名

    历史微信公众号排名,微信公众号新榜排名 公众号排名优化的注意事项及细节今天给大家分享一下,作为微信公众号的排名优化对于大多数人来说都已经知道了有这个渠道的事情,其实很多的新产品及渠道出来以后有不少的人 ...

  9. java中微信公众号框架_java微信公众号开发框架包含哪些内容呢?为什么要使用框架...

    java微信公众号开发框架包含哪些内容呢?为什么要使用框架 微信公众号是现在人们生活中经常会用到的,微信公众号有着各种各样的信息,包含了齐全的内容以及完善的功能,这也让人们可以更加轻松的在公众号上找到 ...

最新文章

  1. ADAS摄像头图像环视拼接算法
  2. C# 尝试读取或写入受保护的内存,这通常指示其他内存已损坏。错误类型为:System.AccessViolationException。...
  3. CentOS6.5下编译R源码并安装Spark R
  4. linux lz4 lzo,Linux六大压缩算法横评:Ubuntu 19.10最终选择LZ4
  5. Python封装发送信息到钉钉群
  6. 附加数据库失败:错误:5120
  7. Python地信专题 | 基于geopandas的空间数据分析-文件IO篇
  8. 问题 1462: [蓝桥杯][基础练习VIP]Huffuman树
  9. 雅虎网站页面性能优化的34条黄金守则 收藏
  10. Openpose——windows编译(炒鸡简单)
  11. Python(2)-第一个python程序、执行python程序三种方式
  12. 公钥,私钥和数字签名这样理解轻松入门!
  13. STC51-l2C总线
  14. LINUX下三个内核文件详解(vmlinuz/initrd.img/System.map)
  15. 2017全国计算机二级office题库,2017全国计算机二级office选择题题库
  16. win7 专业版 破解教程
  17. python 运动模拟_Python中的几何布朗运动模拟
  18. Python Traceback (most recent call last)【StopIteration】
  19. 【bootstraptable】JS访问用户媒体设备摄像头,进行拍照保存
  20. 导入本体到Jena TDB数据库

热门文章

  1. hp服务器不显示错误代码,惠普服务器开启不了
  2. Arduino DRV8825驱动两相步进电机
  3. 最小二乘法多项式曲线拟合数学原理及其C++实现
  4. [软考]系统架构设计师 备考经验分享(二) - 知识点学习+综合知识篇
  5. Qt依赖平台软件打开PDF
  6. clojure实现邮箱发送
  7. linux系统写一个计划任务并执行,Linux系统计划任务
  8. 整活~使用webAI做一个网页AR吃豆人小游戏
  9. 美团点评2017校园招聘编程题--取红包
  10. Android app支付-银联支付