这里做了一个微信文章的爬取案例。

搜狗提供了微信公众号的链接,尽管里面只有10条最新文章数据,但是还是值得一抓的。

因为想要实现抓取不同的微信公众号的文章,所以采用了selenium来模拟浏览器操作,我们可以先通过搜索来获得一个类型的公众号的所有微信号。


我这里为了方便,手动复制了几个微信号来做测试。

下面开始操作教程:
先用selenium访问这个界面,然后输入 微信id ,点击搜索公众号

搜索后,即出现对应的公众号。

接着这里要直接使用click操作来点击进去,因为去获取url来进行请求是很麻烦的。

搜狗对这个url进行了js伪装,你请求的话是:

他很嚣张的把ip显示了出来,就是告诉你,再多试几次就封你。封的不还仅是ip,甚至会封了cookie。
而且过不了几天js就更换一次,所以没必要去强求。

我们这里就直接使用selenium来点击进去。

    driver.get('https://weixin.sogou.com/')driver.find_element_by_xpath('//*[@id="query"]').click()driver.find_element_by_xpath('//*[@id="query"]').send_keys( 'pythonlx' )driver.find_element_by_xpath('//*[@id="searchForm"]/div/input[4]').click()main_handle = driver.current_window_handledriver.find_element_by_xpath('//*[@id="sogou_vr_11002301_box_0"]/div/div[2]/p[1]/a').click()

因为这里会打开一个新的窗口,所以要进行窗口句柄切换。

    new_handle = driver.current_window_handleHandles = driver.window_handlesfor handle in Handles:if handle != main_handle:driver.switch_to_window(handle)href_list = []for i in range(1,11):time.sleep(0.2)href_ = driver.find_element_by_xpath('//*[@id="history"]/div[{}]/div[2]/div/div/h4'.format(i)).get_attribute('hrefs')href = "https://mp.weixin.qq.com"+href_href_list.append(href)

这里为了方便下一次使用窗口,节省浏览器内存占用,关闭当前窗口,然后切换到之前的窗口。

    driver.close()driver.switch_to_window(new_handle)return href_list


这里就可以直接把列表页的url拿出来了。拿出来之后,我们就可以使用普通的requests来进行请求了。

def parse1(href):dict={}a=requests.get(href,verify=False)s= (a.content.decode('utf-8'))doc = etree.HTML(s)title = doc.xpath('//*[@id="activity-name"]/text()')[0].replace('\n','').replace(' ','')author = doc.xpath('//*[@id="js_author_name"]/text()')p = doc.xpath('//*[@id="js_content"]/p')text = []for i in range(1,len(p)+1):p = doc.xpath('//*[@id="js_content"]/p[{}]//text()'.format(i))if p ==[]:continuetext.append(p[0])dict['标题'] = titledict['作者'] = authordict['内容'] = textjson.dump(dict, f , ensure_ascii=False)f.write('\n')

其实到这里就差不多了,后面的完整代码会把那几个微信号放一起。

但是因为有的数据字段是不全的,比如没有声明作者。我们还需要详细的去处理,我这里是一个案例,所以细节并没有过多处理,大家有兴趣可以自行更改。

完整代码:

import requests
import time
from selenium import webdriver
from lxml import etree
import jsondef web_driver(name):driver.get('https://weixin.sogou.com/')driver.find_element_by_xpath('//*[@id="query"]').click()time.sleep(1)driver.find_element_by_xpath('//*[@id="query"]').send_keys(name)driver.find_element_by_xpath('//*[@id="searchForm"]/div/input[4]').click()time.sleep(1)main_handle = driver.current_window_handledriver.find_element_by_xpath('//*[@id="sogou_vr_11002301_box_0"]/div/div[2]/p[1]/a').click()time.sleep(1)new_handle = driver.current_window_handleHandles = driver.window_handlesfor handle in Handles:if handle != main_handle:driver.switch_to_window(handle)href_list = []for i in range(1,11):time.sleep(0.2)href_ = driver.find_element_by_xpath('//*[@id="history"]/div[{}]/div[2]/div/div/h4'.format(i)).get_attribute('hrefs')href = "https://mp.weixin.qq.com"+href_href_list.append(href)driver.close()driver.switch_to_window(new_handle)return href_listdef parse1(href):dict={}a=requests.get(href,verify=False)s= (a.content.decode('utf-8'))doc = etree.HTML(s)try:title = doc.xpath('//*[@id="activity-name"]/text()')[0].replace('\n','').replace(' ','')print(title)dict['标题'] = titleauthor = doc.xpath('//*[@id="js_author_name"]/text()')p = doc.xpath('//*[@id="js_content"]/p')text = []for i in range(1,len(p)+1):p = doc.xpath('//*[@id="js_content"]/p[{}]//text()'.format(i))if p ==[]:continuetext.append(p[0])if not author:dict['作者'] = "未声明作者"else:dict['作者'] = authorif text ==[]:print("空内容,有误,请查看")else:dict['内容'] = textjson.dump(dict, f , ensure_ascii=False)f.write('\n')except Exception as e:print(e)if __name__ == '__main__':f = open("test.json", "a+")driver = webdriver.Chrome()name_list = ['pythonlx','python6359 ','pythonbuluo ','PythonCoder','PythonPush','Python_xiaowu','cainiao_xueyuan']for name in name_list:href_list = web_driver(name)for href in href_list:parse1(href)f.close()driver.quit()

一个简单的搜狗微信公众号案例相关推荐

  1. 九 web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号—抓包软件安装Fiddler4讲解...

    封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import j ...

  2. 如何用python爬取公众号文章搜狗微信搜索_python抓取搜狗微信公众号文章

    初学python,抓取搜狗微信公众号文章存入mysql mysql表: 代码: import requests import json import re import pymysql # 创建连接 ...

  3. 如何用python爬取公众号文章搜狗微信搜索_python如何爬取搜狗微信公众号文章永久链接的思路解析...

    这篇文章主要介绍了python如何爬取搜狗微信公众号文章永久链接的思路解析 ,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧. 本文主要讲解思路,代码部分请自行解决搜狗微信 ...

  4. 魔众微信管理系统 v1.0.0 更简单可用的微信公众号管理系统

    微信公众号管理系统 魔众微信管理系统发布v1.0.0版本,新功能和Bug修复累计0项,更简单可用的微信公众号管理系统. 2021年12月07日魔众微信管理系统发布v1.0.0版本,增加了以下0个特性: ...

  5. python抓取微信_python抓取搜狗微信公众号文章

    初学python,抓取搜狗微信公众号文章存入mysql mysql表: 代码: import requests import json import re import pymysql # 创建连接 ...

  6. python抓取搜狗微信公众号文章

    初学python,抓取搜狗微信公众号文章存入mysql mysql表: 代码: import requests import json import re import pymysql# 创建连接 c ...

  7. php模拟微信公众号服务器,GitHub - Lin07ux/wechat-third-server: 使用 ThinkPHP、Vue 搭建一个带有后台的微信公众号第三方服务器的基础模板...

    微信公众号第三方服务器 该项目用于实现一个最基本的微信公众号第三方服务器开发的模板. 基于: ThinkPHP v3.2.3 Vue v2.2.0 Vue-resource v1.0.3 功能 微信用 ...

  8. requests利用selenium,代理Ip,云打码,验证码抠图操作 爬取搜狗微信公众号内容

    爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip.爬取第二层url时验证码出现次数更严重(和第一 ...

  9. python wechatsougou_python抓取搜狗微信公众号文章

    初学python,抓取搜狗微信公众号文章存入mysql mysql表: 代码: import requests import json import re import pymysql # 创建连接 ...

  10. 微信公众号服务器页面模板,GitHub - devsnippet/wechat-third-server: 使用 ThinkPHP、Vue 搭建一个带有后台的微信公众号第三方服务器的基础模板...

    微信公众号第三方服务器 该项目用于实现一个最基本的微信公众号第三方服务器开发的模板. 基于: ThinkPHP v3.2.3 Vue v2.2.0 Vue-resource v1.0.3 功能 微信用 ...

最新文章

  1. python哨兵循环_Python通用循环的构造方法实例分析
  2. 上海python好找工作吗_上海找个月薪一万的工作难吗
  3. iphone以旧换新活动_【武商襄阳购物中心】 参与iphone以旧换新活动,最高可抵4300元,旧机可享10%额外补贴...
  4. kubectl技巧之查看资源列表,资源版本和资源schema配置
  5. 递归与分治——二分查找算法(折半查找算法)
  6. 14.cookie与自动登陆
  7. Java异常面试问题
  8. PS Raw增效工具 - Adobe Camera Raw14 for mac
  9. Https java信任_java访问非经过信任证书https的方法
  10. linux 脚本 java_linux系统下运行java项目的脚本编写
  11. 爬虫入门之绘图matplotlib与词云(七)
  12. cookie分号后面没有值_Cookie的属性(cookie的设置、获取和删除)
  13. openresty入门 方法及指令
  14. [转]Banner设计“点横竖撇捺”
  15. Git提交代码的处理流程(转)
  16. 键盘视频鼠标(KVM)切换器基础知识
  17. Unity3D之创建3D游戏场景
  18. 写代码的时候图片显示不出来怎么办?
  19. JS中点语法和中括号语法区别
  20. 前端生成二维码图片以及条形码图片

热门文章

  1. [线段树]打字练习记录
  2. c# RoundUp函数
  3. dismiss和remove_关于dismiss的用法,dismiss和fire的区别?
  4. C++链接报错:which may bind externally can not be used when making a shared object; recompile with -fPIC
  5. ES插件es-head下载和安装
  6. 法语学习笔记——语音
  7. 流量分析和强制执行ntopng
  8. [建筑设计].TLF-SOFT-SOFTPLAN.V13.33.bin Flaresim
  9. Vuex入门及进阶笔记
  10. 太白---落燕纷飞第一重 Android单元测试Instrumentation和irobotium