网络爬虫---微信爬虫

#微信爬虫自动获取微信相关文章信息的一种爬虫。伪装浏览器，使用代理ip
import urllib.request
import urllib.error
import time
import re

def use_proxy(url,proxy_addr):
try:
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36')
proxy = urllib.request.ProxyHandler({'http':proxy_addr})
opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
urllib.request.install_opener(opener)
data = urllib.request.urlopen(req).read().decode('utf-8','ignore')
return data
except urllib.error.URLError as e:
if hasattr(e,'code'):
print(e.code)
if hasattr(e,'reason'):
print(e.reason)
time.sleep(5)
except Exception as e:
print('exception:'+str(e))
time.sleep(1)

key = "python"
proxy = "58.244.59.185:8080" #代理服务器地址

for i in range(0,10):
key = urllib.request.quote(key)
thispageurl = "https://weixin.sogou.com/weixin?query="+key+"&_sug_type_=&sut=1044&lkt=7%2C1567498024564%2C1567498025603&s_from=input&_sug_=y&type=2&sst0=1567498025704&page="+str(i)+"&ie=utf8&w=01019900&dr=1"
print(thispageurl)
thispagedata = use_proxy(thispageurl,proxy)
print(len(str(thispagedata)))

pat1 = 'data-share="(.*?)"'
rs1 = re.compile(pat1,re.S).findall(str(thispagedata))
if(len(rs1) == 0):
print("此次"+str(i)+"页没成功")
continue
for j in range(0,len(rs1)):
thisurl = rs1[j]
thisurl = thisurl.replace('amp;','')
file = "d:/25/"+str(i)+"页第"+str(j)+"篇文章.html"
thisdata = use_proxy(thisurl,proxy)
try:
fh = open(file,'wb')
fh.write(thisdata)
fh.close()
print("第"+str(i)+"页第"+str(j)+"篇文章成功")
except Exception as e:
print(e)
print("第"+str(i)+"页第"+str(j)+"篇文章失败")

网络爬虫---微信爬虫相关推荐

爬虫的基本原理：网络爬虫、爬虫基本流程、解析方式、保存数据
爬虫的基本原理:网络爬虫.爬虫基本流程.解析方式网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集 ...
python爬虫微信_搜狗微信采集 —— python爬虫系列一
前言:一觉睡醒,发现原有的搜狗微信爬虫失效了,网上查找一翻发现10月29日搜狗微信改版了,无法通过搜索公众号名字获取对应文章了,不过通过搜索主题获取对应文章还是可以的,问题不大,开搞! 目的:获取搜狗 ...
python网页爬虫漫画案例_python实现网络段子页爬虫案例
网上的Python教程大都是2.X版本的,python2.X和python3.X相比较改动比较大,好多库的用法不太一样,我安装的是python3.X,我们来看看详细的例子 0x01 春节闲着没事(是有 ...
Python 微信爬虫完整实例【单线程与多线程】
本文实例讲述了Python 实现的微信爬虫.分享给大家供大家参考,具体如下: 单线程版: import urllib.request import urllib.parse import urllib ...
爬虫微信公众号图片无法显示
爬虫微信公众号图片无法显示 html头部增加 <meta name="referrer" content="never">
网络江湖里爬虫玩的是一场“无间道”
电影<无间道>中,梁朝伟扮演在黑帮卧底的警察虽然能力出众,但也像普通人一样向往平静的生活,当与其单线联系的黄警官被杀,他在警局的档案又被在警局卧底的伪警察刘建明彻底删除后,再无法证明其真警 ...
python爬虫项目实战教学视频_('[Python爬虫]---Python爬虫进阶项目实战视频',)
爬虫]---Python 爬虫进阶项目实战 1- Python3+Pip环境配置 2- MongoDB环境配置 3- Redis环境配置 4- 4-MySQL的安装 5- 5-Python多版本共存配 ...
nodejs爬虫与python爬虫_爬虫知多少-（NodeJS 爬虫）
不久前在公司做了一个关于爬虫的分享,简单介绍了网络爬虫的基础知识.爬虫的运作方式.抓取策略.攻防方式以及如何使用 NodeJS 进行爬虫开发, 在这里分享给各位同学分享一下~ 一.爬虫简介二.爬虫的 ...
【0基础学爬虫】爬虫基础之爬虫的基本介绍
大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,本期为爬虫的基本介绍. 分享一些自己的爬虫项目,学习爬虫一些经验很不错基于python实 ...
老司机带你学爬虫——Python爬虫技术分享
什么是"爬虫"? 简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫: 爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据.但实际操作,老 ...

网络爬虫---微信爬虫

网络爬虫---微信爬虫相关推荐

最新文章

热门文章