引言

由于工作需要,给公司前端做了一个小工具,使用python语言,爬取搜狗微信的微信文章,

从热门到时尚圈,并且包括每个栏目下面的额加载更多内容选项

一共加起来500+篇文章

需求

爬取这些文章获取到每篇文章的标题和右侧的图片,将爬取到的图片以规定的命名方式输出到规定文件夹中,并将文章标题和图片名称对应输出到Excel和txt中

效果

完整代码如下

Package                   Version
------------------------- ---------
altgraph                  0.17
certifi                   2020.6.20
chardet                   3.0.4
future                    0.18.2
idna                      2.10
lxml                      4.5.2
pefile                    2019.4.18
pip                       19.0.3
pyinstaller               4.0
pyinstaller-hooks-contrib 2020.8
pywin32-ctypes            0.2.0
requests                  2.24.0
setuptools                40.8.0
urllib3                   1.25.10
XlsxWriter                1.3.3
xlwt                      1.3.0

# !/usr/bin/python

# -*- coding: UTF-8 -*-

import os

import requests

import xlsxwriter

from lxml import etree

# 请求微信文章的头部信息

headers = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',

'Accept-Encoding': 'gzip, deflate, br',

'Accept-Language': 'zh-CN,zh;q=0.9',

'Host': 'weixin.sogou.com',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'

}

# 下载图片的头部信息

headers_images = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',

'Accept-Encoding': 'gzip, deflate',

'Accept-Language': 'zh-CN,zh;q=0.9',

'Host': 'img01.sogoucdn.com',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'

}

a = 0

all = []

# 创建根目录

save_path = './微信文章'

folder = os.path.exists(save_path)

if not folder:

os.makedirs(save_path)

# 创建图片文件夹

images_path = '%s/图片' % save_path

folder = os.path.exists(images_path)

if not folder:

os.makedirs(images_path)

for i in range(1, 9):

for j in range(1, 5):

url = "https://weixin.sogou.com/pcindex/pc/pc_%d/%d.html" % (i, j)

# 请求搜狗文章的url地址

response = requests.get(url=url, headers=headers).text.encode('iso-8859-1').decode('utf-8')

# 构造了一个XPath解析对象并对HTML文本进行自动修正

html = etree.HTML(response)

# XPath使用路径表达式来选取用户名

xpath = html.xpath('/html/body/li')

for content in xpath:

# 计数

a = a + 1

# 文章标题

title = content.xpath('./div[@class="txt-box"]/h3//text()')[0]

article = {}

article['title'] = title

article['id'] = '%d.jpg' % a

all.append(article)

# 图片路径

path = 'http:' + content.xpath('./div[@class="img-box"]//img/@src')[0]

# 下载文章图片

images = requests.get(url=path, headers=headers_images).content

try:

with open('%s/%d.jpg' % (images_path, a), "wb") as f:

print('正在下载第%d篇文章图片' % a)

f.write(images)

except Exception as e:

print('下载文章图片失败%s' % e)

# 信息存储在excel中

# 创建一个workbookx

workbook = xlsxwriter.Workbook('%s/Excel格式.xlsx' % save_path)

# 创建一个worksheet

worksheet = workbook.add_worksheet()

print('正在生成Excel...')

try:

for i in range(0, len(all) + 1):

# 第一行用于写入表头

if i == 0:

worksheet.write(i, 0, 'title')

worksheet.write(i, 1, 'id')

continue

worksheet.write(i, 0, all[i - 1]['title'])

worksheet.write(i, 1, all[i - 1]['id'])

workbook.close()

except Exception as e:

print('生成Excel失败%s' % e)

print("生成Excel成功")

print('正在生成txt...')

try:

with open('%s/数组格式.txt' % save_path, "w") as f:

f.write(str(all))

except Exception as e:

print('生成txt失败%s' % e)

print('生成txt成功')

print('共爬取%d篇文章' % a)

最后将程序打包成exe文件,在windows系统下可以直接运行程序

这个代码量。你想不想学?

完整项目代码获取这里

此文转载文,著作权归作者所有,如有侵权联系小编删除

原文地址:https://blog.csdn.net/y1534414425/article/details

Python爬虫,30秒爬取500+篇微信文章!太强啦!相关推荐

  1. python爬微信群_利用Python爬虫实现30秒爬取500篇微信文章

    引言 由于工作需要,给公司前端做了一个小工具,使用python语言,爬取搜狗微信的微信文章,附搜狗微信官方网址 ​ 从热门到时尚圈,并且包括每个栏目下面的额加载更多内容选项 ​ 一共加起来500+篇文 ...

  2. Python爬虫系列之爬取某优选微信小程序全国店铺商品数据

    Python爬虫系列之爬取某优选微信小程序全国商品数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅 ...

  3. Python爬虫实战:爬取解放日报新闻文章

    上一篇<Python 网络爬虫实战:爬取人民日报新闻文章>发布之后,确实帮到了不少朋友. 前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那 ...

  4. python wechatsougou_使用Python的requests库模拟登陆微信搜狗,爬取100X10篇微信文章并保存到MySQL...

    自学的python和爬虫技术.使用到Redis,MySQL数据库:request请求模块:re,Xpath解析模块:dumps, loads序列化和反序列化.还可以配合代理池使用. 爬取的是https ...

  5. 【Python爬虫】从零开始爬取Sci-Hub上的论文(串行爬取)

    [Python爬虫]从零开始爬取Sci-Hub上的论文(串行爬取) 维护日志 项目简介 步骤与实践 STEP1 获取目标内容的列表 STEP2 利用开发者工具进行网页调研 2.1 提取文章链接和分页链 ...

  6. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  7. Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

      先来看看页面长啥样的:https://book.douban.com/top250   我们将要爬取哪些信息:书名.链接.评分.一句话评价--   1. 爬取单个信息 我们先来尝试爬取书名,利用之 ...

  8. python爬虫入门(一)爬取钓鱼吧

    python爬虫入门(一)爬取钓鱼吧 # Date : 2022/1/1 17:11 ''' 需求:1.输入贴吧名称:钓鱼吧https://tieba.baidu.com/f?kw=钓鱼吧&p ...

  9. Python爬虫系列之爬取微信公众号新闻数据

    Python爬虫系列之爬取微信公众号新闻数据 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发 > 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流 ...

最新文章

  1. Apache Ranger初识
  2. 什么是长连接和短连接?(长链接、短链接)什么时候使用长连接、短链接?
  3. 前端学习(3272):js中this的使用
  4. Choose unique values for the 'webAppRootKey' context-param in your web.xml files! 错误的解决
  5. bp神经网络数字识别matlab_卷积神经网络学习识别手写数字时的可视化
  6. 回顾2018,展望2019
  7. 【NLP】语义角色标注(Semantic Role Labelling)
  8. 飞机模拟flightgear
  9. 查询中接受的主体参数
  10. java lua脚本_在Java中使用Lua脚本语言
  11. 目前最全的汉语拼音表 (另附韦氏拼音表, 非常规拼音表)
  12. 前端根据后端数据生成表格 行列合并 指定表头
  13. Windows商店安装问题已解决 Xbox应用将改善游戏安装
  14. 微软Office Powerpoint双击打不开后的修复办法
  15. C1——primitives添加gltf并实现旋转、缩放、平移
  16. firebox插件制作
  17. Power Query (Power BI)傻瓜式合并资产负债表,史上最好用
  18. 飞机经济舱哪个位置好
  19. 在windows上用vscode打造比vc++6.0好用的C/C++ IDE,适用编程小白
  20. 冰雪融化时,你能看到什么?

热门文章

  1. 信号与系统sa函数求积分_信号与系统_第三章_学习心得
  2. Yii Framework 开发教程(35) Zii组件-Button示例
  3. ASP.NET Razor 简介
  4. JS验证身份证号码合法性
  5. 破解软件的原理是什么(软件被破解公开)
  6. python批量关键字百度搜索结果url解码
  7. B. Dubious Cyrpto
  8. Node.js git命令
  9. 学java的就业方向_JAVA的就业方向是什么?
  10. 查看PostgreSQL数据库Extension