基于搜狗微信搜索的微信公众号爬虫

项目简介

基于搜狗微信搜索的微信公众号爬虫 可以抓取指定公众号的文章信息

项目使用

一、使用说明

1、在mysql数据库中创建数据库,比如Jubang,数据格式为utf8mb4,然后导入jubang.sql文件,创建对应的数据库表

2、修改config.py文件中对应的设置,打码平台配置ruokuai这个一定要设置,否则出现验证码就不能正常工作了

3、python对应的库的安装好,pymysql、request、lxml、PIL、werkzeug等

4、手动或自动在add_mp_list表中增加数据,然后运行auto_add_mp.py文件。 比如可以这样用:给auto_add_mp.py设定一个定时任务,5分钟或10分钟,然后前台页面文件让使用者添加待抓取的 公众号信息,然后定时任务执行时就可以把这些公众号加入待抓取列表了 add_mp_list中 name字段是模糊抓取,会根据输入的名称模糊加入10个公众号 wx_hao字段是精确抓取,这个是公众号的微信号,只抓取一个 这两个字段可以任意填入一个就行

5、执行updatemp.py文件,文件说明看后面。使用中可以给该文件设定定时任务30分钟或其它间隔,每隔一定时间,运行该 文件就会抓取已添加的公众号是否有新文章发出来。 第一次使用会抓取公众号的最近10条群发数据

6、执行updatewenzhang.py文件,该文件是抓取文章阅读及点攒数的。最新的数据会写入wenzhang_info表中,并且会在表wenzhang_statistics中 添加增量记录,可以根据wenzhang_statistics表中的数据生成曲线图 使用中可以给该文件添加5分钟或其它时间的定时任务,这样就可以来生成对应的阅读曲线图了

二、文件说明

1、updatemp.py 该文件遍历待抓取列表(数据库表:mp_info),查询表中的公众号是否有新文章发布,如果有,就抓取新的文章信息并 放入数据库表wenzhang_info中

2、updatewenzhang.py 该文件遍历文章表,然后抓取24小时之内的文章阅读数据存入表wenzhang_info和表wenzhang_statistics中

3、 auto_add_mp.py 该文件将指定的公众号添加到待抓取列表中 该文件读取数据库表(add_mp_list)中的内容,然后将其中指定的公众号填入数据库表(mp_info)中

如何用python爬取公众号文章搜狗微信搜索_基于搜狗微信搜索的微信公众号爬虫 – we......相关推荐

  1. 如何用 Python 爬取网页制作电子书

    本文来自作者 孙亖 在 GitChat 上分享 「如何用 Python 爬取网页制作电子书」,「阅读原文」查看交流实录. 「文末高能」 编辑 | 哈比 0 前言 有人爬取数据分析黄金周旅游景点,有人爬 ...

  2. python爬取微信好友_如何用 Python 爬取自己的微信朋友

    原标题:如何用 Python 爬取自己的微信朋友 作者 Alfred 本文转载自网络,如涉及侵权请及时联系我们 微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天.分 ...

  3. Python爬取书包网文章实战总结

    python爬取书包网文章总结 今天闲来无事去看小说,但是发现没办法直接下载,所以呢就用python爬虫来下载一波了,哈哈- 爬取的是这篇小说:剑破九天(是不是很霸气,话不多说,开始-) 总体思路步骤 ...

  4. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  5. 国庆小长假来点不一样的,如何用Python爬取了全国近5000家旅游景点,一起来看

    2020 国庆马上就要到了 我想今年大家在家都憋坏了 今年国庆和中秋刚好又是同一天,加起来有 8 天假 这么长的假期,当然是出去 玩玩玩! 但是每次长假期间,你有没有想起被人山人海支配的恐惧呢? 那么 ...

  6. 如何用python爬取公众号文章_如何使用 Python 爬取微信公众号文章

    我比较喜欢看公众号,有时遇到一个感兴趣的公众号时,都会感觉相逢恨晚,想一口气看完所有历史文章.但是微信的阅读体验挺不好的,看历史文章得一页页的往后翻,下一次再看时还得重复操作,很是麻烦. 于是便想着能 ...

  7. 如何用python爬取视频_介绍Python爬取哔哩哔哩视频

    python视频教程栏目介绍如何爬取视频 本篇文章主要给大家讲解下如实使用python 爬取哔哩哔哩中的视频,首先我是一名大数据开发工程师,爬虫只是我的一个业余爱好,喜欢爬虫的小伙伴可以一起交流.好了 ...

  8. python 爬取上海体育彩票文章标题、时间、内容

    python期末大作业 爬取上海体育彩票文章标题.时间.内容 并计算词频.生成特殊形状的词云图 利用selenium爬取内容代码: # https://www.shsportslottery.com/ ...

  9. 如何用Python爬取网易云歌曲?秘诀在这~

    说到近年来程序界最火的事情是什么呢?您一定会想到Python的兴起.根据研究,Python已经成为排名前三的语言.也许你会困惑,Python能这么火的原因是什么呢? 首先是Python工具上手很快,它 ...

  10. 如何用python爬取数据_如何使用python爬取知乎数据并做简单分析

    原标题:如何使用python爬取知乎数据并做简单分析 一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件 开发工具:pycharm 数据 ...

最新文章

  1. 详解MariaDB数据库的存储过程
  2. 软件测试-PR在运行场景的时候报错测试机:localhost,连接失败!请检查执行器与压力机之间的网络连接,以及场景组中各个项目配置的路径
  3. 永洪Desktop关于MAC系统使用问题
  4. 博士申请 | 佐治亚理工学院陈永昕教授招收机器学习理论方向博士生
  5. 您的UX库不只是书籍
  6. 【debug】写应用程序时遇到的桌面图标、运行图标、背景图片问题
  7. go接收文件服务器,请教:html5批量文件上传,服务端go怎么接收多个文件?
  8. 人工智能与物联网安全:以子之矛,攻子之盾
  9. 导入项目时遇到的plugin with id com.android.application not found问题解决方案
  10. 2019杭州上城区公办小学学区划分
  11. java 输入一个时间,获取当前周的周一以及周五时间【自然周】
  12. 旧显卡插上去使用黑屏,需要在BIOS中修改启动模式修改为CMS
  13. 计算机网络复习题第四章(标有课本知识点)
  14. 光猫拨号和软路由拨号失败服务器无响应,光猫拨号好还是无线路由器拨号好(一文解答你的疑惑)...
  15. Unity —— 百度人脸识别SDK使用
  16. 数字经济核心科技深度报告:AI+5G是数字时代通用技术平台
  17. 如何解决 Windows 实例出现身份验证错误
  18. 蔡氏电路matlab,蔡氏电路MATLAB混沌仿真
  19. Flutter:WebView和H5通信
  20. 《富爸爸,穷爸爸》读后感——怎么实现财务自由

热门文章

  1. 在 Windows 中为高级用户配置 IPv6 的指南
  2. 易能变频器说明书故障代码_易能EN600变频器使用说明书.pdf
  3. 游戏服务器开发都要学什么
  4. D*路径搜索算法原理解析及Python实现
  5. MinGW-w64没有bin没有进度
  6. ET框架-03 ET框架-Demo工程的编译与运行
  7. 绿色版本chrome设为默认浏览器
  8. 一天干掉一只Monkey计划(三)——延迟渲染,及材质ID
  9. MySQL8安装详细步骤
  10. 人脸图像光照预处理(1)