基于Python的微信公众号数据挖掘分析

华南农业大学电子工程学院 王 建 黄宁香

【期刊名称】电子世界

【年(卷),期】2019(000)011

【总页数】3

运用Python网络爬虫技术对某时事类微信公众号进行数据爬取,利用Excel和数据库MongoDB对

数据进行清洗、汇总和结构化,然后进行数据可视化处理和回归分析,挖掘出微信公众号出现高频

词条、用户浏览公众号时间及习惯等特征,并总结用户对于微信推文的兴趣点和关注度。

1 引言

微信公众号已成为人们获取信息重要平台渠道,时事类公众号以其数据流量庞大、关注群体众多、

实时性较强的优势特点给大数据挖掘带来较高的分析价值(宋维翔,贾佳,微信公众号信息质量与

用户互动行为关系研究:现代情报,2019)。目前数据分析领域的主流语言有Python、R语言

,Python是一种功能强大、面向对象的解释型计算机程序设计语言,以其效率高,代码整洁的特点

,加之其自身的标准库和丰富的第三方工具包,从而成为实现网络爬虫和数据挖掘的主要技术手段

(崔庆才,Python 3网络爬虫开发实战:人民邮电出版社,2018)。微信公众号数据挖掘一般需

要根据数据集特征采取合适的方法和工具进行挖掘,本文主要采用网络爬虫方案,开发语言采用

Python3.7,开发平台采用PyChram,数据存储采用MongoDB。

2 数据挖掘实施

2.1 网络爬虫

爬虫是指通过程序模拟浏览器访问服务器并获取服务器返回数据这样一个过程,网络爬虫通过网页

的链接地址来查找网络内容,并直接返回用户需要的数据,不需要人工操作浏览器来获取。本次爬

虫的网页解析主要有初始解析和二次解析。初始解析主要是解析初始网页列表源码,获取初始网页

中的全部推文URL;二次解析则是解析通过访问上一步的URL而得到的网页源码,提取出每条推送

的具体内容。网页解析主要利用Python的PyQuery解析库进行解析,对第三方网站

vreadtech.com整合的微信公众号文章进行爬取,对该网站的爬取流程与搜狗微信相似,通过微信

登录该网站,获取爬取权限,通过公众号名称搜索得到文章列表网页,解析网页统一资源定位符

(Uniform Resourse Locator,URL)规律,实现自动翻页,同时解析列表源码,提取文章超链接

2.2 数据存储

网络爬虫采集的数据量一般比较庞大,选择合适的数据库存储尤其重要,本课题的微信数据存储主

基于python的公众号课堂教学_基于Python的微信公众号数据挖掘分析相关推荐

  1. python提取图片文字视频教学_用Python提取视频中的图片

    小编自己码的通用型函数,支持各种常用视频格式,可满足常用需求,亲测效果和速度都不错. 想获取本文数据和完整代码的下载链接,请关注微信公众号"R语言和Python学堂",并回复发文日 ...

  2. python开发微信订阅号如何申请_基于Python的微信公众平台二次开发(Python常用框架、订阅号开发、公众号开发)...

    1.1.课程的背景 微信公众平台的火热程度已经不用多言,无论是个人还是企业,政府还是商家,都已经开始搭建微信公众平台,微信的作用已经被各界人士认可.微信公众平台的技术需求市场缺口巨大.同时python ...

  3. python flask 微信_使用Flask创建微信公众号

    基于Python3的Flask微信公众号后台这次先用Flask为微信公众号做个后台.微信公众号后台一般对性能各方面要求并不高,这里我们以新浪SAE为例,其他已解析域名的服务器同理.整个过程比较简单,算 ...

  4. Node.js七天搞定微信公众号(又名:Koa2实现电影微信公众号前后端开发)- 问题汇总

    未完待续 视频资料在上一篇博客<Node.js七天搞定微信公众号(又名:Koa2实现电影微信公众号前后端开发)> 问题1:该公众号提供的服务出现故障,请稍后重试! 出处:<第4章 实 ...

  5. Php公众号自定义菜单设置,教你设置微信公众号自定义菜单!,来看看吧

    很多微信公众号都添加了自定义菜单,订阅用户点击菜单可以跳转到历史文章,或者会即刻发送一条信息等等.那么这是怎么做到的呢?别着急,下面就告诉你详细的设置方法. 工具/材料 小蚂蚁Page页面模板 微信公 ...

  6. 第一篇:微信公众平台开发实战Java版之了解微信公众平台基础知识以及资料准备...

    相信很多人或多或少听说了微信公众平台的火热.但是开发还是有一点门槛,鉴于挺多朋友问我怎么开发,问多了,自己平时也进行以下总结. 所以下面给大家分享一下我的经验: 第一部分   介绍微信公众号的一些简单 ...

  7. 转载收藏之用 - 微信公众平台开发教程(三):微信公众平台开发验证

    要对接微信公众平台的"开发模式",即对接到自己的网站程序,必须在注册成功之后(见Senparc.Weixin.MP SDK 微信公众平台开发教程(一):微信公众平台注册),等待官方 ...

  8. 基于python的微信公众号开发教程_基于python的微信公众号开发教程

    应广大python学员的期盼,九宝老师精心制作的"基于python的微信公众号开发"视频教程即将上线. 该课程秉承九宝培训一贯的"简单.高效.快速"的讲课原则, ...

  9. python简答题及答案查询公众号和软件_用Python分析了微信公众号

    本文是一篇基于 Python 的数据分析实践教程,数据来源于"Python之禅"公众号的历史文章,完整源代码和数据可以在公众号"Python之禅"回复「wxda ...

最新文章

  1. phpmyadmin执行mysql语句_如何在phpMyAdmin中执行sql语句
  2. 「SAP技术」SAP MM 事务代码ME17的用法
  3. 产业为主谋定共享运行-农业大健康·万祥军:特色化小镇时代
  4. 啊啊啊...每次需求评审总被boss虐成狗?解药来了
  5. 如何给5岁孩子解释DCT?
  6. Ubuntu linux上Nautilus安装RabbitVCS扩展
  7. 基于边缘计算的森林火警监测系统
  8. assets和res/raw的用法
  9. html出现滚动条页面闪动,CSS3 calc实现滚动条出现页面不跳动闪动
  10. oracle数据库常用操作语句大全,Oracle 数据库常用操作语句大全
  11. vite.config 配置文件
  12. Intel SGX远程认证【SGX手册截图】
  13. PHP入门《PHP程序设计案例教程》-- PHP语法基础
  14. 小程序之100推荐:901~1000
  15. 苹果邮箱怎么登录qq邮箱_电子邮箱 电子邮箱格式怎么写
  16. 北京协和医学院823计算机原理,2017年北京协和医学院病原生物学研究所823计算机原理考研仿真模拟题...
  17. 【独行秀才】macOS Monterey 12.2.1正式版(21D62)原版镜像
  18. HTML中插入地图的方法
  19. 阿里云ECS共享型n4服务器1核2G配置性能评测
  20. 红帽linux7连不上网,redhat7最小化安装后网络的配置

热门文章

  1. Zabbix3.2下Template App Zabbix Server+Template OS Linux Item学习记录
  2. net微服务框架/c#/netcore微服务框架,一个轻量级的.Net 5.0微服务开发框架,同时也适用于单体架构系统的开发
  3. Mac 常用的免费解压工具(zip,rar,7z)
  4. android开发之onCreate( )方法详解
  5. airpods替代耳机,比airpods好的耳机!
  6. 配置linux服务器XShell命令大全
  7. MySQL - MySQL 常用存储引擎简介
  8. 【UML】 类图 图例
  9. SQL Server查询结果导出到EXCEL表格
  10. 火山PC画板使用详解