基于

Python

的新浪微博用户信息爬取与分析

邓文萍

【摘

要】

摘要:本文设计并实现了一个微博用户信息爬取与分析系统

,

利用

Cookie

实现了用户的模拟登录

,

使用

Python

语言的

Rquests

lxml

等函数库

,

爬取、处理了该微博用户数据

,

并以“央视综艺国家宝藏”为例

,

从微博发布动作

偏好、微博信息特征、微博关键词等方面展开了分析

,

获取了一些有趣的发现

,

进一步用户分析与画像打下基础。

【期刊名称】

数字技术与应用

【年

(

),

期】

2019(037)007

【总页数】

3

【关键词】

新浪微博;爬取分析;

Python

0

引言

新浪微博是目前我国最大的短消息社交平台

,

据新浪微博

2017

年全年财报称

,

2017

12

,

微博月活跃用户增至

3.92

亿。社交用户的增多

,

意味着信息的

极具爆炸

,

基于微博数据的社交用户行为分析与画像引起了人们的关注

[1]

。该技

术能够对用户进行画像

,

用于社交群体发现

[2]

、个性用户发现

[3]

等。

本文使用

Python

语言

,

通过模拟用户登录

,

实现一种针对新浪微博的爬虫

,

并对获

得的数据进行有效地分析。该文设计并实现了新浪微博爬虫程序

,

以微博用户

“央视综艺国家宝藏”为例

,

对他发布的微博内容进行了全部抓取

,

并从微博发布

行为、微博信息特征、微博关键词等方面

,

进行了数据分析

,

为用户分析与画像打

下基础。

1

爬虫系统设计

python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析相关推荐

  1. python爬虫公众号_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  2. python微信爬取教程_python爬虫_微信公众号推送信息爬取的实例

    问题描述 利用搜狗的微信搜索抓取指定公众号的最新一条推送,并保存相应的网页至本地. 注意点 搜狗微信获取的地址为临时链接,具有时效性. 公众号为动态网页(JavaScript渲染),使用request ...

  3. python3爬取微博评论教程_用python 爬取微博评论,怎么打开微博评论下的查看更多|...

    怎样用python爬新浪微博大V所有数据 先上结论,通过公开的api如爬到某大v的所有数据,需足以下两个条件: 1.在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000, ...

  4. python分布式爬虫开题报告范文_基于Python的豆瓣Top250排行榜影片数据爬取和分析开题报告...

    一.选题依据:(简述研究现状,说明该毕业设计的设计目的及意义) 研究现状 Python是一门很全面的语言,又随着大数据和人工智能的兴起,广受爬虫设计者们的青眯.设计者们运用Python语言的框架-Sc ...

  5. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  6. python爬虫数据分析项目 双十一_基于Python爬取京东双十一商品价格曲线

    一年一度的双十一就快到了,各种砍价.盖楼.挖现金的口令将在未来一个月内充斥朋友圈.微信群中.玩过多次双十一活动的小编表示一顿操作猛如虎,一看结果2毛5.浪费时间不说而且未必得到真正的优惠,双十一电商的 ...

  7. python取余还是相乘_python取余还是相乘_基于python 取余问题(%)详解

    取余的公式: 余数=除数-被除数*商 python的的余数是按照整除(向下取整)得到的商来计算的. 取余问题主要分为 : 正数与正数,负数与负数,正数与负数 ,0 正数与正数 #大数/小数:因为得出的 ...

  8. 基于python的公众号课堂教学_基于Python的微信公众号数据挖掘分析

    基于Python的微信公众号数据挖掘分析 华南农业大学电子工程学院 王 建 黄宁香 [期刊名称]电子世界 [年(卷),期]2019(000)011 [总页数]3 运用Python网络爬虫技术对某时事类 ...

  9. 用户细分_基于购买历史的用户细分

    用户细分 介绍 (Introduction) The goal of this analysis was to identify different user groups based on the ...

最新文章

  1. 2021年大数据Flink(十九):案例一 基于时间的滚动和滑动窗口
  2. Caffe官方教程翻译(10):Editing model parameters
  3. ADO内存数据对象SqlDataAdapter类使用SqlDataAdapter在数据库和DataSet之间架起桥梁:
  4. MyBatis Plus Generator——基于Velocity的Controller参考模板(集成MyBatis Plus、Swagger2、自封装Response、分页)
  5. PyCharm:ModuleNotFoundError: No module named 'selenium'
  6. [读码][js,css3]能感知鼠标方向的图片遮罩效果
  7. oracle12 共享内存不存在,DBA警世录:Oracle的共享内存段
  8. Linux下go环境安装、环境配置并执行第一个go程序
  9. python平方和psum_python求和函数sum()详解
  10. HDU 2102 拯救公主
  11. 从大公司年薪30万,跳槽到小公司月薪8千,是什么体验?
  12. Python脚本实现淘宝秒杀
  13. iphoneX适配-客户端H5页面
  14. java 翻译 go语言_【翻译】go是面向对象语言吗?
  15. 基于appinventor与EasyDL物体检测API的物体检测app
  16. 统一软件开发过程(RUP)分析
  17. 【小程序实现五星好评功能】
  18. 微信小程序子组件向父组件传值的两个方法
  19. php 关键词挖掘,如何挖掘长尾关键词
  20. linux top VIRT RES SHR SWAP DATA内存参数详解

热门文章

  1. python百度图库爬取
  2. Attribute 属性
  3. 河海大学计算机专硕考研万字经验贴
  4. final class java_Java 中常见的 final 类
  5. 山西警方侦破一绑架儿童案
  6. 【硬盘】希捷、西部数据最新20TB机械硬盘性能参数
  7. 三种查看iPhone和iPad的UDID的简单方法
  8. 唧唧down怎么下载安装-唧唧down使用操作内容讲解
  9. Mysql逻辑模块组成
  10. 15款图片批量处理软件下载