温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :)

1. 项目简介

本课题设计的高校舆情分析系统基本内容包括:(1)使用爬虫技术将贴吧中的热门话题爬取出来并存储到mysql数据库中。(2)系统内容包括用数据可视化的样式将高校的热门贴吧的热点帖子展现出来。(3)筛选重点舆情信息,利用python第三方包wordcloud将重点信息以云图的的方式展现出来(4)利用lambda算法实时计算并对网页内容进行内容实时抽取,情感词分析并进行网页舆情结果存储。(5)通过离线计算,系统需要对历史数据进行回溯,结合人工标注等方式优化情感词库,对一些实时计算的结果进行矫正等。

2. 高校舆情数据抓取

利用 python 的 request + beautifulsoup 等工具包实现对某高校的贴吧进行发帖数据的抓取:

    。。。。。。# 采集某贴吧列表数据def spider_tieba_list(self, url):print(url)response = requests.get(url, headers=self.headers)try:response_txt = str(response.content, 'utf-8')except Exception as e:response_txt = str(response.content, 'gbk')# response_txt = str(response.content,'utf-8')bs64_str = re.findall('<code class="pagelet_html" id="pagelet_html_frs-list/pagelet/thread_list" style="display:none;">[.\n\S\s]*?</code>',response_txt)bs64_str = ''.join(bs64_str).replace('<code class="pagelet_html" id="pagelet_html_frs-list/pagelet/thread_list" style="display:none;"><!--', '')bs64_str = bs64_str.replace('--></code>', '')html = etree.HTML(bs64_str)# 标题列表title_list = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a[1]/@title')# 链接列表link_list = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a[1]/@href')# 发帖人creator_list = html.xpath('//div[@class="threadlist_author pull_right"]/span[@class="tb_icon_author "]/@title')# 发帖时间create_time_list = html.xpath('//div[@class="threadlist_author pull_right"]/span[@class="pull-right is_show_create_time"]/text()')for i in range(len(title_list)):item = dict()item['create_time'] = create_time_list[i]if item['create_time'] == '广告':continueitem['create_time'] = self.get_time_convert(item['create_time'])item['title'] = self.filter_emoji(title_list[i])item['link'] = 'https://tieba.xxxx.com' + link_list[i]item['creator'] = self.filter_emoji(creator_list[i]).replace('主题作者: ', '')item['content'] = self.filter_emoji(item['title'])item['school'] = self.tieba_nameself.tieba_items.append(item)# 保存帖子数据self.saver.writelines([json.dumps(item, ensure_ascii=False) + '\n' for item in self.tieba_items])self.saver.flush()self.tieba_items.clear()# 如果有下一页继续采集下一页nex_page = html.xpath('//a[@class="next pagination-item "]/@href')if len(nex_page) > 0:next_url = 'https:' + nex_page[0]# 抓取 10000 条数据if float(next_url.split('=')[-1]) < 2000:self.spider_tieba_list(next_url)。。。。。。

3. 基于大数据的高校舆情数据分析系统

3.1 系统首页与注册登录

3.2 高校最新贴吧信息展示

3.3 高校贴吧热点词分析

对学生发帖文本内容进行文本清洗,去除停用词、标点符号等不能表征舆情效果的词汇,通过词频的统计并构建话题词群:

def tiebas_words_analysis(school):cate_df = tiebas_df[tiebas_df['school'] == school]word_count = {}for key_words in cate_df['title_cut']:for word in key_words:if word in word_count:word_count[word] += 1else:word_count[word] = 1wordclout_dict = sorted(word_count.items(), key=lambda d: d[1], reverse=True)wordclout_dict = [{"name": k[0], "value": k[1]} for k in wordclout_dict if k[1] > 3]# 选取 top10 的词作为话题词群top_keywords = [w['name'] for w in wordclout_dict[:10]][::-1]top_keyword_counts = [w['value'] for w in wordclout_dict[:10]][::-1]

3.4 高校贴吧数据时间维度分析

4. 结论

本项目利用网络爬虫从某高校贴吧抓取某几个大学学生发帖的数据,包括发帖内容、发帖时间、用户名等信息,对数据完成清洗并结构化存储到数据库中,利用 flask 搭建后台系统,对外提供标准化的 restful api 接口,前端利用 bootstrap + html + css + JavaScript + echarts 实现对数据的可视化分析。系统可实现对高校舆情的监视,查看学生发帖的时间分布情况,近期关注的热点词等功能。

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。

技术交流认准下方 CSDN 官方提供的学长 Wechat / QQ 名片 :)

精彩专栏推荐订阅:

1. Python 毕设精品实战案例
2. 自然语言处理 NLP 精品实战案例
3. 计算机视觉 CV 精品实战案例

基于大数据的高校贴吧舆情数据分析系统相关推荐

  1. 毕业设计 基于大数据的高校校园学生一卡通数据分析

    文章目录 0 项目简介 任务 1数据导入与预处理 任务 1.1 探查数据质量并进行缺失值和异常值处理 1.1.2检查重复值 1.1.3数据内容总览 1.1.4数据分布总览 1.1.5消费金额和消费次数 ...

  2. 基于大数据的动漫影视可视化分析系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 本动漫分析系统开发语言为Python,并进行数据清洗,数据处理,并最后利用可视化技术进行动漫数据分析 ...

  3. 【金猿案例展】中国中车——基于大数据的车辆运维预警监控系统项目

    天津卓朗案例 本案例由天津卓朗投递并参与"数据猿年度金猿策划活动--2020大数据产业创新服务企业榜单及奖项"评选. 大数据产业创新服务媒体 --聚焦数据 · 改变商业 中车唐山机 ...

  4. 大数据综合项目--网站流量日志数据分析系统(详细步骤和代码)

    文章目录 前言: 基本概述 Sqoop概述 什么是Sqoop Flume概述 什么是Flume 为什么需要flume HIve概述 什么是Hive 系统背景: 模块开发 数据采集 使用Flume搭建日 ...

  5. [附源码]Python计算机毕业设计SSM基于大数据的高校国有固定资产管理及绩效自动评价系统(程序+LW)

    项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclis ...

  6. 基于大数据的高校英语现状分析

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 全球化时代,英语的重要性日益凸显.现如今我国高校英语教育还存在教学形式单一.没有创新.传统模式已经不 ...

  7. 基于大数据的高校生源可视化分析系统

    温馨提示:文末有 CSDN 平台官方提供的学长 Wechat / QQ 名片 :) 1. 项目简介 随着高校新生的增加,学生的数据也越来也多,怎么使用 好这些数据,对数据进行分析和挖掘成为了研究的热点 ...

  8. 计算机毕设(附源码)JAVA-SSM基于大数据的高校国有固定资产管理及绩效自动评价系统

    项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclis ...

  9. 基于大数据spark+hadoop的图书可视化分析系统

  10. 【Spark+Hadoop+Hive+MySQL+Presto+SpringBoot+Echarts】基于大数据技术的用户日志数据分析及可视化平台搭建项目

    目录 1.项目概述 1.1.项目背景 1.2.项目流程 2.功能需求描述 2.1.系统功能组成 2.2.数据描述 2.3.功能描述 2.3.1.流量概况分析 2.3.2.日新日活分析 2.3.3.交互 ...

最新文章

  1. python的函数的对象属性_Python帮助函数调试函数 用于获取对象的属性及属性值...
  2. 201712-2放学
  3. JavaScript 使用[]读取对象属性
  4. 如何找到Windows 7或8家庭组密码?
  5. java 状态模式 同步_JAVA设计模式之状态模式
  6. 杨辉三角——数组解决
  7. 借呗还款日都是一样吗?
  8. 高考进行时,AI 监考老师已就位!
  9. K8s(3):资源清单
  10. html右下角固定广告,jQuery右下角悬浮广告
  11. 【语音信号处理课程设计】基于MATLAB的隐马尔可夫和矢量量化的语音识别研究
  12. Emitter使用方法
  13. iOS开发一路走来看到,好奇,好玩,学习的知识点记录
  14. 精读:理论与实践融合 学者与干将统一
  15. 数据挖掘之对河南省的疫情分析
  16. MikTex+texworks插入数学公式示例
  17. caffe生成lmdb数据集的脚本
  18. python的日志模块:logging;django的日志系统;django日志输出时间修改
  19. SAR学习笔记后续-phased工具箱介绍
  20. 注解与APT、JavaPoet

热门文章

  1. 【路径规划】局部路径规划算法——人工势场法(含python实现)
  2. eclipse语言包安装太慢,或者卡住不动的解决方法
  3. 工业机器人第三版答案韩建海_工业机器人技术(第三版)课后答案 郭洪红主编
  4. OpenDrive格式高精度地图详细解析及其使用(1.栅格地图、OpenDrive坐标系以及参考线介绍)
  5. 翁恺c语言程序设计入门作业,程序设计入门——C语言
  6. 借助Sci-Hub免费下载外文文献
  7. VSCode打开文件中文乱码
  8. 宏基因组/微生物组杂志简介及2020最新影响因子
  9. 双线性变换(Tustin transform/bilinear transformation)
  10. PEER地震库地震波获取方法