1.背景介绍

1.1大数据背景
现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是成为赢得竞争的关键。 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。

1.2技术
1.2.1 Python语言
Python语言是一种开源的面向对象的脚本语言,网络上有关于python语言的历史,这里不再论述,为什么选择python语言?因为python简单易学,它是一门解释性编程语言,在你写完毕后可直接执行,不需要编译,发现bug后立即修改;代码的重用性也非常高,可以把包含到某个功能的程序当作模块代入到其他程序中使用,因而python的模块类库大到恐怖,几所无所不包;它的跨平台性,几乎所有的python语言都可以不加修改的运行在不同的操作系统平台,得到同样的结果!所以选中有这么多优点的python!

1.2.2爬虫技术
网络爬虫,又被称为网页蜘蛛,网络机器人,是一中按照一定的规则,自动的抓取互联网信息的程序或者脚本。很多站点,尤其是搜索引擎都在使用网络爬虫提供最新的数据。它用于提供所访问过网页的一个副本,然后,搜索引擎就可以对得到的页面进行索引,达到快速访问的目的。爬虫也可以在Web上用来自动给执行一些任务,例如检查链接,确认HTML代码;也可以用来抓取网页上的某种特定类型信息,例如抓取电子邮箱地址(通常用于垃圾邮件)。网络爬虫技术广泛应用于互联网企业!

1.2.3数据分析
我们通过python语言编写网络爬虫爬取网页的数据,最终通过数据分析挖掘到深层信息,目前有很多在线版做数据分析的工具,但强大的Excel是所有数据分析的基础与数据来源,由于Excel设计到复杂的函数,很多时候可以结合使用!数据分析的目的不光是为了我们能够得到深层数据信息,也是我们对未来预测的一个强大科学的依据!
1.3大数据下社会的宏利
1.3.1机器代替人工
人类有时候需要完成重复性劳动,比如统计某项信息,需要从数据源不停的判断数据,然后不停的复制粘贴到本地,得到大量信息,这样的单纯性重复劳动,完全可以由机器取代,我们可以设定一个程序,来帮我们完成这件事情,机器不怕重复性劳动,这属于机器最爱干的事!身处信息化时代,机器代替人工,这是这个时代赋予我们每个人的宏利!

1.3.2从数据中发掘有用信息
这些信息被广泛应用于商业开发和科研领域,少量的用于个人需求!几乎大数据的结论用于我们生活的方面!


2.本次实验

2.1准备阶段:
2.1.1申请项目:
确定研究方向,研究目的,主要安排:1、在前期基础上阅读大量的文献,并确定网络舆情分析的具体内容。 2、根据确定的研究内容,用爬虫软件爬取相关网络评论等信息,并进行数据信息采集和预处理。3、对预处理后的爬取信息进行统计分析和挖掘预测,监测网络舆情的现状和发展趋势。4、对网络舆情的结果进行展示,以可视化的方式展示研究结果。5.实施计划:按照时间计划进行。6.技术路线:技术难点在于如何从论坛中爬数据,如何对数据进行分析。用先有软件将数据分离,通过软件进行数据分析。7.人员分工:负责人负责项目的整体进程,并合理分配项目内容,成员协作负责人进行项目内容。每个人负责自己的部分,以互联网为主要工具,通过自主学习,小组合作进行。

2.1.2导师指导:
预先难点问题的引导点播,在项目中遇到的问题,导师根据自己的经验点到。实施过程中加以完善,遇到难以解决的问题,导师带领学生一起想办法完善,解决问题!

2.2实施阶段:
2.2.1八爪鱼采集器采集贴吧内容
由于数据量较为庞大,本次采集近一个月的贴吧内容进行分析,包括贴吧标题,网址,楼层,发帖人,本吧等级,内容,来源,时间等。

2.2.2python做数据除重处理

2.2.3数据可视化统计
本次数据可视化统计在数据除重后使用语义分析系统和BDP在线数据分析

①由贴吧标题分析得到实体关系图

从【实体关系图】中,由于分析内容由文本出发,涉及3大部分,主要是地名,时间,事情内容,从中我们可以推测出贴吧上的问题,学生主要关注的问题类型重要是什么时间在什么地方发生了什么事情,贴吧上的内容还是很贴近学生的大学生活,是同学们交流问题的很好的平台,通过这种途径关心身边发生的时事!

②由贴吧标题分析得到词频统计图



从【词频统计图】分析来看,大家在贴吧上关注的方向主要是学业,毕业发展以及日常生活健康等问题。在学业上较多的关心学校发展、对本地生活的问题和未来考研问题;对毕业上关注的方向主要集中集中在毕业的一些问题和不懂问题的提问获解答上;日常生活上的词频分布较为均衡,没有很突出的方向,说明大家精神情感上的发展较为均衡!

③由贴吧标题分析得到文本分类图

从【文本分类图】上,验证了我们贴吧的创立主题,主要的文本内容都是关于教育的内容,为广大学生提供了教育方面的一个很好的交流平台!

④由贴吧标题分析得到情感分析图

从【情感分析图】来看,分析统计的结果也是很不错的,各种情感都有不同程度的体现,不过好的方面为多,正能量多于负能量,分析统计结果也很好的印证了之前很多专家对大学生的情感分析!通过情感分析图,我们能够大致了解到本校学生中和各个方面的情感状态,及时加以引导和预防!

⑤由贴吧标题分析得到特定人物分析图

从【特定人物分析图】结果,我意外的发现了一个人的的出现频度很高。我们预先并没有设置通过人名分析任务,这个特定人物分析师通过文本内容分析得到词频最高的人,在对关于这个人文本内容进行语义分析得到的结果,贴吧内容出现的米新江是本校计算机基础部的一名教授,从人物分析数据图中可以看到大家对米新江教授的评论不一,但从正负面得分分析看出,关于米新江教授大家更多是好评,其实我们经常因为某人某句话对别人有好或不好的印象,但是这样小数据量不足以说明问题,我们通过特定人物分析得到了一个较为科学的结果,大数据的分析,结果更有可靠性,这也是数据分析带来的一大好处!

⑥由贴吧标题分析得到word2vec分析图

从【word2vec分析图】的结果,从不同的角度的看,结论不同,如果这个结果从老师的角度,可以验证大家的大学生活的主题,关于实验,考试,专业课,风采录,同学们的生活统计分析结果落在了预计的教学范围内,说明教学的成果不错的,起到了积极影响学生的作用,但对于广大社会人士,分析结果也可以收廊坊师范学院的一张响亮的名片,从中看出校园厚重的历史文化,校风求真务实,学生的状态:奋发学习 刻苦认真 精益求精 争创一流 一丝不苟 脚踏实地 力戒浮夸。

⑦由贴吧标题分析得到的敏感词分类图

从【敏感词分类图】分析结果,
Sensitive
SQ:61(67.03%)
Sensitive
JYY:30(32.97%)
在分析处理结果中,会用缩写的形式来代表其中的敏感词,敏感词是之前就软件设定好的,通过对比分析,得出本内内容中的敏感词,但是本软件有个bug,它不告诉你这些缩写的意思,目前猜测,这些敏感的词来源可能是发帖回帖时大家情绪过于激动,带有了一些不文明词语,因而被检测出来,如SQ可能是傻缺的意思!敏感词的分析有待完善!
⑧由贴吧标题分析得到词云图
从【词云图】的分析结果来看,我们能够明显直观的看到大家最近的关注问题有哪些。从分析结果来看,主要以学业为主,专业课,专接本,考研的方向居多。生活上大家也比较奔放,游戏,创业,恋爱,招聘都有涉及!

⑧由贴吧标题分析得到设备分类图


设备分类图是根据 分析得到的结果!
从【设备分类图】中我们可以看到贴啊内容的设备来源分布,从设备分布图上,我们分为6类,有一类中没有检测到设备,猜测可能是用PC机留下的记录,从结果上也反应出移动客户端的使用分布,近7成的人使用移动客户端来发帖回帖,从侧面反应了移动设备的使用越来越方面,所以在贴吧的设计上我们可以在移动界面的设计上多下功夫,提高用户的体验!

⑨由贴吧回帖内容分析得到的词云图以及分析内容相关性分析


从贴吧内容的分析统计结果【词云图内容相关性分析】【内容相关性分析】中我们可以直观看到大家感兴趣的话题,以及这些话题的相关性!

2.2.4得出科学的数据结果
本次的报告是我们对之前采取措施的一些验证,也是我们对未来发展规划的一个依据,验证了我们教学的成果,对我们学校和社会未来的规划发展提供了宝贵的一手资料!2.3结束阶段:
结束报告的撰写和修改
2.4实验收获:
2.4.1能力
其实学生的自我控制能力和自主学习能力都是具备的,只是现有的教育模式并没有使其得到发挥,学生本人也根本不知道应该怎么利用。本次项目的实践充分锻炼了自学能力!明白了培养团队精神的重要性,其重要性在于:1、利于塑造良好的个性人格。2、利于人的综合素质的提高。一个团队不是一个人的团队,而是大家的团队,积累经验关于团结队友这方面,明白了,团队精神强调的不仅仅是一般意义上的合作与齐心协力,而是团结协作,优势互补,利用个性和能力差异,发挥积极协同的效应。
2.4.2大数据的相关知识
在项目的实践过程中了解了很多关于科技前沿的知识,这些是在课堂上学习不到,比如数据采集的过程,数据模型,数据处理,数据集成,机器学习,神经网络的相关知识!
2.4.3Python语言的使用
相比与之前的语言,这次的python真的是零基础开始学,利用之前其他语言的经验,学习python,类比分析!
2.4.4爬虫的实战
爬虫是本次研究的重点,也是python研究的一次主要方面,这次连接了很多爬虫的类型,和爬虫的组成,代码的相关知识!
2.4.5数据分析的统计
数据分析是本次项目的关键,所有的数据最终都落在了数据分析的部分,得出可视化的结论以供使用!数据分析在大数据领域的地位至关重要!从项目的实践过程中,了解到目前的数据分析领域的成熟度,这项技术已经发展的很不错,但相对非专业人士上手来说还是比较困难的!可以在这个方面做一些改进!
1. 经验
关于软件的快速安装与使用,本次使用的软件主要是python3.3 和Anaconda!数据分析软件Excel\语义分析系统和BDP在线数据分析
项目实践问题的解决提高了自己的动手能力和自己解决独自解决问题的能力!

3.研究结论

3.1本次内容的科学分析
从本次实践研究来看,从使用群体,到人物言论分析,我们从这一个方面分析了廊坊师范学院大学生的学习生活,日常关注问题!从学生身上侧面反映出学校崇尚学术,重视科研。以服务人才培养,服务现代化建设,培育学科增长点为目标,大力加强科研工作,学术氛围浓厚。
3.2不足有待完善部分
在发帖和回帖的人物关系之间,我们可以继续做出分析,分析人物关系,但由于数据量太大,目前这一部分正在研究中,使用ucinet软件做出人物社会网络分析图,进而得到更加精准的信息!

廊坊师范学院吧网络舆情分析报告相关推荐

  1. 舆情监测技术方案,网络舆情分析技术手段有哪些?

    网络舆情分析技术手段着力于利用技术实现对海量的网络舆情信息进行深度挖掘与分析,以快速汇总成舆情信息,从而代替人工阅读和分析网络舆情信息的繁复工作,接下来TOOM舆情监测小编带您简单了解舆情监测技术方案 ...

  2. 如何写网络舆情数据分析报告的技巧及注意事项详解

    舆情分析其实就是对舆情信息搜集.整理.汇总.筛选.深层次加工分析的一个过程,而这个过程得出的最后结果往往是以舆情分析报告的形式呈现出来的.所以说,与其说舆情分析怎么写,倒不如说一份好的舆情分析报告是怎 ...

  3. 网络舆情分析技术 读书笔记1

    针对网络舆情的研究主要集中在以下几个方面: 网络舆情的基础理论研究,主要包括网络舆情的概念解析.网络舆情的主体特征.网络舆情的表现特征等: 网络舆情的传播规律以及外部性研究,主要针对网络舆情的演化过程 ...

  4. 网络舆情分析工作怎么做的平台解决办法

    网络舆情的趋势变化速度非常快,要做好网络舆情分析不是件易事.那么网络舆情分析怎么做呢? 一.网络舆情分析怎么做? 前面有提到网络热点的传播动态变化速度快,所以为了确保能够做到热点信息实时分析,建议各位 ...

  5. 网络舆情分析软件工具汇总及功能作用详解

    由于互联网上舆情信息数据量庞大,所以不少政企部门都会采用舆情分析工具进行分析.那么,到底舆情分析工具有哪些呢? 网络舆情分析工具功能作用: 舆情分析软件是指能够对各主流网站.博客.论坛等进行7*24小 ...

  6. 疫情舆情分析报告范文与写作基本格式详解

    疫情舆情分析研判报告撰写不像疫情舆情信息监测与搜集工作那么容易,它需要从数据出发,以内容为支撑,要先对疫情舆情信息进行整理汇总,再处理.分析和研判.因此,报告撰写难度大,毕竟它是整个舆情分析研判最终成 ...

  7. 网络舆情分析公司哪家的系统好推荐

    现在不管是线上还是线下专门做网络舆情分析服务的公司不在少数,比如我们去网上搜索舆情监测.舆情系统.舆情分析等这一类的关键词,可以看到好多相关的公司.但至于网络舆情分析公司哪家的系统好就不得而知了,毕竟 ...

  8. 网络舆情分析关键词怎么获取的系统平台方法

    舆情热点事件发生后,有效做好舆情应对工作的前提是先要做好舆情分析工作.一般来说,比较常见的舆情分析方式就是对舆情分析关键词进行提取,通过关键词来搜集精准有效的数据信息进行分析. 由于舆情热点产生后,会 ...

  9. 网络舆情分析的三个步骤及具体实施方案

    面对网上繁杂且多变的舆情信息数据,对于舆情分析师或舆情专员们来说,网络舆情怎么分析是其共同面临的一大难题. 接下来,小编就来为各位进行解答,提供了如下网络舆情监测公司的舆情平台解决方案,供参考,具体如 ...

最新文章

  1. 在Ubuntu 16.04.5 LTS上升级python的pip版本实录
  2. delete 多表删除的使用
  3. Prometheus部署监控容器
  4. php 链接文件名_7、php-fpm进程管理
  5. Graphics 单元中的类
  6. 自己动手开发编译器(八)用Linq编写解析器组合子
  7. C# 面向对象初级 (参考传智播客视频)
  8. R语言作图入门——软件安装,数据导入
  9. Echarts教程_1-2 简介
  10. diamond简介和搭建
  11. Python:给信号添加白噪声
  12. MySQL分库分表总结及面试案例
  13. linux系统怎么关闭屏保,Linux关闭屏保
  14. 圆满收官!OFweek 2019(第三届)物联网产业大会成功举办
  15. 魅族怎么更改html,魅族默认浏览器设置
  16. mysql cast()与convert() 函数
  17. 【Tensorflow】卷积层
  18. 【slf4j】在Java中如何定义优雅的Log日志
  19. 莫言系统腐化——“一坨”真的好吗?
  20. Python中的迭代器和生成器

热门文章

  1. 一文全面掌握conda
  2. C#实现局域网之间的通讯
  3. Android开源之仿微信UI
  4. 论文写作word中怎么把所有数字和字母替换为times new roman
  5. iOS Bug解决办法:如何防止Siri读出隐藏的通知
  6. 用Python做兼职,轻松赚取零花钱,分享Python兼职经验
  7. 移动磁盘显示由于IO设备错误,无法运行此项请求的文件找到办法
  8. 王者之争:.NET PK J2EE
  9. Java开发进阶:Java编程的关键技术点有哪些?
  10. log4Plus使用