文章目录

  • 目的
  • 效果
    • 云图
    • 直方图
  • 全代码+数据地址
  • 核心代码片断
    • data_analysis.py
    • data_tfidf.py
    • data_apriori.py
    • data_kmeans.py

目的

通过分析豆瓣用户电影评论数据,来对不同国家在不同时间内的电影进行情感分析,并通过云图及直方图进行效果展示。

效果

云图

直方图

全代码+数据地址

资源链接 :https://download.csdn.net/download/zhuqiuhui/85100293

核心代码片断

data_analysis.py

分析随着时间增长,不同国家拍摄的电影类型的变化

with open("data/kmeans.csv", 'r') as outfile:data = csv.reader(outfile)li = []years = []movie_dict = {}country = []for item in data:if(item[11]=='nan'):continueelse:li.append(item[11])years.append(item[3])country.append(item[4])if(item[4] not in movie_dict):movie_dict[item[4]]={item[3]:[item[11]]}else:if(item[3] not in  movie_dict[item[4]]):movie_dict[item[4]][item[3]]=[item[11]]else:movie_dict[item[4]][item[3]].append(item[11])
for k,v in movie_dict.items():for k1,v1 in v.items():movie_dict[k][k1]=Counter(v1).items()

data_tfidf.py

为由用户电影评论构建 tf-idf 模型抽取的关键短语。分为正向关键短语和负向关键短语。

def data_clean(SetPath):corpus_pos = []corpus_neg = []corpus = []result = []feature_list = []with open(SetPath) as file:data = file.readlines()for i, item in enumerate(data):row = item.strip().split("\t")if i == 0 or len(row)<5:continueelse:subdata = row[3]substr = jieba.lcut(subdata, cut_all=False, HMM=True)  # 默认参数if(row[4]=='pos'):corpus_pos.append(" ".join(substr))else:corpus_neg.append(" ".join(substr))corpus.append(" ".join(substr))

data_apriori.py

为由电影风格标签抽取的关联规则

def runApriori(data_iter, minSupport, minConfidence):itemSet, transactionList = getItemSetTransactionList(data_iter)freqSet = defaultdict(int)largeSet = dict()assocRules = dict()oneCSet = returnItemsWithMinSupport(itemSet, transactionList, minSupport, freqSet)currentLSet = oneCSet

data_kmeans.py

通过 kmeans 算法聚类电影。样本通过 one-hot 编码为特征,然后再使用 kmeans 算法聚类。共聚4类,通过云图展示(见效果)

def data_analysis(Setpath):data = pd.read_csv(Setpath,encoding='gbk')  # 读取文件中所有数据X_value = []for cname in data.columns.values:if 'Unnamed' not in cname:X_data  = np.array(data[cname])model = preprocessing.LabelEncoder()model.fit_transform(data[cname])X_reshape = X_data.reshape(len(X_data), 1)X_value.append(preprocessing.OneHotEncoder().fit_transform(X_reshape).toarray())value = np.concatenate(X_value,axis=1)y_pred = KMeans(n_clusters=4, random_state=10).fit_predict(value)data['cluster']= y_pred.tolist()data = np.array(data).tolist()

欢迎如转载,请注明出处!欢迎关注微信公众号:方辰的博客。

豆瓣电影评论情感分析(含代码+数据)相关推荐

  1. 基于机器学习的上证指数、东方股吧的股市评论情感分析 完整代码数据

    视频讲解:基于机器学习的上证指数.东方股吧的股市评论情感分析 完整代码数_哔哩哔哩_bilibili 所使用模型LinearSVC,LogisticReg,SGD,MultinomialNB,KNN, ...

  2. MOOC网深度学习应用开发3——Deep Dream、电影评论情感分析

    Deep Dream:随机噪点图向目标图转换的过程 经典卷积神经网络 电影评论情感分析 自然语言处理基础知识1 自然语言处理基础知识2--分词 自然语言处理基础知识3--词的数字化表示方法和词嵌入 电 ...

  3. python电影评论情感分析_20行Tensorflow代码实现电影评论情感分析

    原标题:20行Tensorflow代码实现电影评论情感分析 背景 情感分析有很多的应用场景,比如做一个电商网站,卖家需要时刻关心用户对于商品的评论是否是正面的.再比如做一个电影的宣传和策划,电影在键盘 ...

  4. 从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(下)

    基于朴素贝叶斯的电影评论情感分析 用到的包:pandas.jieba(分词工具) file=open(r"review.txt",'r',encoding='utf-8') rev ...

  5. 【自然语言处理(NLP)】基于FNN网络的电影评论情感分析

    [自然语言处理(NLP)]基于FNN网络的电影评论情感分析 作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建 ...

  6. 【Python自然语言处理】使用逻辑回归(logistic)对电影评论情感分析实战(超详细 附源码)

    需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一.舆情分析 舆情分析很多情况下涉及到用户的情感分析,或者亦称为观点挖掘,是指用自然语言处理技术.文本挖掘以及计算机语言学等方法来正确识别和提取文 ...

  7. Pytorch+Text-CNN+Word2vec+电影评论情感分析实战

    文章目录 0.前言 1.电影评论数据集 2.数据读取 3.数据预处理 4.准备训练和测试集 5.加载词向量模型Word2vec 6.定义网络 7.训练网络 8.测试网络和可视化 9.总结 0.前言 很 ...

  8. 20行代码实现电影评论情感分析

    背景 情感分析有很多的应用场景,比如做一个电商网站,卖家需要时刻关心用户对于商品的评论是否是正面的.再比如做一个电影的宣传和策划,电影在键盘侠们中的口碑也至关重要.互联网上关于任何一个事件或物品都有可 ...

  9. 朴素贝叶斯情感分析评分python_「豆瓣影评」从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(上) - seo实验室...

    豆瓣影评 一.爬取豆瓣影评 基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论.选取10部电影,每部200条评论. 用到的包为:BeautifulSoup,urllib 这里选取的链接 ...

  10. 从爬取豆瓣影评到基于朴素贝叶斯的电影评论情感分析(上)

    一.爬取豆瓣影评 基本思路:先获取每个电影的评论区链接,然后依次进入其评论区爬取评论.选取10部电影,每部200条评论. 用到的包为:BeautifulSoup,urllib 这里选取的链接为:豆瓣电 ...

最新文章

  1. python自学什么书比较好-19年学习Python有什么好的书籍推荐吗?
  2. 微软正式发布Windows 10 2020年10月更新
  3. java cpu 监控工具_Java自带的GUI性能监控工具Jconsole以及JisualVM简介
  4. ubuntu8.0中文输入法
  5. 雷辉:让视频会议conferencing like TV
  6. jacoco统计server端功能测试覆盖率
  7. JQuery对象与DOM对象的区别与转换
  8. 腾讯启动“SaaS技术联盟”联合行业制定互联互通标准
  9. 前端控件JQuery Datatables使用——常用功能初始化
  10. shell自定义函数及参数调用解析
  11. 统计学 假设检验 总体均值的检验
  12. mac 系统 突破百度网盘网速限制
  13. h3c 云服务器操作系统,产品技术-H3C CloudOS云操作系统电信版-新华三集团-H3C
  14. 视频剪辑怎么学?四个方面要注意,整体思路是关键
  15. go语言程序设计学习笔记-1
  16. CIDR表示IP地址
  17. 不可小觑的吃内存大户
  18. Centos 系统优化
  19. 电容相位滞后?电感超前
  20. 字节进军外卖,抖音内测“心动外卖”

热门文章

  1. iOS 审核被拒绝问题汇总
  2. 云存储云计算选择开源还是商业版
  3. c语言ascii码16进制,C语言附录ASCII码表.doc
  4. eclipse 语言包下载 中文汉化
  5. plc vb c语言编程,[转载]VB6.0在PLC和上位机通讯中的应用【工控老鬼分享】
  6. 对抗机器学习—— 迭代FGSM
  7. biu~biu~常用网站
  8. SpringBoot项目中快速集成腾讯云短信服务SDK实现手机验证码功能
  9. matlab人脸识别代码,基于matlab的人脸识别源代码.doc
  10. gzdeflate函数_php 压缩函数gzencode gzdeflate gzcompress