以驱虫市场数据为例,挖掘某店铺新的业务方向和市场增长点。
联系微信wusheng9922
接上一节(4) 接下来看市场的舆情情况分析。

11 舆情分析

读数据:

定义文件路径
os.chdir('..')
os.chdir('./评论舆情数据')
用glob把里面文件名都拿到 并赋值给filenames5
filenames5 = glob.glob('*.xlsx')
filenames5
读取其中的bai的数据
df6bai = pd.read_excel(filenames5[1])
df6bai.head(3)

抽评论 洗数据:

df6bai['评论'].head()
转换为列表为后边处理文本使用
bai6 = list(df6bai['评论'])


接下来要把这些数据洗干净,然后再做 词云啊 dtm啊 看需要是否建模啊,等等这样的思路展开。

① re正则表达式 替换非中英文为空格

去掉列表 中评论数据 的 除了 英文 中文 以外的 其他东西:

bai61 = [re.sub(r'[^a-z\u4E00-\u9Fa5]+',' ',i,flags=re.I) for i in bai6]
r表示声明是原始字符串,避免与转义字符冲突,平时经常放上
[]表示里面的关系是取 或 的关系
^ 表示 非 的意思 就是除了中文和英文的意思
a-z\u4E00-\u9Fa5 固定表示 中文和英文的 代码
' ',是替换成空格
i 是准备替换的数据
flages=re.i 表示大小写都算

正则表达式
执行完后 数据中的除了中文英文外的其他东西都没有了:

②jieba分词 ④去掉停用词

构建停用词表,首先手上有一份下载好的百度停用词表,读进来

stopwords = list(pd.read_csv('D:/data/python/百度停用词表.txt',names=['stopwords'])['stopwords'])
stopwords.extend([' ','蟑螂'])
自己按业务增加 停用词
bai62 = [] # 定义一个列表
for i in bai61:#bbai61是保留中英文后的列表seg0 = pd.Series(jieba.lcut(i))# 用Series 后边好做布尔索引 这一步是 用i在bai61这个列表里面 去循环每一句话 然后用jieba分词ind1 = pd.Series([len(j) for j in seg0])>1# [len(j) for j in seg0]是对分好词的seg0 里面的 做判断 是否长度大于 1 去掉等于1的词seg1 = seg0[ind1]# 布尔索引 得到seg1 去掉了长度小于1的ind2 = ~seg1.isin(pd.Series(stopwords))# ~ 符号表示取反的意思 isin判断 seg1里面的词是否在停用词中 返回布尔值 取反就是要不在 停用词中的seg2 = list(seg1[ind2].unique())#  分好词 去掉长度小于1的 seg1 进行布尔索引(去停用词) 和 去重 得到 列表 seg2if len(seg2)>0:bai62.append(seg2)

上面两段代码 就做好了分词 和 去掉停用词
大概看下最后得到的 评论的后几行

⑤取高频词

列表生成式子,把一个列表中的列表,都变成字符串,生成在一张大列表中:

bai63 = [y for x in bai62 for y in x]
bai63
# 或如下方式:
# from itertools import chain
# bai63 = list(chain(*bai62))


计算词频:

baifreq=pd.Series(bai63).value_counts()
baifreq[:50]

绘制词云

按照词云包的格式
组合多个字符为一个长字符,空格分隔
bai64 = ' '.join(bai63)

设置字体的路径,不然最后显示不出来
font=r'‪C:\Windows\Fonts\msyh.ttc'
放入词云包
wc = WordCloud(font_path=font).generate(bai64)
将图形画出来
plt.figure(figsize=(16,8))
plt.imshow(wc)
plt.axis('off')
plt.show()

将词云图导出图片
wc.to_file('D:/data/python/情词云.png')

怎么用python电商文本挖掘?(5)相关推荐

  1. python电商评论情感分析_电商产品评论数据情感分析

    来自:Python数据分析与挖掘实战--张良均著 1. 分析方法与过程 本次建模针对京东商城上"美的"品牌热水器的消费者评论数据,在对文本进行基本的机器预处理.中文分词.停用词过滤 ...

  2. python电商项目源码_Python Django(WEB电商项目构建)

    (坚持每一天,就是成功) Python Django Web框架,Django是一个开放源代码的Web应用框架,由Python写成.采用了MTV的框架模式,即模型M,模板T和视图V组成. 安装Pyth ...

  3. python电商_电商数据分析(python)

    一.背景及目的 从多维度对某平台2016年电商数据进行分析,总结销售规律,为来年销售计划做准备,指导之后的产品销售. 二.理解数据 三.提出分析思路 四.数据清洗 此部分请见我之前写的文章:电商数据分 ...

  4. python电商项目介绍_电商大数据项目-推荐系统实战(一)

    本项目是基于Spark MLLib的大数据电商推荐系统项目,使用了scala语言和java语言.基于python语言的推荐系统项目会另外写一篇博客.在阅读本博客以前,需要有以下基础: 1.linux的 ...

  5. python电商项目源码_电商平台某活动销售数据复盘-附python完整代码

    假设我司是一家集产研销一体的公司,在某电商平台上长期销售商品.基于平台现有的销售模式,我司每个月都会有一场以上促销活动,每次促销活动后我们都会评估其结果,并做出相关改进.分析流程:1.总体运营指标分析 ...

  6. python电商数据挖掘_Python 爬取淘宝商品数据挖掘分析实战

    作者 孙方辉 本文为CDA志愿者投稿作品,转载需授权 项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目 ...

  7. python电商数据挖掘_利用Python爬取淘宝商品并数据挖掘与分析实战!此乃大型项目!...

    项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...

  8. python电商数据分析统计服_python爬虫学习:电商数据分析

    通常我们在使用爬虫的时候会爬取很多数据,而这些数据里边什么是有用的数据,什么是没用的数据这个是值得我们关注的,在这一篇文章里,我们将通过一个简单的爬虫,来去简单介绍下如何使用python来去做数据分析 ...

  9. python电商数据挖掘_13电商推荐算法_python机器学习与数据挖掘_Python视频-51CTO学院...

    爬虫 Python基础.数据分析扩展包Numpy.pandas.matplotlib,Python读取MySQL数据,Python爬虫及Scrapy框架,无监督机器学习算法聚类分析等,以及案例:互联网 ...

最新文章

  1. 怎么用python处理excel文件-Python自动化如何处理excel文件数据
  2. 使用 IntraWeb (15) - 基本控件之 TIWEdit、TIWMemo、TIWText
  3. Java基础知识(二)之控制语句
  4. 时钟分频中的计数值问题
  5. [CTO札记]研究:日本Rakuten(乐天)
  6. iOS 创建单例的方法
  7. [Share]如何做好一份前端工程师的简历?
  8. openstack学习之路-python运维(network)
  9. 如何将Windows 7 RC升级到RTM(最终版本)
  10. 多张图片合成一个tif文件
  11. python将html转成pdf,python将html转成PDF的示例
  12. rpx怎么算出来的?
  13. 游戏建模 | UV贴图及模型展开案例
  14. c8051f020 I/O配置小结
  15. 王峰 阜阳师范学院计算机,《阜阳师范学院学报》投稿_学报投稿网
  16. 找到个eclipse旧版下载地址有jdk1.8最后一版2020-06
  17. 如何绕过图片格式限制上传木马获取WebShell
  18. cesium 显示纯色地球
  19. 无线网服务器名字大全,告诉你各个服务器名字的含义
  20. 1.7 信息化发展与应用

热门文章

  1. 如何使用Pixelmator Pro处理图片?mac pixelmator使用教程
  2. 【ACCV2022】论文阅读笔记Lightweight Alpha Matting Network Using Distillation-Based Channel Pruning
  3. 【Linux】基本指令和常用应用安装
  4. python人脸特征提取_Python实现识别人脸特征并打印出来
  5. fremaker遍历list_Freemarker中如何遍历List
  6. 格兰杰因果检验准备-平稳性检验-Eviews
  7. Sonarqube 扫描maven项目
  8. SRS SDP解析流程
  9. 洛谷P4643 [国家集训队]阿狸和桃子的游戏
  10. 百雀羚是如何1天创造380万销售额的?