参考链接: 在Python中从字符串中删除停用词stop word

python进行情感分析

发布时间:2018-02-10 09:57,

浏览次数:549

, 标签:

python

一、数据获取

在天猫爬取斯凯奇品牌下的男鞋店铺共5或6个,除去重复评论后,共条,放在Excel文件。

二、文本预处理

import pandas as pd import numpy as np import jieba import warnings

warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')

outputfile=r'F:\数据分析与模型\毕业论文\代码\data\review_uniqe.txt'

data=pd.read_excel('F:\数据分析与模型\毕业论文\斯凯奇5、6个店铺评论(仅评论).xlsx',header=None)#header=None的作用是在导入时不让第一行文本成为列索引,在导出时的作用是CSV文件里不包含列索引字段(如0,1,2,3等)

data=pd.DataFrame(data) #文本去重 data=pd.DataFrame(data[0].unique())

data.to_csv(outputfile,index=False,header=None,encoding='UTF-8') #数据重新导入

data=pd.read_csv(outputfile, encoding = 'utf-8', header = None) #分词 mycut =

lambda s: ' '.join(jieba.cut(s)) #自定义简单分词函数,以空格分词 data1=data[0].apply(mycut)

#因为无列名,只有0、1这样的列索引,所以dataframe直接调用data[0] #data格式为Dataframe([35634 rows x 1

columns]),data[0]格式为Series(Name: 0, dtype:

object,第一行评论index为0),data1为分词后的一个series,data1[0]取第一行 #去除停用词

stoplist='F:\数据分析与模型\毕业论文\代码\stoplist.txt' stop = pd.read_csv(stoplist,

encoding = 'utf-8', engine='python',header = None, sep = 'tipdm')

#sep设置分割词,由于csv默认以半角逗号为分割词,而该词恰好在停用词表中,因此会导致读取出错 #所以解决办法是手动设置一个不存在的分割词,如tipdm。

stop = [' ', '','\n'] + list(stop[0])#Pandas自动过滤了空格符 data2=data1.apply(lambda

s: s.split(' ')) # 返回一个由空格分割的列表['商品','很棒','快递',...] data3=data2.apply(lambda x:

[i for i in x if i not in stop])#x是指data2 #逐词判断是否停用词,思路同上

#上面这句代码的语法是:列表推导式子。意思是说,如果i不在停用词列表(stop)中,就保留该词语(也就是最前面的一个i),否则就进行删除

#上面的这句代码中,把for i in x看做整体,把if i not in stop看做判断语句,把最前面的i看做满足if语句之后的执行语句即可。

#data2为series,如何将多个series合并为dataframe #去除字数

data3:     a=''.join(i)#转为字符串     b=len(a)     if b>=4 and a!='用户填写评论' and

a!='初次评论':         data4.append(a) data5=pd.DataFrame(data4) #重新分词、去重

data6=data5[0].apply(mycut)#data5[0]为series data6=pd.DataFrame(data6.unique())

data6.to_csv('F:\数据分析与模型\毕业论文\代码\data\data_process_last.txt',header=None,index=False,encoding='UTF-8')

三、word2vec训练

1、产品特征词库建立

一方面将从某品牌显示器说明书和其官网产品详情页中人工抽取显示器领域特征词,另一方面利用

Word2vec语词聚类法从海量的用户评论中寻找特征词关联词汇,扩充完善产品特征词库。

步骤猜测:人工抽取的词语放到一个TXT里,然后通过导入文本文件后,再建立word2vec模型。(接下来要进行的是了解word2vec原理及如何通过它来找出特征词关联词)

[转载] python字符串情感分析_python进行情感分析相关推荐

  1. [转载] python字符串表示方法_python字符串使用方法归纳

    参考链接: Python字符串| splitlines capitalize() 把字符串的第一个字符改为大写 casefold() 把整个字符串的所有字符改为小写 center(width) 将字符 ...

  2. [转载] python字符串数组字典_Python:字符串、列表、元组、字典

    参考链接: Python字符串| ascii_uppercase 字符串: 所有方法都修改不了字符串的值,字符串还是原值:但可以重新赋值:使用字符串方法有返回值 循环字符串的用法: 字符串方法: Na ...

  3. python字符串截取拼接_Python字符串拼接、截取及替换方法总结分析

    本文实例讲述了Python字符串拼接.截取及替换方法.分享给大家供大家参考,具体如下: python字符串连接 python字符串连接有几种方法,我开始用的第一个方法效率是最低的,后来看了书以后就用了 ...

  4. [转载] python 字符串包含某个字符_python字符串

    参考链接: Python字符串capitalize() str字符串 本节内容概览 1.何为str?2.转义字符3.字符串格式化4.Python字符串内建函数和操作5.python字符串练习 一.字符 ...

  5. [转载] python 字符串切片_Python字符串

    参考链接: 如何在Python中索引和切片字符串string Python字符串 本章将介绍:1.字符串的3种表现形式2.字符串的输入与输出,索引与切片.3.字符串常用函数4.了解字符串的运算 在汉语 ...

  6. [转载] python字符串只留数字_Python工匠:数字与字符串(下)

    参考链接: Python字符串| rsplit " 编程某种意义上是一门『手艺』,因为优雅而高效的代码,就如同完美的手工艺品一样让人赏心悦目. " 致"匠人" ...

  7. python字符串去重排序_python实现字符串转数字排序-女性时尚流行美容健康娱乐mv-ida网...

    女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页  > 高级搜索 python 取子 字符 串 ...

  8. python字符串打印教学_python字符串格式化教你正确打印 : D

    python字符串格式化教你正确打印 : D python字符串格式化教你正确打印 : D 文章目录 用格式字符% 字符串 整数 浮点数 format格式化 print需要注意的地方 转义字符 %运算 ...

  9. python字符串成熟编码_python字符串转公式两种方法获取网页编码python版

    在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能.我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取. 但是在抓取过程中会遇到编码的问题 ...

  10. [转载] python解析返回结果_python:解析requests返回的response(json格式)说明

    参考链接: python-json 8: 解析requrst的响应 我就废话不多说了,大家还是直接看代码吧!jte免费资源网 import requests, json r = requests.ge ...

最新文章

  1. C# winfrom 导出 Excel
  2. javase_03作业
  3. Eclipse中单元测试
  4. 笔记本 win7 装vs2010 报错 注册表 拒绝访问等
  5. 5G、IoT 爆发前夕,我们必须了解的操作系统! | 码书
  6. .Net配置文件中数据库中连接字符串用法总结
  7. 人群与网络:网络流量博弈,拍卖、匹配市场
  8. 数据包接收系列 — 上半部实现(网卡驱动)
  9. OBS录制黑屏的解决办法
  10. 制造业供应链平台解决方案,实现数字化、可视化、信息化
  11. 第三届中青杯B题思路
  12. 柱、锥、台、球的体积公式推导(不用积分)
  13. wdf中的两个宏WDF_DECLARE_CONTEXT_TYPE WDF_DECLARE_CONTEXT_TYPE_WITH_NAME
  14. 2013-2015阿里双十一技术网络文章总结
  15. 一个用java演示的产生图像烟花的算法
  16. 在windows下使用docker做本机linux环境系统测试
  17. Android之ScrollBar
  18. 用c语言switch计算奖金,求助。。关于用switch编写简易计算器
  19. 随机森林的特征重要性原理
  20. 甘肃省陇南市谷歌卫星地图下载

热门文章

  1. 2021年度训练联盟热身训练赛第二场(ICPC North Central NA Contest 2019,南阳师范学院),签到题ABCDEFGIJ
  2. 【PAT乙】1085 PAT单位排行 (25分) map排序
  3. 【概念理论】不存在的NOIP2016
  4. linux下软件的卸载,Linux下各种格式软件的安装及卸载方法
  5. hp服务器引导驱动器,windows-server-2008 – 在没有SmartStart的HP Proliant服务器上安装Windows...
  6. osg加载osgb数据_铁路工程三维协同大数据云平台研究与开发
  7. android 层叠轮播,vue手写一个卡片化层叠轮播(支持滑动,移动端连续滚动,点击)...
  8. PAT乙级 数素数(20)
  9. UnityShader31:Gamma
  10. ZOJ 3987 2017CCPC秦皇岛 G:Numbers(高精度+贪心)