在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程:

0.主要流程

0.数据采集

0. 目标网址获取

1. 爬虫框架选用

注:了解这一步请登录https://www.jianshu.com/p/2b015d289083

或http://blog.csdn.net/weixin_41716128/article/details/79306923

1.数据处理

由于某种原因上一篇采集的960条记录不小心给我删除了--_--(而且没有备份)

因此我重新再采集了一次,并且这次只采集只有有追加评论的订单。如图:

对比一下抓取的数据与网页基本一致。

0. 数据存储

数据库是mysql5.7版本,配置与安装数据库这里就不介绍了,度娘很多教材呢!

1. 数据清洗

好了进入正题,我们开始整理数据。初步观察数据是比较完整的,没有什么缺失值。但是要专业分析sql代码还是需要敲下!如下:

select id from iphonex where 当天评论 is NULL or 追加评论 is NULL;

#选择评论为空的id

update iphonex set 当天评论=replace(当天评论,'此用户没有填写评论!','0');

#消除 ’此用户没有填写评论!’ 的字符值

update iphonex set 当天评论=replace(当天评论,',',',');

update iphonex set 追加评论=replace(追加评论,',',',');

#把英文的逗号改为中文格式,方便以后导出csv格式

update iphonex set 机身颜色=机型;

update iphonex set 存储容量=机型;

update iphonex set 机身颜色=replace(机身颜色,'网络类型:无需合约版;机身颜色:','');

update iphonex set 机身颜色=replace(机身颜色,';存储容量:256GB','');

update iphonex set 机身颜色=replace(机身颜色,';存储容量:64GB','');

update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:银色;存储容量:','');

update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:深空灰色;存储容量:','');

update iphonex set 存储容量=replace(存储容量,'GB','');#去除多余信息

这里需要注意的是先用图形工具MySQL-Front添加2个字段

update iphonex set 当天评论=replace(当天评论,',',',');

update iphonex set 追加评论=replace(追加评论,',',',');

注意一下这2条代码,原值与修改值分别英文和中文的逗号,将文件存为csv必须要注意的问题。(当然你也可以选择空格或者制表符,那么就要将多余空格和制表符替换掉)运行代码后,再修改存储容量的属性为int型

结果如图:

2. 数据初步分析

导出数据:

数据格式为csv,以英文逗号为分隔值。再用数据分析图形工具spss打开数据(当然你也可以选择excel)

如图:

spss配置与安装?请问度娘。

好了一切准备好了showtime!!!!!!

订单完成交易时间与计数关系图:

初步分析可以发现销量最高的2天为11月30 与12月16,这个比较符合现实规律销量最高的都在双11与双12之间(快递一般最迟7天?)。

机型与计数饼图:

机身颜色与计数图:

灰色比较受欢迎哦!!!

这个有点惊讶64和256差不多,但是感觉256多点呢有木有?

当天就追加评论的人数较多。评论可靠度算是一般般。因为很多人没有体验太多就评论了。

突然发现忽视了一个重要的问题----------价格。因为64GB和256GB的价格是不一样的,因此第一个图只能证明销量而无法表示销售金额。若要分析销售金额,需要再对数据进行一些处理。需要作变量替换即64GB=8388元,256GB=9688元再分析。(这里就不展开了!!)

好了初步分析做到这里了,当然其实还有许多隐藏的有用信息,要将这些挖掘出来需要大家不断积累经验了!!数据挖掘要放到下一篇文章做了!下面介绍下上篇文章爬虫提到的天猫securitymatrix技术

2.数据挖掘

0. 文本挖掘

1. 用户情感分析

1.难点说明

0.关于天猫securitymatrix技术

关于securitymatrix先上某博主对securitymatrix的介绍:

安全矩阵(Security Matrix)是专业从事信息安全产品与服务、应用数学技术与密码技术的技术与学术研究组织,聚集了一批优秀的专业人才,致力于数学技术、密码技术、信息安全技术研究和相关软件产品研发,在国内信息安全领域独树一帜。目前,安全矩阵以专业的安全服务为核心,开发出包括商用加密系统及其相关产品、反黄系统、多款安全WEB信息系统、个人反木马套装在内的多款产品,并在安全评估、内容安全、接入安全、Web安全、密码技术、软件保护技术等研究领域中取得多项科研技术成果。诚信、协作与创新是我们价值观中最重要的部份。在我们的研究、开发、服务过程中,在我们与客户及国内外信息安全研究团队学习、交流过程中,我们都坚持这些原则,并且坚信通过我们专业的产品与服务,能够为社会创造高价值。参考网址:http://www.smatrix.org/

一大堆概念?好像天书?这个与爬虫有什么关系?总结一下吧!天猫这个系统其实对爬虫有有一定限制(其他限制爬虫方式还有许多如js封装,登陆验证,验证码,封ip。。。。),比如:重定向(是什么?度娘)。天猫相对于京东,爬取难度就高很多了。因此要更深入的爬取天猫还要做很多的突破!!!!所以希望大家能多交流分享经验!

换一个角度想想,其实我们快速且大量地(分布式)爬取天猫的数据时。对天猫是有一定影响的,天猫不但有可能泄漏了一些重要信息,而且会加大天猫服务器的负担的。(爬虫侵权的例子不少:eBay起诉Bidder's Edge)我们要遵守法规,适度爬虫呀!!!!!(对于我这个新手这好像是梦话哈哈哈哈)

最后引用Ryan Mitchell的话:时间就是一切,请限制你的爬虫,time.sleep(3)。

注:要获取标准的代码格式请访问:csdn微博

1.关于机器学习

好了写那么多赞赏或关注下吧

python商品评论分析_用python3爬取天猫商品评论并分析(1)相关推荐

  1. 用python3爬取天猫商品评论并分析(1)

    在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0. 主要流程 0. 数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步 ...

  2. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  3. 用python爬取天猫商品评论并分析(2)

    用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...

  4. python爬取天猫商品信息

    python爬取天猫商品信息 主要信息有:商品名,价格,月销量,评论数,人气值,店铺评分 以智能手机为例! 首先,发掘网址规律: 第二页的网址如上 第三页的网址如上 注意网址中的数字(靠近中间位置): ...

  5. python爬取天猫_python scrapy 爬取天猫商品

    感觉写的差不多了,可就是爬不出数据,想要用这个爬取天猫商品销量价格,求一下PYTHON大神,能让我程序爬成功的,1000分都给你itemsimportscrapyclassno1item(scrapy ...

  6. python爬取天猫_Python爬取天猫商品数据

    使用教程点击这里下载下载chrome浏览器 查看chrome浏览器的版本号,点击这里下载对应版本号的chromedriver驱动 pip安装下列包pip install selenium pip in ...

  7. [爬虫]采用Go语言爬取天猫商品页面

    最近工作中有一个需求,需要爬取天猫商品的信息,整个需求的过程如下: 修改后端广告交易平台的代码,从阿里上传的素材中解析url,该url格式如下: https://handycam.alicdn.com ...

  8. 简单爬虫,爬取天猫商品信息

    前言 这是我第一次用Java来写爬虫项目,研究的也不是很透彻,所以爬虫技术的理论方面的就不说太多了. 主要还是以如何爬取商品信息为主,爬取最简单的商品信息,给出大概的思路和方法. 对于没有反爬技术的网 ...

  9. selenium跳过webdriver检测并爬取天猫商品数据

    文章目录 简介 编写思路 使用教程 演示图片 源代码 简介 现在爬取淘宝,天猫商品数据都是需要首先进行登录的.上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝.把关键点放在如何 ...

最新文章

  1. c++11の简单线程管理
  2. hdu 1298 字典树 + DFS (模拟T9文本输入)
  3. 18年总结及19年展望
  4. 谷歌浏览器mac_Mac用户浏览网页不可少的浏览器-谷歌Chrome
  5. 【论文导读】浅谈胶囊网络与动态路由算法
  6. 北京大学计算机研究所所长,北大计算机研究所所长郭宗明:探索新机制,释放科研创新能力...
  7. 【python】装饰器
  8. Flink SQL Client的Rolling Aggregation实验解析
  9. SCCM Learning2
  10. python驱动级模拟按键大师_AB叔_C#驱动级模拟按键操作
  11. Python for循环举例
  12. 20190909 SpringBoot集成Swagger
  13. 【转】Java 杂谈(三)
  14. Linux集群在银行信息化中的应用(2)
  15. html中文本域选中后会出现蓝边框
  16. GEEK学习笔记— —程序员面试宝典笔记(四)
  17. python读取视频文件大小,码率,帧率,以及通过码率计算文件大小与流量
  18. httpf发送 json_https和http的post发送总结
  19. 基于PHP和YII框架技术的班级管理系统 | 饭饭博客
  20. 小程序05 canvas绘图并保存到相册

热门文章

  1. Shell循环语句(for循环;while循环;until循环)及中断(break和continue)
  2. ftp上传文件报错 Unexpected null reply received
  3. @Service层代码的格式
  4. 戴尔笔记本win7系统,外接屏幕设置成全屏
  5. HP 畅游人系列系统恢复
  6. Extensions and intentions in the rough set theory(covering approximation space)
  7. c语言字符秒表,分钟秒表
  8. python输入九九乘法表五种分式_初中数学推断计算口诀大全
  9. Word:如何设置每页39行X每行42字符
  10. iphone相机hdr怎么设置(hdr模式设置方法)