在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程:

0. 主要流程

0. 数据采集

0. 目标网址获取

1. 爬虫框架选用

注:了解这一步请登录https://www.jianshu.com/p/2b015d289083

或http://blog.csdn.net/weixin_41716128/article/details/79306923

1. 数据处理

由于某种原因上一篇采集的960条记录不小心给我删除了--_--(而且没有备份)

因此我重新再采集了一次,并且这次只采集只有有追加评论的订单。如图:

对比一下抓取的数据与网页基本一致。

0. 数据存储

数据库是mysql5.7版本,配置与安装数据库这里就不介绍了,度娘很多教材呢!

1. 数据清洗

好了进入正题,我们开始整理数据。初步观察数据是比较完整的,没有什么缺失值。但是要专业分析sql代码还是需要敲下!如下:

select id from iphonex where 当天评论 is NULL or 追加评论 is NULL;#选择评论为空的idupdate iphonex set 当天评论=replace(当天评论,'此用户没有填写评论!','0');#消除 ’此用户没有填写评论!’ 的字符值update iphonex set 当天评论=replace(当天评论,',',',');update iphonex set 追加评论=replace(追加评论,',',',');#把英文的逗号改为中文格式,方便以后导出csv格式update iphonex set 机身颜色=机型;update iphonex set 存储容量=机型;update iphonex set 机身颜色=replace(机身颜色,'网络类型:无需合约版;机身颜色:','');update iphonex set 机身颜色=replace(机身颜色,';存储容量:256GB','');update iphonex set 机身颜色=replace(机身颜色,';存储容量:64GB','');update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:银色;存储容量:','');update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:深空灰色;存储容量:','');update iphonex set 存储容量=replace(存储容量,'GB','');#去除多余信息

这里需要注意的是先用图形工具MySQL-Front添加2个字段

update iphonex set 当天评论=replace(当天评论,',',',');

update iphonex set 追加评论=replace(追加评论,',',',');

注意一下这2条代码,原值与修改值分别英文和中文的逗号,将文件存为csv必须要注意的问题。(当然你也可以选择空格或者制表符,那么就要将多余空格和制表符替换掉)运行代码后,再修改存储容量的属性为int型

结果如图:

2. 数据初步分析

导出数据:

数据格式为csv,以英文逗号为分隔值。再用数据分析图形工具spss打开数据(当然你也可以选择excel)

如图:

spss配置与安装?请问度娘。

好了一切准备好了showtime!!!!!!

订单完成交易时间与计数关系图:

初步分析可以发现销量最高的2天为11月30 与12月16,这个比较符合现实规律销量最高的都在双11与双12之间(快递一般最迟7天?)。

机型与计数饼图:

机身颜色与计数图:

灰色比较受欢迎哦!!!

这个有点惊讶64和256差不多,但是感觉256多点呢有木有?

当天就追加评论的人数较多。评论可靠度算是一般般。因为很多人没有体验太多就评论了。

突然发现忽视了一个重要的问题----------价格。因为64GB和256GB的价格是不一样的,因此第一个图只能证明销量而无法表示销售金额。若要分析销售金额,需要再对数据进行一些处理。需要作变量替换即64GB=8388元,256GB=9688元再分析。(这里就不展开了!!)

好了初步分析做到这里了,当然其实还有许多隐藏的有用信息,要将这些挖掘出来需要大家不断积累经验了!!数据挖掘要放到下一篇文章做了!下面介绍下上篇文章爬虫提到的天猫securitymatrix技术

2. 数据挖掘

0. 文本挖掘

1. 用户情感分析

1. 难点说明

0. 关于天猫securitymatrix技术

关于securitymatrix先上某博主对securitymatrix的介绍:

安全矩阵(Security Matrix)是专业从事信息安全产品与服务、应用数学技术与密码技术的技术与学术研究组织,聚集了一批优秀的专业人才,致力于数学技术、密码技术、信息安全技术研究和相关软件产品研发,在国内信息安全领域独树一帜。目前,安全矩阵以专业的安全服务为核心,开发出包括商用加密系统及其相关产品、反黄系统、多款安全WEB信息系统、个人反木马套装在内的多款产品,并在安全评估、内容安全、接入安全、Web安全、密码技术、软件保护技术等研究领域中取得多项科研技术成果。诚信、协作与创新是我们价值观中最重要的部份。在我们的研究、开发、服务过程中,在我们与客户及国内外信息安全研究团队学习、交流过程中,我们都坚持这些原则,并且坚信通过我们专业的产品与服务,能够为社会创造高价值。                                            参考网址:http://www.smatrix.org/

一大堆概念?好像天书?这个与爬虫有什么关系?总结一下吧!天猫这个系统其实对爬虫有有一定限制(其他限制爬虫方式还有许多如js封装,登陆验证,验证码,封ip。。。。),比如:重定向(是什么?度娘)。天猫相对于京东,爬取难度就高很多了。因此要更深入的爬取天猫还要做很多的突破!!!!所以希望大家能多交流分享经验!

换一个角度想想,其实我们快速且大量地(分布式)爬取天猫的数据时。对天猫是有一定影响的,天猫不但有可能泄漏了一些重要信息,而且会加大天猫服务器的负担的。(爬虫侵权的例子不少:eBay起诉Bidder's Edge)我们要遵守法规,适度爬虫呀!!!!!(对于我这个新手这好像是梦话哈哈哈哈)

最后引用Ryan Mitchell的话:时间就是一切,请限制你的爬虫,time.sleep(3)。

1. 关于机器学习

用python3爬取天猫商品评论并分析(1)相关推荐

  1. python商品评论分析_用python3爬取天猫商品评论并分析(1)

    在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0.主要流程 0.数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步请登 ...

  2. 用python爬取天猫商品评论并分析(2)

    用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...

  3. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  4. 利用在京东上爬取的商品评论做分析

    利用在京东上爬取的商品评论做分析 1.读入数据 Python中读入数据,查看数据 import pandas as pd import re import os os.chdir("C:/U ...

  5. python爬取天猫商品信息

    python爬取天猫商品信息 主要信息有:商品名,价格,月销量,评论数,人气值,店铺评分 以智能手机为例! 首先,发掘网址规律: 第二页的网址如上 第三页的网址如上 注意网址中的数字(靠近中间位置): ...

  6. Python动态爬虫爬取京东商品评论

    Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...

  7. Python爬取京东商品评论

    京东商城的页面不是静态页面,其评论信息存放于json文件中,由ajax控制,所以我们在浏览器上看到的网页源代码和用Python爬下来的是不一样的,所以我们真正要爬取的是评论数据所存放的json文件. ...

  8. Python爬取京东商品评论和图片下载

    Python爬取京东商品评论和图片下载 代码仅供学习使用,切勿扩散并且频繁爬取网站 贴上代码和注释,方便自己下次看 import requests import time import json im ...

  9. Python 爬取京东商品评论 + 词云展示

    利用python爬虫爬取京东商品评论数据,并绘制词云展示. 原文链接:https://yetingyun.blog.csdn.net/article/details/107943979 创作不易,未经 ...

最新文章

  1. ionic3 java,ionic3-环境搭建问题
  2. 【Vegas原创】将treeview父结点的链接改为折叠事件
  3. 很是迷茫 ERP和HIS哪个更有发展前途?
  4. PHP获取用户真实IP地址
  5. php设置加载动画,如何用CSS3制作页面圆圈加载动画(附代码)
  6. 剑指Offer值二叉树的深度
  7. Bailian3719 学生信息用qsort排序【排序+字符串库函数】
  8. 网络流dinic算法
  9. win安装android系统服务,拯救你的旧电脑:整个win+Android的双系统
  10. 加减法叫做什么运算_加减法是什么意思
  11. 数据可视化(全彩)(大数据丛书,首次全面细致地梳理了可视化理论,方法、工具与应用案例。马匡六教授、石教英教授鼎力推荐,十二五国家重点图书出版规划项目)
  12. word自动更正关闭_如何在OS X中关闭自动更正文本替换
  13. YOLOv5训练时出现Corrupt JPEG data: 2 extraneous bytes before marker 0xd9
  14. 保姆级教程!最全苹果相机使用技巧(系列一)
  15. 元宇宙研讨会-空间设计与交互技术构造的叙事世界
  16. 什么是思维导图?有哪些好用的思维导图工具
  17. eNSP配置VLAN
  18. 【原理】Basic Integer Overflows
  19. jQuery实现消息列表循环垂直向上滚动
  20. 第十三周总结——认清自己

热门文章

  1. 【C4D】整体缩放模型
  2. dataframe 按条件筛选行
  3. MPlayer安装和使用指南(转)
  4. 怎么选择靠谱的IP地理位置定位产品?
  5. 调用COM控件的时候(例如访问数据库)出现类型不匹配。
  6. 软件“生命”系统进化论——软件以负熵为生
  7. Android 监控APP是否在后台运行
  8. Python入门学习小记:100以内素数/质数之和
  9. VScode常用的快捷键
  10. sql 纵向求和_SQL求和