下载好向圈APP可以快速联系圈友

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

项目内容

本案例选择>> 商品类目:沙发;

数量:共100页 4400个商品;

筛选条件:天猫、销量从高到低、价格500元以上。

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s1.png (39.56 KB, 下载次数: 0)

2020-11-9 23:57 上传

项目目的

1. 对商品标题进行文本分析 词云可视化

2. 不同关键词word对应的sales的统计分析

3. 商品的价格分布情况分析

4. 商品的销量分布情况分析

5. 不同价格区间的商品的平均销量分布

6. 商品价格对销量的影响分析

7. 商品价格对销售额的影响分析

8. 不同省份或城市的商品数量分布

9.不同省份的商品平均销量分布

注:本项目仅以以上几项分析为例。

项目步骤

1. 数据采集:Python爬取淘宝网商品数据

2. 对数据进行清洗和处理

3. 文本分析:jieba分词、wordcloud可视化

4. 数据柱形图可视化 barh

5. 数据直方图可视化 hist

6. 数据散点图可视化 scatter

7. 数据回归分析可视化 regplot

工具&模块:

工具:本案例代码编辑工具 Anaconda的Spyder

模块:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。

原代码和相关文档后台回复“淘宝”下载

一、爬取数据

因淘宝网是反爬虫的,虽然使用多线程、修改headers参数,但仍然不能保证每次100%爬取,所以 我增加了循环爬取,每次循环爬取未爬取成功的页 直至所有页爬取成功停止。

说明:淘宝商品页为JSON格式 这里使用正则表达式进行解析;

代码如下:

二、数据清洗、处理:

(此步骤也可以在Excel中完成 再读入数据)

代码如下:

说明:根据需求,本案例中只取了 item_loc, raw_title, view_price, view_sales 这4列数据,主要对 标题、区域、价格、销量 进行分析。

代码如下:

三、数据挖掘与分析:

【1】. 对 raw_title 列标题进行文本分析:

使用结巴分词器,安装模块pip install jieba

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s2.png (25.68 KB, 下载次数: 0)

2020-11-9 23:57 上传

对 title_s(list of list 格式)中的每个list的元素(str)进行过滤 剔除不需要的词语,即 把停用词表stopwords中有的词语都剔除掉:

因为下面要统计每个词语的个数,所以 为了准确性 这里对过滤后的数据 title_clean 中的每个list的元素进行去重,即 每个标题被分割后的词语唯一。

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s3.png (55.45 KB, 下载次数: 0)

2020-11-9 23:57 上传

观察 word_count 表中的词语,发现jieba默认的词典 无法满足需求:

有的词语(如 可拆洗、不可拆洗等)却被cut,这里根据需求对词典加入新词(也可以直接在词典dict.txt里面增删,然后载入修改过的dict.txt)

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s4.png (34.1 KB, 下载次数: 0)

2020-11-9 23:57 上传

词云可视化:

安装模块 wordcloud:

方法1: pip install wordcloud

方法2: 下载Packages安装:pip install 软件包名称

软件包下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

注意:要把下载的软件包放在Python安装路径下。

代码如下:

分析结论:

1. 组合、整装商品占比很高;

2. 从沙发材质看:布艺沙发占比很高,比皮艺沙发多;

3. 从沙发风格看:简约风格最多,北欧风次之,其他风格排名依次是美式、中式、日式、法式 等;

4. 从户型看:小户型占比最高、大小户型次之,大户型最少。

【2】. 不同关键词word对应的sales之和的统计分析:

(说明:例如 词语 ‘简约’,则统计商品标题中含有‘简约’一词的商品的销量之和,即求出具有‘简约’风格的商品销量之和)

代码如下:

对表df_word_sum 中的 word 和 w_s_sum 两列数据进行可视化

(本例中取销量排名前30的词语进行绘图)

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s5.png (61.68 KB, 下载次数: 0)

2020-11-9 23:57 上传

由图表可知:

1. 组合商品销量最高 ;

2. 从品类看:布艺沙发销量很高,远超过皮艺沙发;

3. 从户型看:小户型沙发销量最高,大小户型次之,大户型销量最少;

4. 从风格看:简约风销量最高,北欧风次之,其他依次是中式、美式、日式等;

5. 可拆洗、转角类沙发销量可观,也是颇受消费者青睐的。

【3】. 商品的价格分布情况分析:

分析发现,有一些值太大,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于20000的商品。

代码如下:

由图表可知:

1. 商品数量随着价格总体呈现下降阶梯形势,价格越高,在售的商品越少;

2. 低价位商品居多,价格在500-1500之间的商品最多,1500-3000之间的次之,价格1万以上的商品较少;

3. 价格1万元以上的商品,在售商品数量差异不大。

【4】. 商品的销量分布情况分析:

同样,为了使可视化效果更加直观,这里我们选择销量大于100的商品。

代码如下:

由图表及数据可知:

1. 销量100以上的商品仅占3.4% ,其中销量100-200之间的商品最多,200-300之间的次之;

2. 销量100-500之间,商品的数量随着销量呈现下降趋势,且趋势陡峭,低销量商品居多;

3. 销量500以上的商品很少。

【5】. 不同价格区间的商品的平均销量分布:

代码如下:

由图表可知:

1. 价格在1331-1680之间的商品平均销量最高,951-1331之间的次之,9684元以上的最低;

2. 总体呈现先增后减的趋势,但最高峰处于相对低价位阶段;

3. 说明广大消费者对购买沙发的需求更多处于低价位阶段,在1680元以上 价位越高 平均销量基本是越少。

【6】. 商品价格对销量的影响分析:

同上,为了使可视化效果更加直观,这里我们结合自身产品情况,选择价格小于20000的商品。

代码如下:

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s6.png (26.53 KB, 下载次数: 0)

2020-11-9 23:57 上传

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s7.png (20.8 KB, 下载次数: 0)

2020-11-9 23:57 上传

由图表可知:

1. 总体趋势:随着商品价格增多 其销量减少,商品价格对其销量影响很大;

2. 价格500-2500之间的少数商品销量冲的很高,价格2500-5000之间的商品多数销量偏低,少数相对较高,但价格5000以上的商品销量均很低 没有销量突出的商品。

【7】. 商品价格对销售额的影响分析:

代码如下:

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s8.png (19 KB, 下载次数: 0)

2020-11-9 23:57 上传

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s9.png (24.94 KB, 下载次数: 0)

2020-11-9 23:57 上传

由图表可知:

1. 总体趋势:由线性回归拟合线可以看出,商品销售额随着价格增长呈现上升趋势;

2. 多数商品的价格偏低,销售额也偏低;

3. 价格在0-20000的商品只有少数销售额较高,价格2万-6万的商品只有3个销售额较高,价格6-10万的商品有1个销售额很高,而且是最大值。

【8】. 不同省份的商品数量分布:

代码如下:

由图表可知:

1. 广东的最多,上海次之,江苏第三,尤其是广东的数量远超过江苏、浙江、上海等地,说明在沙发这个子类目,广东的店铺占主导地位;

2. 江浙沪等地的数量差异不大,基本相当。

【9】. 不同省份的商品平均销量分布:

代码如下:

利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程s10.png (14.71 KB, 下载次数: 0)

2020-11-9 23:57 上传

热力型地图

http://www.aibbt.com/a/18575.html

本文收集于网络,如若侵犯您的权利请联系删除

利用python做淘宝_利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程...相关推荐

  1. python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么

    在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...

  2. 使用python爬虫——爬取淘宝图片和知乎内容

    本文主要内容: 目标:使用python爬取淘宝图片:使用python的一个开源框架pyspider(非常好用,一个国人写的)爬取知乎上的每个问题,及这个问题下的所有评论 最简单的爬虫--如下pytho ...

  3. 网络爬虫爬取淘宝页面商品信息

    网络爬虫爬取淘宝页面商品信息 最近在MOOC上看嵩老师的网络爬虫课程,按照老师的写法并不能进行爬取,遇到了一个问题,就是关于如何"绕开"淘宝登录界面,正确的爬取相关信息.通过百度找 ...

  4. 利用Python爬虫爬取淘宝商品做数据挖掘分析实战篇,超详细教程

    项目内容 本案例选择>> 商品类目:沙发: 数量:共100页  4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...

  5. python词云代码手机_【云计算】爬取淘宝手机品牌词云分析(python)

    本文主要向大家介绍了[云计算]爬取淘宝手机品牌词云分析(python),通过具体的内容向大家展现,希望对大家学习云计算有所帮助. 淘宝手机信息的爬取,请看这边博客(点击这里),然后我们利用其中保存的文 ...

  6. 爬虫「Python」:一次登录,解决爬取淘宝商品评价繁杂的问题——简述 Headers 的使用

    在爬取淘宝商品评价时,可能会被以下几个问题所困扰: (1)直接请求,服务器要求登录帐号,怎么登录? (2)请求到的网页 Html 怎么没有我要的评价信息? (3)等等 下面介绍一下我使用的比较简单的获 ...

  7. python不登陆爬取淘宝数据_python登录并爬取淘宝信息代码示例

    本文主要分享关于python登录并爬取淘宝信息的相关代码,还是挺不错的,大家可以了解下. #!/usr/bin/env python # -*- coding:utf-8 -*- from selen ...

  8. python淘宝爬虫_python爬虫爬取淘宝商品信息

    本文实例为大家分享了python爬取淘宝商品的具体代码,供大家参考,具体内容如下 import requests as req import re def getHTMLText(url): try: ...

  9. python爬虫——爬取淘票票正在热映电影

    今天正好学习了一下python的爬虫,觉得收获蛮大的,所以写一篇博客帮助想学习爬虫的伙伴们. 这里我就以一个简单地爬取淘票票正在热映电影为例,介绍一下一个爬虫的完整流程. 首先,话不多说,上干货--源 ...

  10. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

最新文章

  1. 烦死调参数-想设计一个自动调参机制
  2. Java基础之参数传递
  3. .NET下使用HTTP请求的正确姿势
  4. java笔试题递归,递归(网上搜的一些笔试题)
  5. request.get... getHeader 能取得的信息 参数
  6. matlab下pid控制仿真,利用Matlab实现PID控制仿真
  7. 2015-2020年各类国际会议与期刊基于图像的三维对象重建论文综述(3)——Volumetric decoding
  8. 衡量神经网络的三个指标,参数量,multi-add,flop计算力
  9. 清华大学操作系统OS学习(十二)——信号量与管程
  10. Trello:轻量级团队流程协作和列表管理平台[转自http://www.36kr.com/p/46852.html]
  11. 修改Linux窗口大小
  12. java 前端ui框架_5 个优秀前端 UI 框架
  13. 高层次综合综述:FPGA HLS Today Successes, Challenges, and Opportunities
  14. gunicorn 安装部署详解
  15. rsync同步+inotify实时同步部署
  16. 电脑开机只显示计算机界面,笔记本电脑进不了桌面?开机只显示BIOS界面?
  17. sql语句执行效率测试的sql语句。
  18. Python3.4图片转换素描
  19. 华为校招2016.09机试 第2题: 字符串查找
  20. 微信小程序入门开发视频教程

热门文章

  1. 计算机二级ms高级应用考试内容,计算机二级《MSOffice》高级应用考试大纲
  2. linux安装五笔输入法centos,CentOS 7系统怎么安装极点五笔输入法?
  3. 2020-10-20 Java基础_定义和语法
  4. 最小二乘法计算CCM
  5. Unity 外部资源无法拖入Unity
  6. LDAP认证-ldap搭建
  7. mac苹果画图软件_苹果Mac绘图软件 OmniGraffle for Mac v7.15.1 中文免费版
  8. MySQL数据库基本操作指令
  9. python excel公式计算_excel公式函数
  10. python 微信开发库_WeRoBot 是一个微信公众号开发框架