做生意,从某种程度上讲,绝大部分的生意其实打的是一个信息差异化。掌握信息数据快的,赚取信息数据慢的钱; 掌握信息全的,赚取掌握信息寡的钱…所谓的大数据比较以前的市场研究方法,更多就体现在大而全,可以更加全面地真实地了解市场的全貌,可以更加清楚地认识消费者的画像和商品之间的联系,从而更快更精准满足市场的需求。这也是阿里视数据如瑰宝的一个重要原因。

然而,作为小商家或个人,在无法掌握大数据的情况下,如何尽可能地在能力范围内,利用工具掌握互联网的“大数据“呢。以下是我之前做一个实操项目,总结一下分享出来,以飨读者。

项目的背景是,某品牌想要创立线下快销连锁店,前期想了解市场需要知道的几个问题,1)要卖什么品类产品呢,什么的产品卖得好,2)各个品类的产品能卖到什么样的情况,3)产品长什么样子。

一、品类的划分

首先,有一个方向,列出了如下几个大类:男鞋、女鞋、男包、女包、男服饰配件、女服饰配件、数码配件、家居百货、美容护理、女装、男装; 每个大类里又有中类和小类。具体的部分结构类似下图:

数据来源:国内快销品线上数据,淘宝平台上的数据已经很有代表性,所以线上数据来源以淘宝的数据为准。最终目标数据为销量、价格和主图。

二、数据的获取

淘宝上的数据并没有公开的品类销量数据,只能看到各品类下的具体宝贝的30天内的销量和数据。

思路:如果把每一个小品类的所有宝贝的销量、价格抓取下来,然后再加总不就是这个品类的总销售额了么。

经过一番观察,发现基本上每一个小品类下销量绝大部分是集中在top6000(最多也只展示6000个)的商品中,如此一来,得出一结论,每个品类无需全部抓取只需要抓取它的前6000的商品数据即可。

但,尽管如此,这个都有很大的数据量,算了一下6000*450=270万,一共需要抓取270万商品的销量,价格和主图。想想数据量还是有点大的,如果仅是有人工那基本上不可能,只能利用一些自动化工具了。

最终还是决定用网络爬虫技术的方式来抓取,网上搜了一番,基本上锁定易数云爬虫工具来弄。不用编程,配置下抓取的规则就可以搞定,剩下的就只是抓取了,否则还要再去学习编程再来弄,累都累死了,还不一定保证能学得会。

上了爬虫之后,一切顺利,抓下来的数据,还是很壮观的,270万的数据,excel是别想了,基本上放不下,放得下也打不开,打得开也别想再做什么其他分析了。

抓取下来的数据,大概如下:

这么大的量的数据,只能存在数据库,这里用的是mysql。

三、数据整理及计算

接下来就是对这270万的数据进行汇总和计算了。这里用了python连接数据库,用基本的select语句进行汇总即可。汇总出来的数据如下:

四、展示

数据出来了,再加上饼图那就可以分析出市场占有率了,这里分成大类,中类和小类,用一个excel的VBA宏,写了一个可视化工具,基本上就可以很直接地了解各类的市场占场占有率了。

大类的展示

中类的展示

小类因为比较多,所以用一个下列单的功能来实现切换。

五、未来计划

做成实时的数据抓取和监控网页,可视化感知市场变化,亦可做单品爆款的实时追踪。

因为当前的这个一个静态的数据,只是某一个时间点的数据,未来可以结合爬虫做实时的抓取,同时做H5展示页面,可进行动态可视化的实时追踪。另外一个,如果是要追踪竞品或爆款的追踪,这个思路也是完全可行了。可惜爬虫这块不知易数云可不可以嵌入到服务器中去做连续的抓取就不太清楚了,可以去留言了解下。

链接:http://cloud.yisurvey.com:9081//html/37be8794-b79e-4511-9d0a-81f082bac606.html

注:本文为原创,如非作者允许不得转载。

各品类市场占有率——通过互联网大数据了解各品类的市场占有率相关推荐

  1. 物联网、工业互联网大数据的特点

    物联网.工业互联网大数据的特点 随着数据通讯成本的急剧下降,以及各种传感技术和智能设备的出现,从手环.共享出行.智能电表.环境监测设备到电梯.数控机床.挖掘机.工业生产线等都在源源不断的产生海量的实时 ...

  2. 木瓜移动每日资讯0531:美的集团自研的互联网大数据产品“观星台”诞生

    ❄ 出海相关: 全球移动通信系统协会GSMA宣布,中国荣耀终端有限公司(以下简称"荣耀")正式加入GSMA,成为其企业成员单位(Associate Member),与全球行业伙伴一 ...

  3. 互联网大数据在工业七大应用解析

    在工业企业中,生产线处于高速运行状态,工业设备产生.采集和处理的数据量远远大于企业计算机和人工生成的数据,其中大部分是数据类型中的非结构化数据,生产线的高速运行也需要更高的实时数据,因此,工业大数据所 ...

  4. 清华大学软件学院院长王建民:以数字基建为契机,加强工业互联网大数据软件建设...

    来源:中国电子报 作者:清华大学软件学院院长王建民 本文约3250字,建议阅读5分钟 工业互联网大数据软件基础设施建设对工业领域激活大数据资产.导入智能化技术具有重大基础支撑作用. 编者按:3月4日, ...

  5. 互联网和大数据是什么意思_何为互联网大数据?为什么每个人在数据的面前,相当于一丝不挂?...

    何为互联网大数据?大数据背后核心迷局是什么?那通过下面一段对话,您可能就明白了. --必胜客店的电话铃响了.客服拿起电话: 客服:您好! 请问有什么需要我为您服务? 顾客:你好! 我想要一份-- 客服 ...

  6. “新基建”提速,工业互联网大数据发展迎新机遇

    云栖号资讯:[点击查看更多行业资讯] 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 近期,中央政治局密集召开会议研究新冠肺炎疫情防控工作,部署统筹做好疫情防控和经济社会发展工作, 5 ...

  7. 物联网、车联网、工业互联网大数据平台,为什么推荐使用TDengine?

    物联网.车联网.工业互联网大数据平台,为什么推荐使用TDengine? 大数据有很多处理工具,最流行的当属Hadoop系统.Hadoop生态包括HDFS, HBase, Hive, YARN, Sto ...

  8. 用爬虫分析互联网大数据行业薪资情况

    前言: 随着互联网大数据行业的日渐兴盛,越来越多的人投身其中,也有很多的朋友对此有着浓厚的兴趣,想要投身其中.从本期开始我们将分四期带大家走进互联网大数据行业,分别了解数据挖掘&机器学习.数据 ...

  9. KubeEdge在国家工业互联网大数据中心的架构设计与应用

    摘要:在18年的时候,工信部开展了一个叫国家创新发展工程,这个工程中提出了要建立一个国家工业大数据中心,中国移动在其中承担了边缘协同与数据采集相关功能的研发.本文将从该项目背景下面临的问题与挑战.技术 ...

最新文章

  1. 上海将打造“泛在化、融合化、智敏化”智慧城市
  2. Mybatis解决实体类属性和表字段对应不上
  3. Vuex新手的理解与使用
  4. TensorFlow MNIST LeNet 模型持久化
  5. mysql db 复制_MySQL管理工具MySQL Utilities — mysqldbcopy(6)
  6. SilverLight 4页面跳转大全(转载)
  7. 一个表单验证引发的深思!!!
  8. nm命令中符号类型详解
  9. c语言程序设计报告调试分析,C语言程序设计情况分析报告资料.doc
  10. MySQL主从复制-基于GTID及多线程的复制
  11. 逃逸分析、栈上分配、标量替换、同步消除、锁消除
  12. stm8L 触摸库使用教程 一步一步
  13. 基于SSM的图书借阅管理系统的分析与设计(源码+文档+PPT)
  14. Google Earth影像数据破解之旅
  15. 国际标准智商测试题答案
  16. 10个程序员实用但偏执的 Java 编程技巧
  17. 考研、考公还是找工作?别在大学因为迷茫这个问题浪费时间了
  18. .NET MVC 后台接受base64的上传图片
  19. office 高效办公智慧树_智慧树知到《OFFICE高效办公》见面课答案
  20. 2021年网络安全十大发展趋势预测

热门文章

  1. C#调用12306API做余票查询
  2. java csv 复杂表头_java读csv 和excel
  3. 在参考了众多博客之后,我写出了多达三万字的HashMap源码分析,比我本科毕业论文都要精彩
  4. 爬豆瓣正在热映和即将上映电影信息
  5. 为何我工作十年,内心仍无比恐慌(腾讯产品总监曹菲)
  6. 全国计算机竞赛能保送清华北大吗,NOIP考试是什么?能保送清华北大是真的吗?...
  7. youtobe和youtobeGo在不同国家码下的预置
  8. 什么是电源域(power domain)
  9. 微型四轴DIY机架,轻巧稳固耐摔,通用720空心杯电机,9厘米轴距
  10. 一幅图认识开源世界的大咖