最近我一在杭州做外贸生意的老表让我给他推荐一辆车,自己的宝来开了5年多,感觉不香了,这次要我给他从BBA中选一个,落地35万以内落地。我想这做生意稳重一点,35万以内差不多就是奔驰C,宝马3和奥迪A4中选了。至于选哪一个就很头疼了。

我们知道每辆车都有它的特点和受众群体,特别是对于这种有上百年品牌积淀的BBA。奔驰的高逼格,宝马的驾驶感,奥迪的科技感等,但是这些特点不一定是你买它的理由。

每辆车肯定都有缺点,如果这些缺点你无法忍受,那一定是你不买的理由。与其打破脑袋做选择题,不如换个思维方式,用排除法,做“不选”题。

按照这个思路,我就想着怎么样把这三个车的问题搜集出来,对比看看哪个更加无法接受。最后在做出选择。思路有了,问题就有了解决方案了:

  • 搜集各个车型的问题
  • 搜集完后做数据清洗聚合
  • 问题点生成词云对比,更具有视觉效果

好了,说干就干。第一步,问题搜集。要搜集问题,自然要找投诉网站。有个12365车质网就是让用户上报投诉信息的,我们也可以按照车型搜索投诉信息,如图:

  • 按车型搜索投诉信息

  • 搜索后,得到详细的投诉信息列表,很全很强大!

我们只要把这些信息写个爬虫爬下来就可以了。这个简单。按照我们之前写过的爬虫,5分钟,总共不超过20行代码,就把这些数据拿下了。没办法,python爬虫就是这么强大!特别是对于这种第三方机构的网页,基本上没有什么反爬虫措施。爬取后的数据如下,大概10000条:

每一行为一个投诉,每个投诉有车型车款投诉信息和投诉日期等字段,完全够用了。

原材料有了,接下来就开始做菜了。按照需求:“分析每个车型的主要缺点,看看哪个更加无法接受”来搭建数据分析的指标和方法。

我的思路:第一,总体观:先看看哪个车型故障比较多 第二,细化到每个车型在看看每个车型的主要问题

总体分析简单,直接用pandas聚合,看看每个车型的投诉总数和占比:

可视化:

Oh, yeah!做之前我还对奥迪A4抱有一丝希望,没想到这丫竟然独占60%的投诉量!比另外两个加在一起还多。我在想这个是不是和销量相关呢?可能是因为销量多,所以投诉多?那好,把销量数据拿出来。

这里有一家网站,车主之家,可以按照车型查找到每个月的销量:

同样的,我们用爬虫爬取了2009-2019共11年三个品牌的销量数据:

OK,把这个数据和投诉数据放到一起:

销量可视化:

我靠,这下死的明白了!

  1. 宝马11年共卖了近140万辆3系,在三者中最高,但是投诉数量却是最少,从数据上看似乎质量比另外两个可靠。
  2. 奥迪A4在销量方面比宝马3系稍逊一筹,超过120万辆,但是投诉数量确是宝马4倍左右
  3. 奔驰的销量和两外两兄弟不在一个级别上,但其实投诉也不少。

我们再来看一下按月份销量走势图:

  1. 2009-2015,宝马3系的历年销量都是最高,但是2015年之后不知道发生了什么,这种优越感荡然无存。特别是2019年下半年开始,销量大幅下滑,现在处于稳步复苏阶段。
  2. 2009-2014,奔驰C级存在感一直非常低,月销量大部分时候不到5000。从2014年3月份开始,产品开始发力,一直到现在都是一个稳步上升趋势。估计是哪个时间点产品换代。
  3. 最近几年(2015-2019),三个车型的销量非常接近,竞争越来越激烈。

再来看一下按照月份的投诉量统计:

  • 基本上每个月奥迪的投诉总量都是最高,宝马最低
  • 但是要看到宝马和奔驰的投诉数量近几年有增长的趋势
  • 奥迪在2015年前后和2017-2019年有个投诉集中爆发的阶段,其实如果把这些非常高的离群点处理掉,奥迪投诉量没有那么夸张。

综上,从整体数据来看:

  1. 宝马3系的投诉总量最低,而且是在销量最高的前提下。但是要看到宝马3系的黄金时期是在2009-2015年间。销量大幅领先且投诉少。最近几年投诉量有上升趋势。
  2. 奔驰随着产量销量的上升,投诉量也在增长。
  3. 从数据上来看,最不推荐的是奥迪A4,投诉量一直居高不下。

但是:

第一,这只是一家网站的数据,是否全面需要商榷; 第二,每个品牌的车主是否都有上网投诉的习惯,这个也是未知。后期打算做一个各个品牌车主的人物画像在深入分析。

这里在此强调以上只是通过数据就事论事。

第二步:各个品牌的缺点画像。

这里的内容主要是用jieba分词来对统计投诉问题做词频统计,之后利用词云工具来展示。因为python有这些第三方库,做这些事情无比简单。别人做好了工具直接调用即可。

首先先看一下总体的情况:

1. 发动机和变速箱作为车里面性能最关键的两个大件,在投诉方面也毫不示弱。变速箱异常、发动机异响很能吸引眼球。

2. 车内异味问题也是广大消费者投诉的重点对象。

下面我们在分车型看一下:

按照字母顺序,奥迪先来:

异味烧机油问题突出。看来烧机油是大众的通病。我们在把词分的更细一点看看:

可以看到除了异响异味以外,防冻液和轮胎也很突出。

在看一下奔驰C:

对比奥迪,奔驰C发动机故障灯亮4S商家服务问题突出一点。细分在看一下可以看到提到比较多有故障灯,凸轮轴等

最后看一下宝马:

  1. 宝马和奥迪一样,都有严重的烧机油问题,但是宝马的似乎和气门机构有关系,这里漏油。
  2. 宝马车主还提到发动机控制模块故障和高速熄火问题,这个挺严重

综上:

1. 车内异味问题,在奥迪和奔驰上非常突出,在宝马上好一点

2. 烧机油现象在宝马和奥迪上比较普遍,在奔驰上投诉较少。而且在宝马上,很多投诉气门盖出漏油

3. 奔驰上除了通病以外,有发动机故障灯和4S店的问题。

有了这些问题,在怎么选择,就看个人了。

由于篇幅限制,本次分享到此结束。其实后面还可以进一步挖掘,比如每个投诉都有车款信息,可以在挖掘投诉是否和某个车款(高中低配)相关等。这个读者可以自行尝试了。

Python分析万条数据,告诉你奔驰宝马奥迪谁更垃圾相关推荐

  1. Python分析万条数据,告诉你奔驰宝马奥迪谁更垃圾!快来学Python!!

    我们知道每辆车都有它的特点和受众群体,特别是对于这种有上百年品牌积淀的BBA.奔驰的高逼格,宝马的驾驶感,奥迪的科技感等,但是这些特点不一定是你买它的理由. 每辆车肯定都有缺点,如果这些缺点你无法忍受 ...

  2. 8万条数据告诉你:跟着大股东和高管买他家股票,能赚钱吗?【邢不行|量化小讲堂系列60-实战篇】

    引言: 邢不行的系列帖子"量化小讲堂",通过实际案例教初学者使用python进行量化投资,了解行业研究方向,希望能对大家有帮助. [历史文章汇总]请点击此处 [必读文章]EOS期现 ...

  3. Python 分析 9 万条数据告诉你复仇者联盟谁才是绝对 C 位!

    <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即: 漫威宇宙,其实就讲了一件事情.整个宇宙就好比一个项目组.其中有一群叫作美国队长.钢铁侠.惊奇队长.浩克.索尔等人在维护 ...

  4. Python分析9万条数据告诉你复仇者联盟谁才是绝对C位

    作者 | 罗昭成 责编 | 唐小引 转载自CSDN(ID:CSDNnews) <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即: 漫威宇宙,其实就讲了一件事情.整个宇宙就 ...

  5. 复仇者联盟谁才是绝对 C 位?Python分析9万条数据告诉你答案

    作者 | 罗昭成 责编 | 唐小引 <复联 4>国内上映第十天,程序员的江湖里开始流传这样一个故事,即:漫威宇宙,其实就讲了一件事情.整个宇宙就好比一个项目组.其中有一群叫作美国队长.钢铁 ...

  6. Selenium爬取36万条数据告诉你:网易云音乐热评究竟有什么规律?

    网易云音乐火不火我不知道,可是评论很火,之前也见过不少的帖子抓取网易云音乐评论,今天咱们也来试试 这篇文章主要介绍了python selenium爬取网易云音乐热评,文中通过示例代码介绍的非常详细,对 ...

  7. 网易云音乐热评的规律,44万条数据告诉你

    网易云的每日推荐里藏着你听过的歌,你听过的歌里藏着你的故事. 网易云音乐的评论里,藏着许多人的故事. 我们爬取了网易云音乐中华语歌单中48400首歌的444054条热评,来看看网易云的热门评论里,有怎 ...

  8. 44 万条数据揭秘:如何成为网易云音乐评论区的网红段子手?

    作者 | 朱小五 责编 | 伍杏玲 有个段子讲"十年文案老司机,不如网易评论区,网易文豪遍地走,评论全部单身狗",网易云音乐的评论区也一直都是各类文案大神的聚集地. 那么我们普通用 ...

  9. 我们用Python分析了B站4万条数据评论,揭秘本山大叔《念诗之王》大热原因!...

    来源:恋习Python 本文约2000字,建议阅读10分钟. 我们通过Python大法通过获取B站:[春晚鬼畜]赵本山:我就是念诗之王!4万条数据评论,与大家一起看看其背后火起来的原因. 1990年本 ...

最新文章

  1. 深度丨解密Python为什么能够风靡全宇宙
  2. Vue开发跨端应用(五)cordova-ios运行问题
  3. 根号三的用计算机怎么表示,计算器根号3怎么打
  4. 多协程实例分析(一)
  5. DataGrid单击行时改变颜色
  6. java builder.parse_JAVA之DocumentBuilder生成解析XML
  7. meta标签的用处详解
  8. 华中地区高校第七届ACM程序设计大赛——之字形矩阵【2012年5月27日】
  9. android关于okhttp中对于onFailure回调的异常捕获
  10. yolov3从头实现(二)-- 数据增强
  11. 【连载】【STM32神舟III号实验例程】SysTick实验(11)
  12. 小米 秋招 笔试 编程题 句子反转
  13. 【数学建模笔记】对策论
  14. 神之意志是什么?他想要做什么?
  15. 一分钟看懂微信服务号和订阅号到底哪个好?
  16. 实验室安全 考试 题库
  17. 数理统计-方差标准差协方差相关系数
  18. 两数之和, 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那两个整数,并返回它们的数组下标。
  19. 小班计算机游戏教案,小班游戏教案
  20. ubuntu18.04虚拟机使用过程中存储空间爆满问题(.cache)

热门文章

  1. JAVA毕设项目智慧物业管理系统(java+VUE+Mybatis+Maven+Mysql)
  2. SPARTAN3 AN/XC3S50AN无法下载到内部flash的解决方案
  3. 如何实现移动端富文本编辑器功能
  4. 千里之行始于足下 开始篇
  5. Python 防止分母为零
  6. 学习总结和反思(第十周)
  7. 校内hu测(10.6T2,T3)(乱搞+贪心+模拟)
  8. oracle sql为null值,具有NULL值的Oracle SQL – max()
  9. 电脑桌面悬浮窗记事本_安卓悬浮窗便签记事本怎么添加?求安卓手机悬浮窗便签...
  10. #创新应用#Fotolr照片工坊:手机照片美化利器!