点击“开发者技术前线”,选择“星标?”

13:21 在看|星标|留言,  真爱

编辑: 可可| 本文作者:躲猫猫的猫,

原文链接:https://www.cnblogs.com/zhaww/p/9636383.html

大家好,希望各位能怀着正直、严谨、专业的心态观看这篇文章。ヾ(๑╹◡╹)ノ"

上次一个人单身,我为了买娃娃,我爬了充气娃娃的数据:充气娃娃什么感觉?Python 告诉你!,老天真的对我不薄,让我终于有了女友,自从有了女友后,我为了能替女朋友买上一件心怡的内衣。我接下来我们尝试用 Python 抓取天猫内衣销售数据,并分析得到中国女性普遍的罩杯数据、最受欢迎的内衣颜色是什么、评论的关键字。我们先看看分析得到的成果是怎样的?(讲的很详细,推荐跟着敲一遍)
  

(买个内衣这么开心)

图片看不清楚的话,可以把图片单独拉到另一个窗口。这里是分析了一万条数据得出的结论,可能会有误差,但是还是希望单身的你们能找到 0.06% 那一批妹纸。下面我会详细介绍怎么抓取天猫内衣销售数据,存储、分析、展示。

  • 研究天猫网站

  • 抓取天猫评论数据

  • 存储、分析数据

  • 可视化

研究天猫网站

我们随意进入一个商品的购买界面(能看到评论的那个界面),F12 开发者模式 -- Network 栏 -- 刷新下界面 -- 在如图的位置搜索 list_ 会看到一个 list_detail_rate.htm?itemId= ….

如下图:【单击】这个url 能看到返回的是一个 Json 数据 ,检查一下你会发现这串 Json 就是商品的评论数据 ['rateDetail']['rateList']

【双击】这个url 你会得到一个新界面,如图

看一下这个信息

这里的路径 就是获取评论数据的 url了。这个 URL 有很多参数你可以分析一下每个值都是干嘛的。

itemId 对应的是商品id, sellerId  对应的是店铺id,currentPage 是当前页。这里 sellerId  可以填任意值,不影响数据的获取。

抓取天猫评论数据

写一个抓取天猫评论数据的方法。getCommentDetail

这里需要注意的是 jsonp128 这个值需要你自己看一下,你那边跟我这个应该是不同的。

在上面的方法里有两个变量,itemId 和 currentPage 这两个值我们动态来控制,所以我们需要获得 一批 商品id号 和 评论的最大页数 用来遍历。

写个获取商品评论最大页数的方法 getLastPage

那现在怎么获取 产品的id 列表呢?我们可以在天猫中搜索商品关键字 用开发者模式观察

这里观察一下这个页面的元素分布,很容易就发现了 商品的id 信息,当然你可以想办法确认一下。

现在就写个 获取商品id 的方法 getProductIdList

现在所有的基本要求都有了,是时候把他们组合起来。

在 main 方法中写剩下的组装部分

所有的代码就这样完成了,我现在把 common.py 的代码,还有 tmallbra.py 的代码都贴出来

上面需要注意,数据库的配置。

存储、分析数据

所有的代码都有了,就差数据库的建立了。我这里用的是 MySql 数据库。

更多爬虫:

用 Python 薅羊毛,每天早餐有着落了!

Python爬虫:现学现用xpath爬取豆瓣音乐

Python爬完数据后,我终于买车不用坐引擎盖哭啦

用 Python 来找合适的妹子

这里有两个地方需要注意, comment 评论字段需要设置编码格式为 utf8mb4  ,因为可能有表情文字。还有表需要设置为 utf8 编码,不然存不了中文。

建好了表,就可以完整执行代码了。(这里的执行可能需要点时间,可以做成多线程的方式)。看一下执行完之后,数据库有没有数据。

数据是有了,但是有些我们多余的文字描述,我们可以稍微整理一下。

这里需要根据自己实际情况来修改。如果数据整理的差不多了,我们可以分析一下数据库的信息。

 

  (想知道是哪6位小姐姐买的 G       (~ ̄▽ ̄)~ )

数据可视化

数据的展示,我用了是 mycharts 模块,如果不了解的可以去学习一下http://pyecharts.org/#/zh-cn/prepare

这里我就不细说了,直接贴代码看

这一章就到这里了,该知道的你也知道了,不该知道的你也知道了。

哪些人是G杯,哪些妹子是A杯,以后找对象就不用担心这块的了。

代码已放到github, 后台回复“内衣”暗号,获取全部源码。

---END---

选择”开发者技术前线 “星标?,内容一触即达。点击原文更多惊喜!

开发者技术前线 汇集技术前线快讯和关注行业趋势,大厂干货,是开发者经历和成长的优秀指南。

历史推荐

多国 GitHub 开源项目遭封锁,GitHub CEO 正式回应来了!

充气娃娃什么感觉?Python 告诉你!

为什么我推荐你用 Ubuntu 开发?

点个在看,解锁更多惊喜!

为了给小女友挑合适罩杯的内衣,我用 Python 爬了淘宝内衣店的数据!相关推荐

  1. 为了给女友挑合适的内衣,我用 Python 爬了天猫内衣店的数据

    接下来我们尝试用 Python 抓取天猫内衣销售数据,并分析得到中国女性普遍的罩杯数据.最受欢迎的内衣颜色是什么.评论的关键字.希望看完之后你能替你女朋友买上一件心怡的内衣.我们先看看分析得到的成果是 ...

  2. 为了给女友挑合适的内衣,我用 Python 爬了天猫内衣店的数据!

    接下来我们尝试用 Python 抓取天猫内衣销售数据,并分析得到中国女性普遍的罩杯数据.最受欢迎的内衣颜色是什么.评论的关键字.希望看完之后你能替你女朋友买上一件心怡的内衣.我们先看看分析得到的成果是 ...

  3. 国庆小长假来点不一样的,如何用Python爬取了全国近5000家旅游景点,一起来看

    2020 国庆马上就要到了 我想今年大家在家都憋坏了 今年国庆和中秋刚好又是同一天,加起来有 8 天假 这么长的假期,当然是出去 玩玩玩! 但是每次长假期间,你有没有想起被人山人海支配的恐惧呢? 那么 ...

  4. python开发跟淘宝有关联微_为什么微商和淘宝卖家不得不做公众号和小程序?

    文/王爷 整理/叨叨 最近一个月,微信方面的动作比较多,尤其是有关微信小程序方面的动态,起码更新了4次.或许很多人还不知道什么是微信小程序,简单来说就是一个无需安装.即用即走的生长在微信上的一个应用. ...

  5. 3每天Python小例-爬取淘宝网页商品

    代码是从https://github.com/gxcuizy/Python/tree/master/%E4%BB%8E%E9%9B%B6%E5%AD%A6Python-%E6%8E%98%E9%87% ...

  6. 为了给七夕的女盆友挑合适的内衣,我用Python爬了网易严选的内衣店的数据!

    为了给心爱的女盆友选一套surprise我 用python把网易优选小姐姐文胸看了个遍 这一切的的目的只是因为我爱女盆友&&爱学习~~~ 需求分析 我们的目标是爬取网易小姐姐2000+ ...

  7. 制作生鲜小程序 迷你生鲜小程序 生鲜商城 平邑做淘宝网店详情页

    生鲜小程序可以利用多样化营销工具 预约 在小程序下单后,顾客可以选择送货上门,也可以到店自提,同时支持预约时间,在公司里下个单,下班回家顺路自提成为很多周边小区白领的选择. 定制 无需削切的鲜果切是年 ...

  8. Python爬取2万条相亲网站数据!看看中国单身男女都在挑什么!

    想必昨天的七夕节,一定是有人欢喜有人忧的一天,朋友圈里的晒照惹恼了我的一个程序员朋友,在昨晚怒爬2万条相亲网站数据,做了一次相亲男女画像! 话不多说,我们今天就以"世纪佳缘"这个相 ...

  9. 微信小程序demo:汇汇生活:电商模板,仿淘宝密码输入框

    点评:整体为模板,并非完整实现了功能: 项目地址及下载: 本帖隐藏的内容 https://github.com/e7no/huihui  huihui-master.zip http://www.wx ...

最新文章

  1. Linux_系统进程管理
  2. cview类 public_在MFC单文档的View类中,如何获得指向状态栏的指针
  3. 2021下信息系统项目管理师真题及答案解析
  4. 计算机如何读懂“人话”?五分钟了解文本挖掘那些事儿
  5. Bengio、周志华、山世光、包云岗等200+位AI学术领袖邀你观看智源大会精彩论坛...
  6. 全国计算机等级考试题库二级C操作题100套(第44套)
  7. [jQuery] jQuery中如何将数组转化为json字符串,然后再转化回来?
  8. priority_queue 优先队列
  9. JAVA 字符串格式化-String.format()的使用(转)
  10. Android核心分析 之二方法论探讨之概念空间篇
  11. 离散数学思维导图笔记
  12. 归并排序时间复杂度为什么是NlgN
  13. JS学习——贪吃蛇代码(简易版)
  14. 【深度学习】眼底图像之视盘和黄斑分割的探索
  15. php文件断点上传文件,php大文件上传支持断点上传
  16. 顶级程序员常用的 14 个开源框架,YYDS!
  17. mysql 存储过程中 if else的使用 和赋值方式
  18. 非易失性NV-SRAM简介
  19. Win10远程桌面连接不上Win7的桌面的一次奇葩经历
  20. 根据实测高程值校正DSM高程

热门文章

  1. Linux 6.2 系列生命周期已结束
  2. MapReduce序列化之统计各部门员工薪资总和
  3. 用Python求两条线段的交点,包括延长线的交点
  4. 【图像分割】基于Kmean聚类 分水岭、oust、粒子群算法优化脂肪肝图像分割附matlab代码
  5. 打造顾客喜爱的网络 武汉美容院选择飞鱼星无线
  6. redhat6+dm7数据库单机安装步骤
  7. 源支付3.1版本全开源版+店员监控软件+监控APP源码
  8. 使用Sklearn学习朴素贝叶斯算法
  9. 机器学习之重点汇总系列(二)——K近邻算法(k-Nearest Neighbor,kNN)
  10. flutter 应用 抓包