今天通过爬虫数据进行分析,一起来看看网易严选商品评论的获取和分析。

声明:这是一篇超级严肃的技术文章,请本着学习交流的态度阅读,谢谢!

网易商品评论爬取

分析网页

评论分析

进入到网易严选官网,搜索“文胸”后,先随便点进一个商品。

在商品页面,打开 Chrome 的控制台,切换至 Network 页,再把商品页面切换到评价标签下,选择一个评论文字,如“薄款、穿着舒适、满意”,在 Network 中搜索。

可以发现,评论文字是通过 listByItemByTag.json 传递过来的,点击进入该请求,并拷贝出该请求的 URL:

https://you.163.com/xhr/comment/listByItemByTag.json?csrf_token=060f4782bf9fda38128cfaeafb661f8c&__timestamp=1571106038283&itemId=1616018&tag=%E5%85%A8%E9%83%A8&size=20&page=1&orderBy=0&oldItemTag=%E5%85%A8%E9%83%A8&oldItemOrderBy=0&tagChanged=0

将该 URL 放入 Postman 中,逐个尝试 url query params,最后能够发现,只需保留 itemId 和 page 两个请求参数即可。

请求返回的是一个 JSON 格式的数据,下面就是分析该 JSON 数据了。

不难发现,所有的评论数据都存储在 commentList 中,我们只需保存该数据即可。

下面就是如何获取 itemId 的信息了,这个是产品的 ID,我们回到网易严选首页,继续分析。

产品 ID 获取

当我们在搜索框中输入关键字进行搜索的时候,同样能够发现在 Network 中有很多请求,此时可以观察各个请求,通过请求文件的名称(此处需要一些经验,守规矩的程序员都不会乱起名字),我们可以定位到搜索时展示搜索结果的请求。

搜索一般都是 search,所以我们就锁定了这个 search.json 的请求。同样把请求 URL 拷贝到 Postman 中,逐个验证传参,最后保留 page 和 keyword 两个参数即可。

该请求返回的数据较多,还是需要耐心的分析数据,也能够发现,在 result->data->directly->searcherResult->result 下面的 id 值,即为我们要获取的产品 ID。

以上,我们基本完成了前期的分析工作,下面开始代码的编写。

编写代码

获取产品 ID

def search_keyword(keyword):uri = 'https://you.163.com/xhr/search/search.json'query = {"keyword": keyword,"page": 1}try:res = requests.get(uri, params=query).json()result = res['data']['directly']['searcherResult']['result']product_id = []for r in result:product_id.append(r['id'])return product_idexcept:raise

我这里是获取了 page 为 1 的产品 ID,下面就是通过产品 ID 来获取不同产品下的评论信息。

通过前面的分析,我们可以知道,评论信息都是如下形式的,对这种形式的信息,我们可以很方便地存储进入 MongoDB,然后再慢慢分析数据里的内容。

{"skuInfo": ["颜色:肤色","杯码:75B"],"frontUserName": "1****8","frontUserAvatar": "https://yanxuan.nosdn.127.net/f8f20a77db47b8c66c531c14c8b38ee7.jpg","content": "质量好,穿着舒服","createTime": 1555546727635,"picList": ["https://yanxuan.nosdn.127.net/742f28186d805571e4b3f28faa412941.jpg"],"commentReplyVO": null,"memberLevel": 4,"appendCommentVO": null,"star": 5,"itemId": 1680205}

对于 MongoDB,我们既可以自己搭建,也可以使用网上免费的服务。在这里我介绍一个免费的 MongoDB 服务网站:mlab,使用很简单,就不过多介绍使用过程了。

数据库有了,下面就是把数据保存进去了。

def details(product_id):url = 'https://you.163.com/xhr/comment/listByItemByTag.json'try:C_list = []for i in range(1, 100):query = {"itemId": product_id,"page": i,}res = requests.get(url, params=query).json()if not res['data']['commentList']:breakprint("爬取第 %s 页评论" % i)commentList = res['data']['commentList']C_list.append(commentList)time.sleep(1)# save to mongoDBtry:mongo_collection.insert_many(commentList)except:continuereturn C_listexcept:raise

最后爬取完成之后,总共是七千多条数据,下面就可以根据个人需要做一些分析了。

爬取的数据 MongoDB 链接

conn = MongoClient("mongodb://%s:%s@ds149974.mlab.com:49974/you163" % ('you163', 'you163'))
db = conn.you163
mongo_collection = db.you163

商品评论数据分析

下面就到了激动人心的时刻了,一探妹子偏好!

偏好颜色

先来看看妹子们偏好的颜色

可以看出,黑色是遥遥领先的哦,这里你要做到心中有数!

再通过饼状图来观察下不同颜色的占比情况

尺寸分布

没有问题,75B 就是大多数妹子的尺寸了

如果你对这种罩杯尺寸没有研究的话,不要紧,贴心的我给你准备了对照表,拿走不谢

商品评论

最后我们再来看看妹子们对于商品的评价情况

就星级评价上来看,大多数都是五星好评,毕竟打着“严选”的名号,质量是必须有保证的。

再来看看在评论区,妹子最喜欢用什么词语来描述呢

舒服、很舒服,非常舒服;满意、很满意,非常满意。

用 Python 分析网易严选 Bra 销售信息,告诉你她们真实的 Size相关推荐

  1. 实例 | 分析38万条数据,用Python分析保险产品交叉销售和哪些因素有关

    公众号后台回复"图书",了解更多号主新书内容  CDA数据分析师 出品   作者:真达.Mika 数据:真达   [导读] 今天教大家用Python分析保险产品交叉销售和哪些因素有 ...

  2. Python 分析国庆热门旅游景点,告诉你哪些地方好玩、便宜、人又少!

    作者 | 裸睡的猪 责编 | 屠敏 2019年国庆马上就要到来, 今年来点新花样吧, 玩肯定是要去玩的, 不然怎么给祖国庆生? 那去哪里玩?人少档次还高呢? 咱不是程序员嘛, 那就用数据分析下, 看看 ...

  3. 使用Python分析网易云歌曲评论信息,通过可视化处理我发现了这些有趣的规律

    数据来源 首先是数据来源,来自网易云音乐热评,代码这里就不放出来了,调用了API获取的,抓取难度就少了许多,这里不在赘述了. 分析过程 时间处理 下面的代码主要是评论时间分布,主要是针对时间列做了数据 ...

  4. 使用Python分析网易云歌曲评论信息,我发现了这些有趣的规律

    前几天有个学生娃子找我帮忙做点可视化的作业,作业内容包括采集网易云音乐热评评论内容,数据量1W作业足够,然后就是做点数据分析相关的工作即可.这份大作业里边有网络爬虫,有数据分析和数据处理,还有可视化, ...

  5. python分析每月销售数据_CD销售数量分析(python)

    一.数据背景 数据集是某网站下载的CD商品的数据集合,本次使用Python+Jupyter Notebook对数据集进行数据分析.数据集 二.理解数据: 数据集是TXT格式,大约有7万条数据.包含用户 ...

  6. 用Python分析元旦旅游热门城市,告诉你哪些景点性价比更高

    元旦到了,难得的3天小长假,玩肯定是要去玩的,但去哪儿玩是个问题.于是,J哥以旅游热门城市厦门为例,用Python获取了去哪儿网的相关景点数据,包括景点名称.地区.评分.销量.价格.坐标等字段,对数据 ...

  7. python招聘工资_爱名:利用Python分析了3万个招聘结果,SEO真实工资大揭秘!

    前面几天我搜索SEO培训这个关键词,然后打开了一些做竞价推广的网站,上面写着SEO优化工资高达1万5一个月,十足把我吓了一跳.我在想中国的工资啥时候这么高了,当然,附子老师不给大家讲所谓的高薪,我们用 ...

  8. Python分析42年高考数据,告诉你高考为什么这么难?

    大数据文摘授权转载自数据森麟 作者:徐麟 对于已经工作的"上班族"来说,6月7号到9号三天无疑是兴奋到飞起的,终于迎来了令人愉悦的端午假期. 然而有那么一群人,将在端午节日之际迎来 ...

  9. 浅谈网易严选用户行为分析

    在一二级市场萎靡的大环境下,新消费品的商业模式需要从早期的 流量-转化-留存 中解放出来,转而更专注于服务体验产品价值.商品品质和服务体验做得好,才能带来长期价值,要优于通过烧钱拉新的方式扩大短期规模 ...

最新文章

  1. UIWebView内存泄露问题解决方法
  2. Android BaseAdapter和ViewHolder 优化 解决ListView的item抢焦点问题和item错乱问题
  3. Matlab吸附等温线怎么拟合,吸附等温线线模型拟合
  4. 使用rabbitMQ实现数据同步
  5. protobuf java基础
  6. dotNET Core 3.X 请求处理管道和中间件的理解
  7. Hive数据据类型 DDL DML
  8. 华三 h3c ppp配置
  9. SQL Server 存储(5/8):理解IAM 页
  10. 为什么要Code Review
  11. HFSS19 官方中文教程系列 L03
  12. 【老生谈算法】matlab人脸识别算法(PCA)——人脸识别
  13. springboot使用junit5/junit4
  14. 基于VC 6.0实现简单的微信打飞机
  15. c语言中的各种“零”
  16. 一个bug改了3个礼拜
  17. 测试三极管的口诀[转]
  18. HTTP协议详解+经典面试题
  19. 文献阅读报告:MutiPath: Multiple Probabilistic Anchor Trajectory Hypotheses for Behavior Prediction
  20. 【unity插件】Rewired插件-unity3d实现主机、PC手柄震动Vibration

热门文章

  1. 阿里云Freeswtich部署
  2. Python3与OpenCV3.3 图像处理(五)--图像运算
  3. 森源电气持续押注光伏 加强市场竞争力
  4. 【数据结构】平衡二叉树
  5. 用两个栈实现队列 【微软面试100题 第五十七题】
  6. smartctl 输出详解
  7. JS特效代码大全(十一)超炫的js图片展示效果(三)
  8. Rational 中 DataPool 的介绍与实际应用
  9. 深入 JavaScript 装饰器
  10. Oracle11gR2下搭建DataGuard主备同步详解