为了给心爱的女盆友选一套surprise我 用python把网易优选小姐姐文胸看了个遍

这一切的的目的只是因为我爱女盆友&&爱学习~~~

需求分析

我们的目标是爬取网易小姐姐2000+文胸评论。需要的数据是小姐姐称呼、产品星评、文胸颜色大小和评论时间等。

通过数据来分析小姐姐最喜欢的颜色和最合适的尺码是多少?

网页分析

网页F12打开浏览器开发者模式,搜索关键字找到网页

发送请求的真实链接如下:

数据是存储在一个json的数据集合里面的。

发送请求 

如下找到浏览器请求连接,

然后添加headers模拟浏览器发送请求获取响应数据

  url = 'http://you.163.com/xhr/comment/listByItemByTag.json?__timestamp=1624856130970&itemId=3987228&tag=%E5%85%A8%E9%83%A8&size=20&page=1&orderBy=0&oldItemTag=%E5%85%A8%E9%83%A8&oldItemOrderBy=0&tagChanged=0'headers = {'Cookie': '_ntes_nnid=501cb75ada402fbcf47eefe12cccc23a,1623327742969; _ntes_nuid=501cb75ada402fbcf47eefe12cccc23a; UM_distinctid=17a3365a7592d2-008996d874143d-5c4f2f15-1fa400-17a3365a75a526; hb_MA-8E16-605C3AFFE11F_source=www.baidu.com; yx_aui=6da18d10-f072-41ac-912f-b14dff79cbb9; mail_psc_fingerprint=66f4d93f8163fe521a151b828d49e1cd; yx_s_device=32d4255-6232-2537-51c2-4e819468e8; yx_but_id=d03335c54b02488a8507463681ed337bca142a4f6d33ff62_v1_nl; yx_s_tid=tid_web_38d7721d61b649199f8af09017ae76b3_d0a48cb2b_1; yx_search_history=%5B%22%u6587%u80F8%22%5D; yx_from=search_sem_bdpc_25; yx_show_painted_egg_shell=false; yx_delete_cookie_flag=true; yx_stat_seesionId=6da18d10-f072-41ac-912f-b14dff79cbb91624855735580; yx_new_user_modal_show=1; yx_page_key_list=http%3A//you.163.com/search%3Fkeyword%3D%25E6%2596%2587%25E8%2583%25B8%26timestamp%3D1624845943619%26_stat_search%3Dhistory%26searchWordSource%3D5%23page%3D1%26sortType%3D0%26descSorted%3Dtrue%26categoryId%3D0%26matchType%3D0%2Chttp%3A//you.163.com/item/detail%3Fid%3D3987228%26_stat_area%3D3%26_stat_referer%3Dsearch%26_stat_query%3D%25E6%2596%2587%25E8%2583%25B8%26_stat_count%3D132%26_stat_searchversion%3Ddcn_model-1.1.0-1.3; yx_subscribe_showtime=1624856134666; yx_stat_seqList=v_ecb98e3f92%7Cv_377304616a%3B-1%3Bv_780ef75480%3Bc_350809ccfe%3Bv_cf5074d5c0%3B-1%3Bv_ecb98e3f92%3B-1','Referer': 'http://you.163.com/item/detail?id=3987228&_stat_area=3&_stat_referer=search&_stat_query=%E6%96%87%E8%83%B8&_stat_count=132&_stat_searchversion=dcn_model-1.1.0-1.3','User-Agent': str(UserAgent().random)}resp = requests.get(url, headers = headers)if resp.status_code == 200:print(resp.json())

可以看到,当前json该数据集已经成功获取到,接下来就是获取json内部的具体信息了

我们先来获取单页数据,并将其存于熊猫之中

熊猫详细文档:

让人无法拒绝的pandas技巧,简单却好用到爆!

   comts_List = resp.json()['data']['commentList']size = [item['skuInfo'][0] for item in comts_List]colors = [item['skuInfo'][1] for item in comts_List]prof_phot = [item['frontUserAvatar'] for item in comts_List]star = [item['star'] for item in comts_List]content = [item['content'] for item in comts_List]# 保存数据pd_data = pd.DataFrame({'型号': size,'颜色': colors,'小姐姐': prof_phot,'评分': star,'评论': content})

多页存储

单页数据存储完毕,先定个小目标,爬它100页。

  for page in range(100):# 打印进度print(f'-------------正在获取第{page + 1}页的文胸信息-------------')

然后将这100页,获取到了两千条数据。然后将其存储在Excel,

以便后续数据分析和可视化操作。

小姐姐头像

小姐姐头像的链接我们都在上一步扒拉下来了,难道我会放过这些小姐姐的美照吗?

    for img in pd_data['小姐姐']:if img != None:try:with open('./pictures/{}.jpg'.format(fake.name()), 'wb') as fin:print(f'正在爬取第{count}张图片')fin.write(requests.get(img).content)print('{}.jpg----下载成功'.format(img))except:print('下载失败!')

图片成功下载完毕

老规矩,我先看哈

可视化操作

先来给评论做词云图

函数已经给你定义好了,数据直接导入即可~~

  pd_data = pd.read_excel('./小姐姐文胸.xlsx')c_title = pd_data['评论'].tolist()# 观影评论词云图wordlist = jieba.cut(''.join(c_title))result = ' '.join(wordlist)pic = 'img.jpg'gen_stylecloud(text=result,icon_name='fab fa-qq',  #sfont_path='msyh.ttc',background_color="black",output_name=pic)print('绘图成功!')

型号分析

详情都在注释里~~~

  # 读取数据pd_data = pd.read_excel('./小姐姐文胸.xlsx')# 去除不需要数据pd_data.loc[:, '型号new'] = pd_data['型号'].str.replace('尺码:', '')size = pd_data['型号new'].value_counts()# 型号分类size1 = size.index.tolist()# 分类数据统计size2 = size.tolist()'''['75B', '85B', '80B', '75A', '80A', '70C', '80C', '70A', '75C'][500, 400, 300, 200, 200, 100, 100, 100, 100]'''

75B有多大?没人问啊也不敢问啊

颜色分析

  # 读取数据pd_data = pd.read_excel('./小姐姐文胸.xlsx')# 去除不需要数据pd_data.loc[:, '颜色new'] = pd_data['颜色'].str.replace('颜色:', '')color = pd_data['颜色new'].value_counts()# 型号分类color1 = color.index.tolist()# 分类数据统计color2 = color.tolist()

LSP都喜欢的粉色,可是人家小姐姐喜欢的是成熟的灰色

好了,今天文章到此结束。

祝大家七夕快乐!

为了给七夕的女盆友挑合适的内衣,我用Python爬了网易严选的内衣店的数据!相关推荐

  1. OSChina 周三乱弹 ——女盆友生气了,如何使她平稳的漏气

    2019独角兽企业重金招聘Python工程师标准>>> @这些年了1990 : 学习,看书,码. 听起来你的生活很有节奏感哟. 给你们听听,我今天单曲循环的吧. On The Pla ...

  2. 用Python制作一个颜值打分器,看看你女盆友们颜值多少分

    先给大家看一下效果: 因为没有女朋友(懂的都懂),所以只能找一些女朋友的照片啦~ 先获取一些漂亮女朋友照片 然后在根据照片进行颜值排名打分 来让我们看一下第一名的女朋友的颜值 第一名:颜值评分是94. ...

  3. 给女盆友微信定时消息推送,给她一个大大的情惊喜!!!

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 一.微信推送 二.使用步骤 1. 注册微信微信公众平台 2.配置脚本参数 3.第三步:fork 仓库, 填入相应配置 1. ...

  4. 程序员女盆友的学习日记(没内容)

    大噶猴!居然看到了我的心得!(*这篇文章没有内容*) 这篇文章适合,类似我这样想去多了解自己家程序员的妹子:还有那些想教自己家小宝贝一些计算机语言的程序汉 我是学食品的妹子,工科女,爱淘宝,小红书,知 ...

  5. Python实现每天不同时间段通过发微信提醒女盆友

    简介 有时候,你很想关心她,但是你太忙了,以至于她一直抱怨,觉得你不够关心她.你暗自下决心,下次一定要准时发消息给她,哪怕是几句话,可是你又忘记了.你觉得自己很委屈?,但是她又觉得你不负责. 现在,再 ...

  6. 30行python代码实现微信自动陪女盆友聊天(itchat-uos + 无限制调用)

    先放代码: 再放个文字的(方便复制): import itchat import requestsdef get_reply(keyword):try:url = f"https://ope ...

  7. 写一个python定时发送消息的脚本——每天跟你女盆友说晚安

    首先 你要有个女朋友 效果 需要安装几个包 pip install wxpy pip install wechat_sender pip install requests 代码如下 from __fu ...

  8. 抖音盒子爆炸相册女盆友专属相册

    爆炸盒子相册放成女友的照片 <!DOCTYPE html> <html><head><meta charset="utf-8">&l ...

  9. 520送女盆友什么礼物最好?电商最火4款电容笔

    一年一度的520告白节又要来了,还在为挑选礼物烦恼的男生快来了解下电容笔!如果你的女朋友有ipad,那么你可以选择送她一支电容笔,让她的ipad可以用出更多花样.下面介绍2022电商最火得4款电容笔, ...

最新文章

  1. asp.net 2.0防止同一用户同时登陆
  2. 2010威购VgoShop单用户商场下一代企业电子商务系统
  3. 【Bugly干货分享】iOS内存管理:从MRC到ARC实践
  4. dae怎么用草图大师打开_当 to C市场饱和,该怎么用场景化打开新市场?
  5. 与JSP的初次邂逅……
  6. python模块使用_一文让你学会所有的python模块使用
  7. Bailian1833 POJ1833 排列【全排列】
  8. grep 去掉 grep_使用grep的regex的10个实用示例
  9. 优化理论13----黄金分割法、单峰函数、python实现及验证
  10. cobbler装系统
  11. 汽车加油问题 java_汽车加油问题
  12. 【MySQL】MySQL安装图解
  13. Java Logging之JUL系列——Filter
  14. DVWA靶机-文件上传漏洞(File Upload)
  15. 累死你的不是工作方式
  16. IterNet: Retinal Image Segmentation Utilizing Structural Redundancy in Vessel Networks
  17. 【论文笔记】AAAI2022多智能体强化学习论文五篇
  18. 【转】TPC-C 、TPC-H和TPC-DS区别
  19. 智能手机上的常用传感器
  20. 注册表(Registry)

热门文章

  1. mysql查看当前数据库中表明,MySQL中查看当前数据库的所有表
  2. 本地连接阿里云RDS云数据库(小白教程)
  3. Linux的scp 命令使用方法
  4. 怎么解决WiFi共享精灵中的错误代码:8000ffff
  5. 律联云知识产权——商标无效宣告的程序是什么?
  6. 修改网站描述是否对百度排名有影响
  7. C++生成随机字符串
  8. A - 过山车(匈牙利算法)
  9. 黑盒测试等价类划分法、边界值分析法
  10. centos7自带邮件服务器,CentOS7搭建简单的邮件服务器