爬虫京东Apple12部分销量数据可视化操作
爬虫京东Apple12部分销量数据可视化操作
- 整体过程
- 爬虫部分
- 爬虫生成excel文件代码
- 数据可视化分析代码
- 分析表格如下:
整体过程
爬取iphone12
京东前十页评价相关内容,生成excel表格,进行数据可视化分析
爬虫部分
- 找到要爬取的url网页 ,调用requests库进行模拟浏览器请求访问;
- 利用防盗链User-Agent来辅助获取目标网页
- 将网页评价
str类
内容进行JSON格式
内容替换 - 然后找到字典里所要爬取的键-key(主要爬取颜色,评价内容,手机内存)
- 将爬取的数据存储到excel当中进行保存为
.xlsx文件
; - 然后进行数据可视化分析 _绘制饼图更加直观方便看出哪种型号的手机销量更好
数据可视化分析
生成的Excel表格
爬虫生成excel文件代码
# -*- coding: utf-8 -*-
# @Time : 2021/9/7 9:04
# @Author : LJH
import requests
import json
import time
import openpyxl
from bs4 import BeautifulSoup
from urllib.parse import quote #转换中文的工具def get_comments(productId,page):headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36"}url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1".format(productId,page)#url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004770263&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1"resp = requests.get(url,headers=headers)print(resp.text)s = resp.text.replace('fetchJSON_comment98(','')s = s.replace(');','')# 替换完成后将str类数据转换为JSON数据Json_data = json.loads(s)return Json_datadef get_max_page(productId):dic_data = get_comments(productId,0)max_page = dic_data["maxPage"]return max_pagedef get_info(productId):#max_page = get_max_page(productId)max_page = 10lst = [] # 用来存取提取到的商品数据for page in range(1,max_page+1):dic_data = get_comments(productId,page)comment_lst = dic_data['comments']for item in comment_lst:content = item["content"]productColor = item["productColor"]productSize = item["productSize"]lst.append([content,productColor,productSize])time.sleep(3)save(lst)#用于将爬取的数据存储到excel当中
def save(lst):wk = openpyxl.Workbook() #创建工作簿对象sheet = wk.active #获取活动表for i in lst: #将列表中的数据添加到活动表中,列表中一条数据在excel中是一行sheet.append(i)#将工作簿保存至磁盘上wk.save("京东Apple销售数据.xlsx")
#测试
if __name__ == '__main__':productId = 100004770263page = 0#print(get_comments(productId,page))# print(get_max_page(productId))get_info(productId)
数据可视化分析代码
# -*- coding: utf-8 -*-
# @Time : 2021/9/7 11:11
# @Author : LJH#数据可视化分析 使用pandas比较好
import openpyxl
import matplotlib.pyplot as pit#从excel中读取数据
wk = openpyxl.load_workbook("京东Apple销售数据.xlsx")
sheet = wk.active #获取活动表sheet#获取最大行数和列数
rows = sheet.max_row #100行
cols = sheet.max_column #3列lst = []
for i in range(1,rows+1):size = sheet.cell(i,3).valuelst.append(size)
# for i in lst:
# print(i)
"""数据统计 用字典内存作key,数量作value"""
dic_size = {}
for i in lst:dic_size[i] = 0
for i in lst:for size in dic_size: #遍历字典if size == i:dic_size[size]+=1break #碰到相同键key加1
for i in dic_size:print(i,dic_size[i])
#做百分比
lst_total = []
for i in dic_size:lst_total.append([i,dic_size[i],dic_size[i]/100*1.0])
for i in lst_total:print(i)
'''数据统计完毕,开始进行数据可视化——画饼'''
labels = [i[0] +'内存'for i in lst_total] #使用列表生成式得到饼图的标签
fraces = [i[2] for i in lst_total]
pit.rcParams['font.family'] = ['SimHei']
pit.pie(x=fraces,labels=labels,autopct='%1.1f%%')
# pit.show()
pit.savefig("京东Apple销售数据.jpg")
分析表格如下:
内存 | 百分比 |
---|---|
64G | 22% |
128G | 70% |
256G | 8% |
总结:可以看出通过python爬虫和数据可视化操作可以非常方便的辅助于我们的工作,可以说python虽然不能当主攻,但可以当个好助攻。
爬虫京东Apple12部分销量数据可视化操作相关推荐
- 利用EXCEL表格中Power Map实现大数据可视化操作
一.打开数据表格 首先打开我们事先准备好的2017年世界各国和地区GDP排名数据表格,里面有排名栏.国家地区栏.2016GDP栏.2017GDP栏.GDP增速栏.人均GDP栏以及人口栏,样式如下: 二 ...
- 【可视化】Power Map实现大数据可视化操作
前言 最近在忙硕士的毕业论文,由于论文中涉及到可视化的问题,所以就在CSDN中搜索了相关可视化的东西,最初接触可视化,是从Excel中有自动生成的图表,后来接触过阿里的DataV,阿里的可视化套件真的 ...
- 爬虫学习案例3:数据可视化
数据可视化 利用Flask框架将爬虫得到的数据展示在网页中,更为直观.以案例1中得到的数据为例进行可视化学习. 1.导入模块 from flask import Flask,render_templa ...
- Python+Flask+爬虫双色球数据采集及大数据可视化平台
文件大小:68M 开发环境:Python3.8.MySQL8.0.火狐浏览器 点击下载:点击下载 简要概述:项目主要构成有数据爬虫.数据可视化.数据管理.数据预测四大部分,爬虫爬取数据,可视化进行分析 ...
- Python爬虫 —3000+条北京二手房数据可视化分析
关注公众号:[小张Python],为你准备了 50+ 本Python 精品电子书籍 与 50G + 优质视频学习资料,后台回复关键字:1024 即可获取:如果对博文内容有什么疑问,公众号后台添加作者[ ...
- 2023年2月京东手机品牌销量数据查询(京东电商数据平台)
2023年开年,手机中端机市场便已经卷的热火朝天.今年2月份,一加品牌发布新机,把价格从旗舰机的三四千元起步,下降至2799元起,直指中端机市场.以一加品牌的此次行动拉开帷幕,此后,其他厂商也都有所行 ...
- 爬虫-关于豆瓣top250的数据可视化
目的:该文章的目的是对豆瓣TOP250网页的爬虫就行可视化分析. 明确目标,导入所需库 使用flask库建立网络框架 完成每个网页的内容 豆瓣电影评分top250:豆瓣电影 Top 250 (doub ...
- Tableau的简单数据可视化操作
本文将讲解Tableau的基本使用和简单的数据分析. 在Tableau首页,我们可以看到有多种连接方式:文本文件.Excel.JSON文件.数据库等. 1.连接文本文件 点击"连接" ...
- HTML + Python + Django + 爬虫 + Pyecharts 实现疫情大数据可视化实时动态展示
说明:博主从GitHub上拉去了一个开源项目,这个项目还存在很多问题,比如大数据加载卡顿,celery任务为定时爬虫获取最新数据,而前端页面没有检测数据有更新或者同步celery定时刷新服务,部分疫情 ...
- 利用python进行数据可视化操作之描点连线(附python源码)
作者:非妃是公主 专栏:<python学习> 个性签:顺境不惰,逆境不馁,以心制境,万事可成.--曾国藩 更具表格中的数据,画出相应的折线图: 时间 国民总收入(亿元) 1952 679. ...
最新文章
- PC端微信小程序wxapkg解密
- 1、时间、FHS 学习笔记
- Mustache.js和Handlebars.js有什么区别?
- leetcode 645. 错误的集合
- 优秀自我简介200字_全球战疫 翰墨传情——东方盛世杯网络公益书画展优秀作品【二】...
- python自动化测试脚本怎么编写_【Python + uiautomator2】之编写unittest自动化测试脚本...
- 7-5 BCD解密 (10 分)
- echarts legend颜色_Canvas专题—综合案例:echarts实现k线图(11)
- 中文版的XP转换为英文版的XP和XP多国语言包
- PS黑作坊人像磨皮 精修 快速伪商业修图 插件 扩展面板
- Visual Object Classes Challenge 2012 (VOC2012) 简介
- QT入门学习(一):什么是QT
- matlab逆变器原理,MATLAB中的单相全桥逆变器电路建模与仿真
- 纸黄金投资之道――积小胜为大胜(就是别贪)
- linux多线程_免费Linux下载工具,你还不知道?
- CF446D. DZY Loves Games
- 卷积神经网络 ——卷积神经网络的结构
- rally功能分析与使用介绍
- 关于程序员的几个小段子
- 虚拟主机可以运行java_下面哪种类型的文件可以在Java虚拟机中运行( ).