爬虫京东Apple12部分销量数据可视化操作

  • 整体过程
    • 爬虫部分
    • 爬虫生成excel文件代码
    • 数据可视化分析代码
    • 分析表格如下:

整体过程

爬取iphone12京东前十页评价相关内容,生成excel表格,进行数据可视化分析

爬虫部分

  1. 找到要爬取的url网页 ,调用requests库进行模拟浏览器请求访问;
  2. 利用防盗链User-Agent来辅助获取目标网页
  3. 将网页评价str类内容进行JSON格式内容替换
  4. 然后找到字典里所要爬取的键-key(主要爬取颜色,评价内容,手机内存
  5. 将爬取的数据存储到excel当中进行保存为.xlsx文件
  6. 然后进行数据可视化分析 _绘制饼图更加直观方便看出哪种型号的手机销量更好

数据可视化分析


生成的Excel表格

爬虫生成excel文件代码

# -*- coding: utf-8 -*-
# @Time      : 2021/9/7 9:04
# @Author    : LJH
import requests
import json
import time
import openpyxl
from bs4 import BeautifulSoup
from urllib.parse import quote #转换中文的工具def get_comments(productId,page):headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36"}url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1".format(productId,page)#url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100004770263&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1"resp = requests.get(url,headers=headers)print(resp.text)s = resp.text.replace('fetchJSON_comment98(','')s = s.replace(');','')# 替换完成后将str类数据转换为JSON数据Json_data = json.loads(s)return Json_datadef get_max_page(productId):dic_data = get_comments(productId,0)max_page = dic_data["maxPage"]return max_pagedef get_info(productId):#max_page = get_max_page(productId)max_page = 10lst = [] # 用来存取提取到的商品数据for page in range(1,max_page+1):dic_data = get_comments(productId,page)comment_lst = dic_data['comments']for item in comment_lst:content = item["content"]productColor = item["productColor"]productSize = item["productSize"]lst.append([content,productColor,productSize])time.sleep(3)save(lst)#用于将爬取的数据存储到excel当中
def save(lst):wk = openpyxl.Workbook() #创建工作簿对象sheet = wk.active        #获取活动表for i in lst:           #将列表中的数据添加到活动表中,列表中一条数据在excel中是一行sheet.append(i)#将工作簿保存至磁盘上wk.save("京东Apple销售数据.xlsx")
#测试
if __name__ == '__main__':productId = 100004770263page = 0#print(get_comments(productId,page))# print(get_max_page(productId))get_info(productId)

数据可视化分析代码

# -*- coding: utf-8 -*-
# @Time      : 2021/9/7 11:11
# @Author    : LJH#数据可视化分析  使用pandas比较好
import openpyxl
import matplotlib.pyplot as pit#从excel中读取数据
wk = openpyxl.load_workbook("京东Apple销售数据.xlsx")
sheet = wk.active #获取活动表sheet#获取最大行数和列数
rows = sheet.max_row      #100行
cols = sheet.max_column   #3列lst = []
for i in range(1,rows+1):size = sheet.cell(i,3).valuelst.append(size)
# for i in lst:
#     print(i)
"""数据统计 用字典内存作key,数量作value"""
dic_size = {}
for i in lst:dic_size[i] = 0
for i in lst:for size in dic_size: #遍历字典if size == i:dic_size[size]+=1break             #碰到相同键key加1
for i in dic_size:print(i,dic_size[i])
#做百分比
lst_total = []
for i in dic_size:lst_total.append([i,dic_size[i],dic_size[i]/100*1.0])
for i in lst_total:print(i)
'''数据统计完毕,开始进行数据可视化——画饼'''
labels = [i[0] +'内存'for i in lst_total]  #使用列表生成式得到饼图的标签
fraces = [i[2] for i in lst_total]
pit.rcParams['font.family'] = ['SimHei']
pit.pie(x=fraces,labels=labels,autopct='%1.1f%%')
# pit.show()
pit.savefig("京东Apple销售数据.jpg")

分析表格如下:

内存 百分比
64G 22%
128G 70%
256G 8%

总结:可以看出通过python爬虫和数据可视化操作可以非常方便的辅助于我们的工作,可以说python虽然不能当主攻,但可以当个好助攻。

爬虫京东Apple12部分销量数据可视化操作相关推荐

  1. 利用EXCEL表格中Power Map实现大数据可视化操作

    一.打开数据表格 首先打开我们事先准备好的2017年世界各国和地区GDP排名数据表格,里面有排名栏.国家地区栏.2016GDP栏.2017GDP栏.GDP增速栏.人均GDP栏以及人口栏,样式如下: 二 ...

  2. 【可视化】Power Map实现大数据可视化操作

    前言 最近在忙硕士的毕业论文,由于论文中涉及到可视化的问题,所以就在CSDN中搜索了相关可视化的东西,最初接触可视化,是从Excel中有自动生成的图表,后来接触过阿里的DataV,阿里的可视化套件真的 ...

  3. 爬虫学习案例3:数据可视化

    数据可视化 利用Flask框架将爬虫得到的数据展示在网页中,更为直观.以案例1中得到的数据为例进行可视化学习. 1.导入模块 from flask import Flask,render_templa ...

  4. Python+Flask+爬虫双色球数据采集及大数据可视化平台

    文件大小:68M 开发环境:Python3.8.MySQL8.0.火狐浏览器 点击下载:点击下载 简要概述:项目主要构成有数据爬虫.数据可视化.数据管理.数据预测四大部分,爬虫爬取数据,可视化进行分析 ...

  5. Python爬虫 —3000+条北京二手房数据可视化分析

    关注公众号:[小张Python],为你准备了 50+ 本Python 精品电子书籍 与 50G + 优质视频学习资料,后台回复关键字:1024 即可获取:如果对博文内容有什么疑问,公众号后台添加作者[ ...

  6. 2023年2月京东手机品牌销量数据查询(京东电商数据平台)

    2023年开年,手机中端机市场便已经卷的热火朝天.今年2月份,一加品牌发布新机,把价格从旗舰机的三四千元起步,下降至2799元起,直指中端机市场.以一加品牌的此次行动拉开帷幕,此后,其他厂商也都有所行 ...

  7. 爬虫-关于豆瓣top250的数据可视化

    目的:该文章的目的是对豆瓣TOP250网页的爬虫就行可视化分析. 明确目标,导入所需库 使用flask库建立网络框架 完成每个网页的内容 豆瓣电影评分top250:豆瓣电影 Top 250 (doub ...

  8. Tableau的简单数据可视化操作

    本文将讲解Tableau的基本使用和简单的数据分析. 在Tableau首页,我们可以看到有多种连接方式:文本文件.Excel.JSON文件.数据库等. 1.连接文本文件 点击"连接" ...

  9. HTML + Python + Django + 爬虫 + Pyecharts 实现疫情大数据可视化实时动态展示

    说明:博主从GitHub上拉去了一个开源项目,这个项目还存在很多问题,比如大数据加载卡顿,celery任务为定时爬虫获取最新数据,而前端页面没有检测数据有更新或者同步celery定时刷新服务,部分疫情 ...

  10. 利用python进行数据可视化操作之描点连线(附python源码)

    作者:非妃是公主 专栏:<python学习> 个性签:顺境不惰,逆境不馁,以心制境,万事可成.--曾国藩 更具表格中的数据,画出相应的折线图: 时间 国民总收入(亿元) 1952 679. ...

最新文章

  1. PC端微信小程序wxapkg解密
  2. 1、时间、FHS 学习笔记
  3. Mustache.js和Handlebars.js有什么区别?
  4. leetcode 645. 错误的集合
  5. 优秀自我简介200字_全球战疫 翰墨传情——东方盛世杯网络公益书画展优秀作品【二】...
  6. python自动化测试脚本怎么编写_【Python + uiautomator2】之编写unittest自动化测试脚本...
  7. 7-5 BCD解密 (10 分)
  8. echarts legend颜色_Canvas专题—综合案例:echarts实现k线图(11)
  9. 中文版的XP转换为英文版的XP和XP多国语言包
  10. PS黑作坊人像磨皮 精修 快速伪商业修图 插件 扩展面板
  11. Visual Object Classes Challenge 2012 (VOC2012) 简介
  12. QT入门学习(一):什么是QT
  13. matlab逆变器原理,MATLAB中的单相全桥逆变器电路建模与仿真
  14. 纸黄金投资之道――积小胜为大胜(就是别贪)
  15. linux多线程_免费Linux下载工具,你还不知道?
  16. CF446D. DZY Loves Games
  17. 卷积神经网络 ——卷积神经网络的结构
  18. rally功能分析与使用介绍
  19. 关于程序员的几个小段子
  20. 虚拟主机可以运行java_下面哪种类型的文件可以在Java虚拟机中运行( ).

热门文章

  1. Android Studio下载、安装和配置+SDK+tools下载(无敌超级详细版本)
  2. 计算机组成原理期末总结
  3. MATLAB学习 之 创建向量
  4. mac和win电脑在同一局域网下互传文件
  5. vasp544编译安装
  6. 俄罗斯方块python代码
  7. 北斗导航 | 基于改进RANSAC算法的BDS接收机自主完好性监测算法研究
  8. C++——模板(超详细的模板解析)
  9. tableau free public免费版
  10. Ardusub源码解析学习(二)——电机库