目录

  • 前言
    • 本次案例实现目标
    • 最基本思路流程: <通用>
      • 一. 数据来源分析
      • 二. 代码实现步骤过程: 代码实现基本四大步骤
  • 代码实现
    • 获取书籍详情信息
      • 发送请求
      • 解析数据
      • 保存数据
      • 运行代码得到结果
    • 可视化图表
      • 书籍总体价格区间
      • 各个出版社书籍数量柱状图
      • 电子书版本占比
    • 书籍评论数据
    • 词云

前言

本次案例实现目标

  • 书籍基本数据
  • 实现可视化图表
  • 书籍评论数据
  • 评论可以实现词云图

最基本思路流程: <通用>

一. 数据来源分析
  1. 只有当你知道你想要数据内容, 是来自于哪里的时候, 才能通过代码请求得到数据
  2. 打开 F12 开发者工具进行抓包分析
  3. 通过关键字进行搜索查询 数据包是请求那个url地址
二. 代码实现步骤过程: 代码实现基本四大步骤
  1. 发送请求, 模拟浏览器对于url地址<刚刚分析得到的url地址>发送请求
  2. 获取数据, 获取服务器返回响应数据 —> 开发者工具里面 response
  3. 解析数据, 提取我们想要的数据内容 —> 书籍基本信息
  4. 保存数据, 把数据内容保存到表格里面

代码实现

获取书籍详情信息

发送请求
url = f'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1'
# 代码模拟浏览器发送请求 ---> headers请求头 <可以复制粘贴>
headers = {# User-Agent 用户代理 表示浏览器基本身份标识'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送请求
response = requests.get(url=url, headers=headers)
解析数据
# 转换数据类型 ---> 可解析对象
selector = parsel.Selector(response.text)
# 第一次提取, 获取所有li标签
lis = selector.css('.bang_list_mode li')  # 返回列表
# for循环遍历, 把列表里面的元素一个一个提取出来
for li in lis:title = li.css('.name a::attr(title)').get()  # 标题/书名recommend = li.css('.tuijian::text').get().replace('推荐', '')  # 推荐star = li.css('.star a::text').get().replace('条评论', '')  # 评价author = li.css('div:nth-child(5) a:nth-child(1)::attr(title)').get()  # 作者date = li.css('div:nth-child(6) span::text').get()  # 出版日期press = li.css('div:nth-child(6) a::text').get()  # 出版社price_r = li.css('.price .price_r::text').get()  # 原价price_n = li.css('.price .price_n::text').get()  # 售价price_e = li.css('.price_e span::text').get()  # 电子书价格href = li.css('.name a::attr(href)').get()  # 详情页dit = {'标题': title,'推荐': recommend,'评价': star,'作者': author,'出版日期': date,'出版社': press,'原价': price_r,'售价': price_n,'电子书价格': price_e,'详情页': href,}csv_writer.writerow(dit)print(dit)
保存数据
f = open('书籍.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['标题','推荐','评价','作者','出版日期','出版社','原价','售价','电子书价格','详情页',
])
# 写入表头
csv_writer.writeheader()
运行代码得到结果


可视化图表

书籍总体价格区间
pie1 = (Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px')).add('', datas_pair_1, radius=['35%', '60%']).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%")).set_global_opts(title_opts=opts.TitleOpts(title="当当网书籍\n\n原价价格区间", pos_left='center', pos_top='center',title_textstyle_opts=opts.TextStyleOpts(color='#F0F8FF', font_size=20, font_weight='bold'),)).set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA'])
)
pie1.render_notebook()

pie1 = (Pie(init_opts=opts.InitOpts(theme='dark',width='1000px',height='600px')).add('', datas_pair_2, radius=['35%', '60%']).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%")).set_global_opts(title_opts=opts.TitleOpts(title="当当网书籍\n\n售价价格区间", pos_left='center', pos_top='center',title_textstyle_opts=opts.TextStyleOpts(color='#F0F8FF', font_size=20, font_weight='bold'),)).set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34', '#D8BFD8', '#00BFFF', '#7FFFAA'])
)
pie1.render_notebook()

各个出版社书籍数量柱状图
bar=(Bar(init_opts=opts.InitOpts(height='500px',width='1000px',theme='dark')).add_xaxis(counts.index.tolist()).add_yaxis('出版社书籍数量',counts.values.tolist(),label_opts=opts.LabelOpts(is_show=True,position='top'),itemstyle_opts=opts.ItemStyleOpts(color=JsCode("""new echarts.graphic.LinearGradient(0, 0, 0, 1,[{offset: 0,color: 'rgb(255,99,71)'}, {offset: 1,color: 'rgb(32,178,170)'}])"""))).set_global_opts(title_opts=opts.TitleOpts(title='各个出版社书籍数量柱状图'),xaxis_opts=opts.AxisOpts(name='书籍名称',type_='category',                                           axislabel_opts=opts.LabelOpts(rotate=90),),yaxis_opts=opts.AxisOpts(name='数量',min_=0,max_=29.0,splitline_opts=opts.SplitLineOpts(is_show=True,linestyle_opts=opts.LineStyleOpts(type_='dash'))),tooltip_opts=opts.TooltipOpts(trigger='axis',axis_pointer_type='cross')).set_series_opts(markline_opts=opts.MarkLineOpts(data=[opts.MarkLineItem(type_='average',name='均值'),opts.MarkLineItem(type_='max',name='最大值'),opts.MarkLineItem(type_='min',name='最小值'),]))
)
bar.render_notebook()

电子书版本占比
c = (Liquid().add("lq", [1-per], is_outline_show=False).set_global_opts(title_opts=opts.TitleOpts(title="电子书版本占比"))
)
c.render_notebook()

书籍评论数据

for page in range(1, 11):time.sleep(1)# 确定请求url地址url = 'http://product.dangdang.com/index.php'# 请求参数data = {'r': 'comment/list','productId': '29129370','categoryPath': '01.43.79.01.00.00','mainProductId': '29129370','mediumId': '0','pageIndex': page,'sortType': '1','filterType': '1','isSystem': '1','tagId': '0','tagFilterCount': '0','template': 'publish','long_or_short': 'short',}# headers 请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}# 发送请求response =  requests.get(url=url, params=data, headers=headers)# response.json() 获取响应json字典数据 键值对取值 ---> 根据冒号左边的内容, 提取冒号右边的内容html_data = response.json()['data']['list']['html']content_list = re.findall("<span><a href=.*?' target='_blank'>(.*?)</a></span>", html_data)with open('评论.txt', mode='a', encoding='utf-8') as f:f.write('\n'.join(content_list))f.write('\n')print(content_list)

词云

import jieba # 分词模块 pip install jieba
import wordcloud
import imageio
img = imageio.imread('123.png')
# wordcloud
# 1. 打开文件 获取弹幕数据
# mode='r' 一定要写吗  不一定 默认以 r
# encoding='' 要写吗?  肯定要的
f = open('评论.txt', mode='r', encoding='utf-8')
txt = f.read()
# print(txt)
# 2. jieba分词 分割词汇
txt_list = jieba.lcut(txt)
# print(txt_list)
# 列表转字符串怎么转
string = ' '.join(txt_list)
# print(string)
# 3. 词云图设置
wc = wordcloud.WordCloud(width=800,  # 宽度height=500, # 高度background_color='white', # 背景颜色mask=img, # 设置图片样式font_path='msyh.ttc',scale=15,stopwords={'了', '的'},contour_width=5,contour_color='red'
)
# 4. 输入文字内容 (字符串的形式)
wc.generate(string)
# 5. 输出图片
wc.to_file('output2.png')

一位同学的Python大作业【分析当当网书籍价格、出版社、电子书版本占比数据】相关推荐

  1. 【python】分析当当网书籍价格、出版社、电子书版本占比数据

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ 本次案例实现目标 书籍基本数据 实现可视化图表 书籍评论数据 评论可以实现词云图 最基本思路流程: <通用> 一. ...

  2. python爬虫beautifulsoup爬当当网_利用python爬虫可视化分析当当网的图书数据!

    导语 这周末就分享个小爬虫吧.利用Python爬取并简单地可视化分析当当网的图书数据. 开发工具 Python版本:3.6.4 相关模块: requests模块: bs4模块: wordcloud模块 ...

  3. 利用python爬虫可视化分析当当网的图书数据

    导语 这周末就分享个小爬虫吧.利用Python爬取并简单地可视化分析当当网的图书数据. 开发工具 **Python版本:**3.6.4 相关模块: requests模块: bs4模块: wordclo ...

  4. [Python]scrapy爬取当当网书籍相关信息

    最近想买两本程序设计的书籍,也就在当当网上面看了下,发现真是太多的书了.所以想着利用爬虫知识爬取下程序设计相关书籍的一些信息. 00_1. 首先是今天所用到的东西 python 3.5 + scrap ...

  5. python爬虫-爬取当当网书籍信息存到Excel中

    文章目录 一.任务 二.分析 (一).单页面的信息分析 源代码分析 目标信息定位与分析 代码设计 (二).所有目标页面链接分析 目标链接分析 代码设计 三.注意要点 四.完整代码 五.参考 一.任务 ...

  6. _【超详细指北】python大作业!

    [超详细指北]python大作业! ​ 这是笔者最近写python大作业时写的一个实现过程笔记,也就是基本上可以说是本人从0开始上手的一个python练习.程序和本文档从 4.29-5.15日 总共历 ...

  7. Python大作业——爬虫+可视化+数据分析+数据库(数据分析篇)

    个人博客 Python大作业--爬虫+可视化+数据分析+数据库(简介篇) Python大作业--爬虫+可视化+数据分析+数据库(爬虫篇) Python大作业--爬虫+可视化+数据分析+数据库(可视化篇 ...

  8. kaggle经典题--“泰坦尼克号”--0.8275准确率--东北大学20级python大作业开源(附详细解法与全部代码以及实验报告)

    kaggle经典题--"泰坦尼克号"--0.8275准确率--东北大学20级python大作业开源(附详细解法与全部代码以及实验报告) 前言 开发环境 一.导入包: 二.实验数据的 ...

  9. pygame飞机大战小游戏(python大作业)

    一.项目背景 python大作业,在查看了老师给的链接发现教学视频不完整,所以借用了同学的<Python编程 从入门到实践>中的一个项目,学习模仿. 二.游戏具体介绍 这是一款由辉辉亲自打 ...

最新文章

  1. javascript的实现事件的一些实例
  2. statCVS的问题剖析
  3. Android开发 - 设置DialogFragment全屏显示
  4. 汉密尔顿回路 (25 分)【思路讲解】
  5. java 中获取file的长度为0_Java核心技术梳理-IO
  6. android.view.WindowManager$BadTokenException异常
  7. php代码实现tp5监听队列,thinkPHP5的队列使用
  8. java中的linked_为Java实现LinkedArray
  9. Labview之RS485通信
  10. VS2013安装教程
  11. R语言连续变量正态性检验
  12. 素数筛——区间段内最小,最大素数,以及这个区间中素数的个数
  13. matlab 画标准正态曲线,matlab中如何画标准正态分布的密度函数曲线?
  14. CDN - 原理解析
  15. iOS--通过assetURL获取到视频
  16. 把鼠标指针换成自定义图片 傻瓜教程
  17. 面试官:Java8 lambda 表达式 forEach 如何提前终止?
  18. 利用深度学习辅助皮肤病诊断
  19. VBA提高篇_12_1 VBA判断奇偶数的方法
  20. 在线客服系统源码软件代码+自动回复+可生成接入+手机版管理后台

热门文章

  1. RapidShare使用教程
  2. 某供水开票系统之渗不透测试
  3. 查看linux驱动文件,linux怎么查看硬件驱动
  4. JavaBeans简介
  5. 第十三封情书—ctf.show平台
  6. 面试杂谈:(高并发)redis和cache的使用场景和区别
  7. 全网疯传的华为内部网络协议神仙笔记究竟有何魅力?
  8. 佛教对计算机的影响,宣化上人:200年后计算机会消失
  9. MySQL高可用架构之Percona XtraDB Cluster
  10. Visual Studio 2010 所有版本 中文 英文 下载,激活,序列号,注册码,下载地址