利用python爬取飞猪信息_Python---20行代码爬取斗鱼平台房间数据(下)-阿里云开发者社区...
在上一篇中,已经详细的讲解了如何获取数据,接下来是深度处理数据,这里调用xlsxwriter库来制作Excel表格。
工具:Python3.6.5,Pycharm
1.模块介绍
XlsxWriter模块具有的功能:
100%兼容Excel的*.xlsx文件,支持Excel2003,Excel2007等版本
(Excel2003-和Excel2007的拓展名为*.xls)
支持所有Excel单元格数据格式
单元格合并、批注、自动筛选、丰富多格式字符串等
支持工作表JPG、PNG图像,自定义图标
内存优化模式支持写入大文件
2.模块安装
pip install xlsxwriter
# 在命令行中输入此代码
# 目前最新版本为1.0.0,官网文档介绍支持Python2.5-3.5,但目前使用Python3.6未发生异常
3.模块使用
import xlsxwriter
workbook = xlsxwriter.Workbook('Demo1.xlsx') # 创建一个名为‘Demo1.xlsx’的工作表
worksheet = workbook.add_worksheet() # 创建一个工作表对象
worksheet.set_column('A:A', 20) # 设定第一列(A)的宽度为20px
# bold = workbook.add_format({'blod': True})
worksheet.write('A1', 'Hello World!') # A1单元格写入‘Hello World!’
worksheet.write('A2', '你好,世界!') # A2单元格写入‘你好,世界!’
# 行列表示法的单元格下标以0作为起始值,如‘3,0’等价于‘A4’
worksheet.write(2, 0, 123) # 使用列行表示法写入数字‘123’
worksheet.write(3, 0, 456) # 使用列行表示法写入数字‘456’
worksheet.write(4, 0, '=SUM(A3:A4)') # 求A3:A4的和,并写入‘4,0’,即‘A5’
worksheet.insert_image('A5', 'XLSX.png') # 在A5单元格插入图片
workbook.close() # 关闭Excel文件
运行结果
4.如何运用到上一篇(爬取斗鱼房间数据)中去
import requests
import json
import xlsxwriter
workbook = xlsxwriter.Workbook('E:\\DOUYU.xlsx')
worksheet = workbook.add_worksheet()
worksheet.set_column('A:A', 20)
worksheet.set_column('B:B', 10)
worksheet.set_column('C:C', 40)
worksheet.set_column('D:D', 10)
p = 0
urls = ['https://www.douyu.com/gapi/rkc/directory/2_1/{}'.format(page) for page in range(1, 5)]
for url in urls:
res = requests.get(url)
j = json.loads(res.text)
l1 = j['data']
l2 = l1['rl']
p = p+1
for i in range(len(l2)):
Anchor = l2[i]['nn'] # 获取主播名字
RoomNumber = l2[i]['rid'] # 获取房间号
Heat = l2[i]['ol'] # 获取热度
RoomName = l2[i]['rn'] # 获取房间名
worksheet.write(int(i+120*(p-1)), 0, Anchor)
worksheet.write(int(i+120*(p-1)), 1, RoomNumber)
worksheet.write(int(i+120*(p-1)), 2, RoomName)
worksheet.write(int(i+120*(p-1)), 3, Heat)
# i+120*(p-1):120是因为每一页有120个房间,本次爬取了5页房间数据,用了p = p+1来使得Excel表格能连续记录数据
# 当时遇到的问题:在不添加120*(p-1)时,发现只能爬取120个房间数据,再看了遍代码,发现数据是被覆盖了
workbook.close()
print('斗鱼房间数据已保存')
主播、房间号、房间名、热度
后续可以使用Excel的排序,制表等功能来处理数据,或者用BDP来处理!
有发现错误或看不懂的可以在评论区提出,一定会第一时间回复你!
如对你有帮助记得关注点赞哦!
利用python爬取飞猪信息_Python---20行代码爬取斗鱼平台房间数据(下)-阿里云开发者社区...相关推荐
- python django web典型模块开发实战_带你读《Python Django Web典型模块 开发实战》之一:从新浪微博聊起多端应用-阿里云开发者社区...
Python Django Web典型模块 开发实战 点击查看第二章 点击查看第三章 寇雪松 编著 第1章 从新浪微博聊起多端应用 当人们听到"新浪",脑海里第一个浮现的关联词是& ...
- python email模块详解_python模块之email: 电子邮件编码解码 (一、解码邮件)-阿里云开发者社区...
python自带的email模块是个很有意思的东西,它可以对邮件编码解码,用来处理邮件非常好用. 处理邮件是一个很细致的工作,尤其是解码邮件,因为它的格式变化太多了,下面先看看一个邮件的源文件: Re ...
- python中shutil模块_python文件、文件夹、压缩包处理模块-shutil模块-阿里云开发者社区...
shutil模块 高级的文件.文件夹.压缩包 处理模块 本节内容基本在linux下python交互环境实现 复制移动文件.文件夹 将文件内容拷贝到另一个文件中,可以部分内容 格式如下: ``` shu ...
- python全局变量有缩进吗_Python全局变量和局部变量的问题 400 请求报错 -问答-阿里云开发者社区-阿里云...
# coding:utf-8 sum = 5 def add(x, y): print sum sum = x + y if __name__ == '__main__': add(7, 8) 上面的 ...
- python列表索引超出范围 等于啥_python如何解决IndexError:列表索引超出范围?-问答-阿里云开发者社区-阿里云...
我正在尝试为ucf101数据集生成密集流,但我不断收到以下错误: 我尝试在第68行中将video_name.split('')[1]更改为video_name.split('')[0],已编译代码,但 ...
- python将excel转换成图片_python-尝试将Excel文件保存为图片并加上水印-阿里云开发者社区...
python-尝试将Excel文件保存为图片并加上水印 场景:并不是将 excel 的 chart 生成图片,而是将整个表格内容生成图片. 1. 准备工作 目前搜索不到已有的方法,只能自己尝试写一个, ...
- 简单20行代码爬取王者荣耀官网1080p壁纸
简单20行代码爬取王者荣耀官网1080p壁纸 # -*- coding: utf-8 -*- # @Time : 2020/12/13 18:08 # @Author : ningfangcong i ...
- python:利用20行代码爬取网络小说
文章目录 前言 一.爬虫是什么? 二.实现过程 总结 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 今天,来给大家一个分享一下如何使用20爬虫行代码爬取网络小说(这里我们以龙 ...
- 20行代码爬取王者荣耀全英雄皮肤!让你享受白嫖的快乐!
引言 王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了.我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行代码即可完成. 准备工作 爬取皮肤 ...
最新文章
- matlab 迭代 混沌与分形实验报告,实验四 函数的迭代混沌与分形.doc
- linux检查文件一致性,3.20 fsck(检查并修复Linux 文件系统)
- 同一个字符串hash值相同吗_图说:为什么Java中的字符串被定义为不可变的
- redis基础之有序集合应用
- 利用samba实现网络文件共享
- Unity3D笔记十 游戏元素
- PropertiesUtil 获取文件属性值
- java 1.8签名apk_给Android的APK程序签名和重新签名的方法
- 辅助类——掌握内容管道
- js 将16进制颜色转为RGBA
- 网易邮箱服务器怎么注册,免费网易域名邮箱申请教程(图)
- 剑指offer总目录
- 打地鼠游戏(Appinventor练习)
- Ubuntu下装memcache
- 【Java项目】好客租房——数据库集群部署
- 【笔记】Go语言学习笔记
- [个人思考] 所思所想
- 使用dos命令校验MD5值
- c语言看门狗指令pic,PIC单片机的窗口看门狗定时器.PDF
- KISSY整体架构流程
热门文章
- 计算机在医学影像中的应用,计算机图像处理技术在医学影像中的进展与应用
- fgetc php,php fgetc函数怎么用
- Android Couldn‘t find meta-data for provider with authority
- 虚拟机Linux忘记root密码的解决办法
- 比如像我这种人,就不适合恋爱
- TiDB at 丰巢:尝鲜分布式数据库
- 去除WinRar中广告的办法
- _SaveLog.dpr立即备份晓亮的电脑操作记录热键(快捷键) F11由于原来的 AutoIt 杀毒软件总是误报...
- 进阶篇:4.3)DFA设计指南:防错设计( 防呆设计)
- 叉积 微分 恒等式_不等式(O):常见符号及恒等式