豆瓣250信息爬取及保存到excel中
目录
一、爬取网页基本信息
二、将CSV文件转换为XLSX格式
一、爬取网页基本信息
网页头 Header:
网页URL:
网页源代码:
#通过re来提取想要的有效信息
import re
import csv
import requests
def fun():for i in range(10):print(f"正在爬取第{i}页")url = "https://movie.douban.com/top250?start={}&filter=".format(i*25)headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55"}resp = requests.get(url, headers=headers)page_content = resp.text# 解析数据obj = re.compile(r'<li>.*?<em class="">.*?</em>.*?<a href="(?P<link>.*?)">.*?'r'<span class="title">(?P<name>.*?)</span>.*?'r'<p class="">.*?<br>(?P<year>.*?) .*?'r'<span class="rating_num" property="v:average">(?P<content>.*?)</span>.*?'r'<span>(?P<num>.*?)</span>', re.S)# 开始匹配result = obj.finditer(page_content)# 不读取空白行f = open("data.csv", 'a+', newline='')csvwriter = csv.writer(f)for it in result:# print(it.group("link"))# print(it.group("name"))# print(it.group("year").strip())# print(it.group("content"))# print(it.group("num"))dic = it.groupdict()dic['year'] = dic['year'].strip()csvwriter.writerow(dic.values())# print(it.group())if __name__ == '__main__':fun()
二、将CSV文件转换为XLSX格式
import csv
import xlwt
def csv_to_xlsx():with open('data.csv', 'r') as f:#csv.reader 读取的结果是列表read = csv.reader(f)#创建一个工作簿workbook = xlwt.Workbook()#创建一个sheet对象sheet = workbook.add_sheet('data')#修改写入格式 居中对齐stytle=xlwt.XFStyle() #创建一个样式对象 初始化样式al=xlwt.Alignment()al.horz=0x02al.vert=0x01stytle.alignment=allist1=["链接","电影名称","年份","评分","评价人数"]a=0for i in list1:sheet.write(0,a,i,style=stytle)a=a+1l = 1for line in read:#读取每一个列表r = 0for i in line:#读取每一个列表单元的内容sheet.write(l, r, i,style=stytle) # 一个一个将单元格数据写入r = r + 1l = l + 1workbook.save('1.xlsx') # 保存Excelif __name__ == '__main__':csv_to_xlsx()
豆瓣250信息爬取及保存到excel中相关推荐
- 豆瓣电影Top250信息爬取并保存到excel文件中
豆瓣电影Top250下载并保存到excel文件中 效果图 前言 确定目标网页url 爬取过程 导入相关库 页面内容的获取 页面解析 数据提取 主函数的编写 函数调用 数据存储 完整代码 结语 效果图 ...
- Python爬取中国大学排名,并且保存到excel中
前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...
- bs4爬取的时候有两个标签相同_PYTHON爬取数据储存到excel
PYTHON爬取数据储存到excel 大家周末好呀,我是滑稽君.前两天上网课时朋友发来消息说需要爬取一些数据,然后储存到excel里.记得我公众号里发过关于爬虫的文章,所以找我帮个忙.于是滑稽君花时间 ...
- beautifulsoup爬取网页中的表格_PYTHON爬取数据储存到excel
PYTHON爬取数据储存到excel 大家周末好呀,我是滑稽君.前两天上网课时朋友发来消息说需要爬取一些数据,然后储存到excel里.记得我公众号里发过关于爬虫的文章,所以找我帮个忙.于是滑稽君花时间 ...
- Python实现分析pdf或者Word形式简历,并且保存到Excel中
Python实现分析当前文件夹里面所有的pdf或者Word形式简历,并且保存到Excel中 # -*- coding:utf-8 -*-#作者:公众号:湾区人工智能 #功能:实现分析pdf或者Word ...
- python提取pdf表格数据并保存到excel中
pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...
- python提取txt数据到excel_python 读取txt中每行数据,并且保存到excel中的实例
使用xlwt读取txt文件内容,并且写入到excel中,代码如下,已经加了注释. 代码简单,具体代码如下: # coding=utf-8 ''' main function:主要实现把txt中的每行数 ...
- 怎么把matlab中的图导出,matlab的数据能保存到excel表格-如何将matlab 中输出的图形保存到Excel中去,详细点...
怎样将MATLAB中的数据输出到excel中 数据保存到excel文件 xlswrite(xlsfile, data, sheet, range); % sheet 和 range可以不指定 如: x ...
- python逐行读取txt写入excel_python 读取txt中每行数据,并且保存到excel中的实例
使用xlwt读取txt文件内容,并且写入到excel中,代码如下,已经加了注释. 代码简单,具体代码如下: # coding=utf-8 ''' main function:主要实现把txt中的每行数 ...
- 【Arduino串口数据保存到excel中常用三种方法】
[Arduino串口数据保存到excel中常用三种方法] 1. 前言 2. 利用excel自带Data Streamer读取 2.1 启用 Data Streamer 加载项 2.2 刷写代码并将微控 ...
最新文章
- 小程序前端性能测试_如何提高前端应用程序的性能
- 基于 Python 环境搭建 - YOLO 实现吸烟行为监测
- q标签,短文本引用;blockquote标签,长文本引用
- 远程恢复服务器,Hyper-V主机启用“远程桌面”功能
- 使用Android Studio搭建Android集成开发环境(图文教程)
- x86从实模式到保护模式实验说明
- 【BZOJ3489】A simple rmq problem(树套树)
- 中国通风外墙系统市场趋势报告、技术动态创新及市场预测
- 记一次渗透测试某路由器
- 三层交换机光模块故障排除流程
- 基于Windows平台的Radius服务器搭建指南
- JavaScript级联链表
- 案例分享 | CEVA 使用 TensorFlow Lite 在边缘设备部署语音识别引擎及前端
- torch tensor复数运算
- 我在ESB上走的弯路
- 美术 2.1 DCC工具链与引擎工具链
- 计算机专业英语10.2,计算机专业英语教程第2版 第2期:计算机硬件
- windows 文件与文件夹加密
- linux使用spotify/kafka 镜像docker部署 Kafka
- 桌游“德国心脏病”的C语言代码实现
热门文章
- java论文word_word 论文 排版 适用于 word2016
- 实用的视频去水印方法
- unity3d shader之Julia集和Mandelbrot集绘制美丽图案
- 802.11ac中的Beamforming技术(4)
- 【君思智慧园区】产业园区合作运营模式,现代农业产业园的运营模式有哪些?
- 【文学杂谈】徐宥 - 我的大学
- 苹果安装app的另一种方式(通过itms-services协议,不通过AppStore,直接安装IOS应用程序)
- 鹏业安装算量软件8.0.0.76升级内容
- ssm——整合,前端页面设计,分页
- 逗娱-游戏程序开发实习生测试题