目录

一、爬取网页基本信息

二、将CSV文件转换为XLSX格式


一、爬取网页基本信息

网页头 Header:

网页URL:

网页源代码:

#通过re来提取想要的有效信息
import re
import csv
import requests
def fun():for i in range(10):print(f"正在爬取第{i}页")url = "https://movie.douban.com/top250?start={}&filter=".format(i*25)headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36 Edg/97.0.1072.55"}resp = requests.get(url, headers=headers)page_content = resp.text# 解析数据obj = re.compile(r'<li>.*?<em class="">.*?</em>.*?<a href="(?P<link>.*?)">.*?'r'<span class="title">(?P<name>.*?)</span>.*?'r'<p class="">.*?<br>(?P<year>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<content>.*?)</span>.*?'r'<span>(?P<num>.*?)</span>', re.S)# 开始匹配result = obj.finditer(page_content)# 不读取空白行f = open("data.csv", 'a+', newline='')csvwriter = csv.writer(f)for it in result:# print(it.group("link"))# print(it.group("name"))# print(it.group("year").strip())# print(it.group("content"))# print(it.group("num"))dic = it.groupdict()dic['year'] = dic['year'].strip()csvwriter.writerow(dic.values())# print(it.group())if __name__ == '__main__':fun()

二、将CSV文件转换为XLSX格式

import csv
import xlwt
def csv_to_xlsx():with open('data.csv', 'r') as f:#csv.reader 读取的结果是列表read = csv.reader(f)#创建一个工作簿workbook = xlwt.Workbook()#创建一个sheet对象sheet = workbook.add_sheet('data')#修改写入格式 居中对齐stytle=xlwt.XFStyle() #创建一个样式对象 初始化样式al=xlwt.Alignment()al.horz=0x02al.vert=0x01stytle.alignment=allist1=["链接","电影名称","年份","评分","评价人数"]a=0for i in list1:sheet.write(0,a,i,style=stytle)a=a+1l = 1for line in read:#读取每一个列表r = 0for i in line:#读取每一个列表单元的内容sheet.write(l, r, i,style=stytle)  # 一个一个将单元格数据写入r = r + 1l = l + 1workbook.save('1.xlsx')  # 保存Excelif __name__ == '__main__':csv_to_xlsx()

豆瓣250信息爬取及保存到excel中相关推荐

  1. 豆瓣电影Top250信息爬取并保存到excel文件中

    豆瓣电影Top250下载并保存到excel文件中 效果图 前言 确定目标网页url 爬取过程 导入相关库 页面内容的获取 页面解析 数据提取 主函数的编写 函数调用 数据存储 完整代码 结语 效果图 ...

  2. Python爬取中国大学排名,并且保存到excel中

    前言 以下文章来源于数据分析和Python ,作者冈坂日川 今天发的是python爬虫爬取中国大学排名,并且保存到excel中,当然这个代码很简单,我用了半小时就写完了,我的整体框架非常清晰,可以直接 ...

  3. bs4爬取的时候有两个标签相同_PYTHON爬取数据储存到excel

    PYTHON爬取数据储存到excel 大家周末好呀,我是滑稽君.前两天上网课时朋友发来消息说需要爬取一些数据,然后储存到excel里.记得我公众号里发过关于爬虫的文章,所以找我帮个忙.于是滑稽君花时间 ...

  4. beautifulsoup爬取网页中的表格_PYTHON爬取数据储存到excel

    PYTHON爬取数据储存到excel 大家周末好呀,我是滑稽君.前两天上网课时朋友发来消息说需要爬取一些数据,然后储存到excel里.记得我公众号里发过关于爬虫的文章,所以找我帮个忙.于是滑稽君花时间 ...

  5. Python实现分析pdf或者Word形式简历,并且保存到Excel中

    Python实现分析当前文件夹里面所有的pdf或者Word形式简历,并且保存到Excel中 # -*- coding:utf-8 -*-#作者:公众号:湾区人工智能 #功能:实现分析pdf或者Word ...

  6. python提取pdf表格数据并保存到excel中

    pdfplumber操作pdf文件 python开源库pdfplumber,可以较为方便地获取pdf的各种信息,包含pdf的基本信息(作者.创建时间.修改时间-)及表格.文本.图片等信息,基本可以满足 ...

  7. python提取txt数据到excel_python 读取txt中每行数据,并且保存到excel中的实例

    使用xlwt读取txt文件内容,并且写入到excel中,代码如下,已经加了注释. 代码简单,具体代码如下: # coding=utf-8 ''' main function:主要实现把txt中的每行数 ...

  8. 怎么把matlab中的图导出,matlab的数据能保存到excel表格-如何将matlab 中输出的图形保存到Excel中去,详细点...

    怎样将MATLAB中的数据输出到excel中 数据保存到excel文件 xlswrite(xlsfile, data, sheet, range); % sheet 和 range可以不指定 如: x ...

  9. python逐行读取txt写入excel_python 读取txt中每行数据,并且保存到excel中的实例

    使用xlwt读取txt文件内容,并且写入到excel中,代码如下,已经加了注释. 代码简单,具体代码如下: # coding=utf-8 ''' main function:主要实现把txt中的每行数 ...

  10. 【Arduino串口数据保存到excel中常用三种方法】

    [Arduino串口数据保存到excel中常用三种方法] 1. 前言 2. 利用excel自带Data Streamer读取 2.1 启用 Data Streamer 加载项 2.2 刷写代码并将微控 ...

最新文章

  1. 小程序前端性能测试_如何提高前端应用程序的性能
  2. 基于 Python 环境搭建 - YOLO 实现吸烟行为监测
  3. q标签,短文本引用;blockquote标签,长文本引用
  4. 远程恢复服务器,Hyper-V主机启用“远程桌面”功能
  5. 使用Android Studio搭建Android集成开发环境(图文教程)
  6. x86从实模式到保护模式实验说明
  7. 【BZOJ3489】A simple rmq problem(树套树)
  8. 中国通风外墙系统市场趋势报告、技术动态创新及市场预测
  9. 记一次渗透测试某路由器
  10. 三层交换机光模块故障排除流程
  11. 基于Windows平台的Radius服务器搭建指南
  12. JavaScript级联链表
  13. 案例分享 | CEVA 使用 TensorFlow Lite 在边缘设备部署语音识别引擎及前端
  14. torch tensor复数运算
  15. 我在ESB上走的弯路
  16. 美术 2.1 DCC工具链与引擎工具链
  17. 计算机专业英语10.2,计算机专业英语教程第2版 第2期:计算机硬件
  18. windows 文件与文件夹加密
  19. linux使用spotify/kafka 镜像docker部署 Kafka
  20. 桌游“德国心脏病”的C语言代码实现

热门文章

  1. java论文word_word 论文 排版 适用于 word2016
  2. 实用的视频去水印方法
  3. unity3d shader之Julia集和Mandelbrot集绘制美丽图案
  4. 802.11ac中的Beamforming技术(4)
  5. 【君思智慧园区】产业园区合作运营模式,现代农业产业园的运营模式有哪些?
  6. 【文学杂谈】徐宥 - 我的大学
  7. 苹果安装app的另一种方式(通过itms-services协议,不通过AppStore,直接安装IOS应用程序)
  8. 鹏业安装算量软件8.0.0.76升级内容
  9. ssm——整合,前端页面设计,分页
  10. 逗娱-游戏程序开发实习生测试题