使用request 抓取排行榜,同时将数据内容写入CSV 形成表格文件
#首先检查数据是否存放在页面源代码
#抓取页面源代码
#通过RE正则表达式获取数据
import requests
import re
import csv
page=0
i=0
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}f=open("排行榜.csv",mode='w') #创建并打开文件
csvwriter=csv.writer(f)
csvwriter.writerow(( '名称','年份', '评分'))#写入表头#使用while大循环,控制翻页,每页有25条信息
while i<10:page = i*25URL = 'https://movie.douban.com/top250?start=' + str(page) + '&filter='#拼接URLresp = requests.get(URL,headers=headers) #请求页面源代码html= resp.text #保存源代码#正则表达式obj=re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<电影名称>.*?)</span>.*?'r'<p class="">.*?<br>(?P<年份>.*?)&nbsp.*?<span class="rating_num" property="v:average">(?P<评分>.*?)</span>',re.S)result=obj.finditer(html)#保存数据print("正在获取地%s页"%page)
​​​​​​​#使用for做小循环,将数据写入CSV文件for it in result: #写入CSV文件#print(i.group("电影名称"), i.group("年份").strip(),i.group("评分").strip())dic=it.groupdict()#dic['year']=dic['year'].strip()csvwriter.writerow(dic.values())i=i+1
f.close() #关闭文件
print("成功")

Pythone(学习笔记) Request 豆瓣网页排行榜相关推荐

  1. Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

    概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...

  2. 前端学习笔记之CSS网页布局

    CSS网页布局 阅读目录 一 网页布局方式 二 标准流 三 浮动流 四 定位流 一 网页布局方式 #1.什么是网页布局方式 布局可以理解为排版,我们所熟知的文本编辑类工具都有自己的排版方式,比如wor ...

  3. android学习笔记---53_采用网页设计软件界面,以及使用android系统内置的浏览器,利用js调用java方法

    Java技术qq交流群:JavaDream:251572072 2013/5/16 53_采用网页设计软件界面 ------------------------------ 1.注意这里可以把网页放到 ...

  4. HTML学习笔记:网页基本标签、图像、超链接、列表、音频、视频、表单

    HTML学习笔记 1.网页基本标签 1.1.标题标签 <!--标题标签--> <h1>标题一</h1> <h2>标题二</h2> <h ...

  5. 关于ClassLoader的学习笔记,详解版

    ClassLoader 详解 ClassLoader 做什么的? 延迟加载 各司其职 ClassLoader 传递性 双亲委派 Class.forName 自定义加载器 Class.forName v ...

  6. 【Python_urllib学习笔记(四)】基于urllib和re,爬取豆瓣电影新片榜

    基于urllib和re,爬取豆瓣电影新片榜 前言 此篇文章中介绍如何使用urllib库和re模块,爬取豆瓣电影新片榜. 正文 1.梳理需求 百度搜索-豆瓣电影-排行榜-豆瓣新片榜 提取数据为:电影名称 ...

  7. python 网页爬虫作业调度_第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...

  8. Python学习笔记:爬取网页图片

    Python学习笔记:爬取网页图片 上次我们利用requests与BeautifulSoup爬取了豆瓣<下町火箭>短评,这次我们来学习爬取网页图片. 比如想爬取下面这张网页的所有图片.网址 ...

  9. 【Django】(3)创建网页:学习笔记主页

    创建Django的过程通常为三个阶段:定义URL,编写视图和编写模板. 映射URL 当在浏览器中输入URL时,现在默认会返回默认的Django网站,现在需要将主页映射到项目"学习笔记&quo ...

最新文章

  1. IM群聊消息如此复杂,如何保证不丢不重?
  2. 4由通道检测_大唐阜新煤制天然气「榜样力量」实训做实出实效——废水总酚检测时间由4小时缩短至10分钟...
  3. 计算机专业学教育技术优势,西南交通大学教育技术学(040110)专业介绍
  4. Java 内置的数据类型
  5. python3callable使用_python --- Python中的callable 函数
  6. java实现mysql增量备份_企业级MySQL备份原理
  7. 字节跳动2019春招笔试——找零(JavaScript)
  8. 电脑获取服务器IP,ping nslookup获取心知天气的IP地址,windows cmd命令行进行DNS域名解析解析
  9. IOS学习笔记6—Objective C—Foundation框架
  10. Linux下如何用GDB调试c++程序 [版本2]
  11. Android库和项目收集-图片
  12. 结构体 可以由多个不同类型的数据构成
  13. 微信小程序搭载node.js服务器(简)
  14. C解决duplicate symbol
  15. 计算机国际会议开幕词,英文一篇计算机国际会议的开幕词
  16. [后缀数组][trie合并][启发式合并][并查集] LOJ #6198. 谢特
  17. 安卓蓝牙打印机无法打印问题
  18. 谈技术文章翻译的信雅达-上
  19. Java大对象类型的Hibernate映射
  20. [Office] WPS Excel通过添加宏实现多张表格合并

热门文章

  1. 数理统计笔记2:总体均值的抽样分布
  2. 计算等额本本息和等额本金的python代码
  3. llvm libLLVMCore源码分析 13 - Other Operators
  4. 2021苹果CMSV10完美对接萝卜影视(原生)蓝色版
  5. 微信还可以这样玩|ItChat
  6. 时间加减计算器_FRM计算器使用流程你知道吗?
  7. 曹胜欢,java那些事儿
  8. 国内10个千年古镇 绝美春色洗涤你的眼
  9. DP4809国产双通道耳机音频功率放大器芯片兼容替代LM4809
  10. element表格 频繁切换维度,导致表头渲染有误