Pythone（学习笔记） Request 豆瓣网页排行榜

使用request 抓取排行榜，同时将数据内容写入CSV 形成表格文件
#首先检查数据是否存放在页面源代码
#抓取页面源代码
#通过RE正则表达式获取数据
import requests
import re
import csv
page=0
i=0
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}f=open("排行榜.csv",mode='w') #创建并打开文件
csvwriter=csv.writer(f)
csvwriter.writerow(( '名称','年份', '评分'))#写入表头#使用while大循环，控制翻页，每页有25条信息
while i<10:page = i*25URL = 'https://movie.douban.com/top250?start=' + str(page) + '&filter='#拼接URLresp = requests.get(URL,headers=headers) #请求页面源代码html= resp.text #保存源代码#正则表达式obj=re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<电影名称>.*?)</span>.*?'r'<p class="">.*?<br>(?P<年份>.*?)&nbsp.*?<span class="rating_num" property="v:average">(?P<评分>.*?)</span>',re.S)result=obj.finditer(html)#保存数据print("正在获取地%s页"%page)
#使用for做小循环，将数据写入CSV文件for it in result: #写入CSV文件#print(i.group("电影名称"), i.group("年份").strip(),i.group("评分").strip())dic=it.groupdict()#dic['year']=dic['year'].strip()csvwriter.writerow(dic.values())i=i+1
f.close() #关闭文件
print("成功")

Pythone（学习笔记） Request 豆瓣网页排行榜相关推荐

Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中
概述利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中使用pymongo库操作MOngodb数据库没有进行数据清洗源码 items.py class Dou ...
前端学习笔记之CSS网页布局
CSS网页布局阅读目录一网页布局方式二标准流三浮动流四定位流一网页布局方式 #1.什么是网页布局方式布局可以理解为排版,我们所熟知的文本编辑类工具都有自己的排版方式,比如wor ...
android学习笔记---53_采用网页设计软件界面,以及使用android系统内置的浏览器,利用js调用java方法
Java技术qq交流群:JavaDream:251572072 2013/5/16 53_采用网页设计软件界面 ------------------------------ 1.注意这里可以把网页放到 ...
HTML学习笔记：网页基本标签、图像、超链接、列表、音频、视频、表单
HTML学习笔记 1.网页基本标签 1.1.标题标签  <h1>标题一</h1> <h2>标题二</h2> <h ...
关于ClassLoader的学习笔记，详解版
ClassLoader 详解 ClassLoader 做什么的? 延迟加载各司其职 ClassLoader 传递性双亲委派 Class.forName 自定义加载器 Class.forName v ...
【Python_urllib学习笔记（四）】基于urllib和re，爬取豆瓣电影新片榜
基于urllib和re,爬取豆瓣电影新片榜前言此篇文章中介绍如何使用urllib库和re模块,爬取豆瓣电影新片榜. 正文 1.梳理需求百度搜索-豆瓣电影-排行榜-豆瓣新片榜提取数据为:电影名称 ...
python 网页爬虫作业调度_第3次作业-MOOC学习笔记：Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...
Python学习笔记：爬取网页图片
Python学习笔记:爬取网页图片上次我们利用requests与BeautifulSoup爬取了豆瓣<下町火箭>短评,这次我们来学习爬取网页图片. 比如想爬取下面这张网页的所有图片.网址 ...
【Django】（3）创建网页：学习笔记主页
创建Django的过程通常为三个阶段:定义URL,编写视图和编写模板. 映射URL 当在浏览器中输入URL时,现在默认会返回默认的Django网站,现在需要将主页映射到项目"学习笔记&quo ...

Pythone（学习笔记） Request 豆瓣网页排行榜

Pythone（学习笔记） Request 豆瓣网页排行榜相关推荐

最新文章

热门文章