Pythone(学习笔记) Request 豆瓣网页排行榜
使用request 抓取排行榜,同时将数据内容写入CSV 形成表格文件 #首先检查数据是否存放在页面源代码 #抓取页面源代码 #通过RE正则表达式获取数据 import requests import re import csv page=0 i=0 headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36"}f=open("排行榜.csv",mode='w') #创建并打开文件 csvwriter=csv.writer(f) csvwriter.writerow(( '名称','年份', '评分'))#写入表头#使用while大循环,控制翻页,每页有25条信息 while i<10:page = i*25URL = 'https://movie.douban.com/top250?start=' + str(page) + '&filter='#拼接URLresp = requests.get(URL,headers=headers) #请求页面源代码html= resp.text #保存源代码#正则表达式obj=re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<电影名称>.*?)</span>.*?'r'<p class="">.*?<br>(?P<年份>.*?) .*?<span class="rating_num" property="v:average">(?P<评分>.*?)</span>',re.S)result=obj.finditer(html)#保存数据print("正在获取地%s页"%page) #使用for做小循环,将数据写入CSV文件for it in result: #写入CSV文件#print(i.group("电影名称"), i.group("年份").strip(),i.group("评分").strip())dic=it.groupdict()#dic['year']=dic['year'].strip()csvwriter.writerow(dic.values())i=i+1 f.close() #关闭文件 print("成功")
Pythone(学习笔记) Request 豆瓣网页排行榜相关推荐
- Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中
概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...
- 前端学习笔记之CSS网页布局
CSS网页布局 阅读目录 一 网页布局方式 二 标准流 三 浮动流 四 定位流 一 网页布局方式 #1.什么是网页布局方式 布局可以理解为排版,我们所熟知的文本编辑类工具都有自己的排版方式,比如wor ...
- android学习笔记---53_采用网页设计软件界面,以及使用android系统内置的浏览器,利用js调用java方法
Java技术qq交流群:JavaDream:251572072 2013/5/16 53_采用网页设计软件界面 ------------------------------ 1.注意这里可以把网页放到 ...
- HTML学习笔记:网页基本标签、图像、超链接、列表、音频、视频、表单
HTML学习笔记 1.网页基本标签 1.1.标题标签 <!--标题标签--> <h1>标题一</h1> <h2>标题二</h2> <h ...
- 关于ClassLoader的学习笔记,详解版
ClassLoader 详解 ClassLoader 做什么的? 延迟加载 各司其职 ClassLoader 传递性 双亲委派 Class.forName 自定义加载器 Class.forName v ...
- 【Python_urllib学习笔记(四)】基于urllib和re,爬取豆瓣电影新片榜
基于urllib和re,爬取豆瓣电影新片榜 前言 此篇文章中介绍如何使用urllib库和re模块,爬取豆瓣电影新片榜. 正文 1.梳理需求 百度搜索-豆瓣电影-排行榜-豆瓣新片榜 提取数据为:电影名称 ...
- python 网页爬虫作业调度_第3次作业-MOOC学习笔记:Python网络爬虫与信息提取
1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业. 4.提供图片或网站显示的学习 ...
- Python学习笔记:爬取网页图片
Python学习笔记:爬取网页图片 上次我们利用requests与BeautifulSoup爬取了豆瓣<下町火箭>短评,这次我们来学习爬取网页图片. 比如想爬取下面这张网页的所有图片.网址 ...
- 【Django】(3)创建网页:学习笔记主页
创建Django的过程通常为三个阶段:定义URL,编写视图和编写模板. 映射URL 当在浏览器中输入URL时,现在默认会返回默认的Django网站,现在需要将主页映射到项目"学习笔记&quo ...
最新文章
- IM群聊消息如此复杂,如何保证不丢不重?
- 4由通道检测_大唐阜新煤制天然气「榜样力量」实训做实出实效——废水总酚检测时间由4小时缩短至10分钟...
- 计算机专业学教育技术优势,西南交通大学教育技术学(040110)专业介绍
- Java 内置的数据类型
- python3callable使用_python --- Python中的callable 函数
- java实现mysql增量备份_企业级MySQL备份原理
- 字节跳动2019春招笔试——找零(JavaScript)
- 电脑获取服务器IP,ping nslookup获取心知天气的IP地址,windows cmd命令行进行DNS域名解析解析
- IOS学习笔记6—Objective C—Foundation框架
- Linux下如何用GDB调试c++程序 [版本2]
- Android库和项目收集-图片
- 结构体 可以由多个不同类型的数据构成
- 微信小程序搭载node.js服务器(简)
- C解决duplicate symbol
- 计算机国际会议开幕词,英文一篇计算机国际会议的开幕词
- [后缀数组][trie合并][启发式合并][并查集] LOJ #6198. 谢特
- 安卓蓝牙打印机无法打印问题
- 谈技术文章翻译的信雅达-上
- Java大对象类型的Hibernate映射
- [Office] WPS Excel通过添加宏实现多张表格合并