Python-静态网页示例-豆瓣电影Top250
Python 爬虫静态网页示例-豆瓣电影Top250
- 前期准备
- 网站信息
- 代码部分
- 代码思路
- 代码实现
前期准备
网站信息
豆瓣官网TOP250:https://movie.douban.com/top250
打开网页,收集信息
top250的电影分为10页
F12打开控制台(笔记本Fn+F12)
获取站点,及浏览器伪装信息,一会代码需要用(下图已经用红框标出):
在展开的详细信息中,复制下图的两点存起来备用,其中的url的start值在每次翻页后都会递增25:
– 此时翻到第二页,url中的start值变为25,记住这个点,代码中会用到:
伪装信息也要留下来:
代码部分
代码思路
- 涉及到爬取网页会用到requests包
- 需要解析为soup对象,会用到BeautifulSoup包
- 浏览器伪装信息
- 由于该网页不止一页,用循环进行请求
- 将获得的响应文件,解析为soup对象
- 从解析的内容中,获取我需要的信息
代码实现
1、导入两个需要的包(也可以在下面用到时alt+enter导包):
import requests
from bs4 import BeautifulSoup
2、浏览器伪装信息:
headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'} #伪装浏览器
3、定义循环,确定每页的url:
- 由于每次翻页url中的start值会增加25,代码处理如下:
for i in range(0,10):url = 'https://movie.douban.com/top250?start='+str(i * 25)#根据网站控制台信息确定url
4、发送请求,解析响应文档:
r = requests.get(url,headers=headers,timeout=10)#提交申请访问
soup = BeautifulSoup(r.text,'lxml')#第一个参数是要转换的文件,第二个是解释器
5.提取我所需要的部分:
div_list = soup.find_all(name='div',attrs={"class":"hd"})
print(str(i+1),"页的返回状态码",r.status_code)for each in div_list:movie =each.a.span.text.strip()movie_list.append(movie)
5.整体代码:
import requests
from bs4 import BeautifulSoupdef movie_get():movie_list =[]headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'} #伪装浏览器for i in range(0,10):url = 'https://movie.douban.com/top250?start='+str(i * 25)#根据网站控制台信息确定urlr = requests.get(url,headers=headers,timeout=10)#提交申请访问soup = BeautifulSoup(r.text,'lxml')div_list = soup.find_all(name='div',attrs={"class":"hd"})print(str(i+1),"页的返回状态码",r.status_code)for each in div_list:movie =each.a.span.text.strip()movie_list.append(movie)return movie_list
print(movie_get())
‘Snail 需要慢慢的走’
Python-静态网页示例-豆瓣电影Top250相关推荐
- Python爬虫 爬取豆瓣电影TOP250
Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...
- Python数据可视化:豆瓣电影TOP250
豆瓣电影TOP250,对于众多爬虫爱好者,应该并不陌生. 很多人都会以此作为第一个练手的小项目. 当然这也多亏了豆瓣的包容,没有加以太多的反爬措施,对新手比较友好. 本期通过Scrapy框架,对豆瓣电 ...
- python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格
豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...
- Python爬虫爬取豆瓣电影Top250
爬虫爬取豆瓣Top250 文章目录 爬虫爬取豆瓣Top250 完整代码 第一步获取整个网页并以html来解析 正则表达式来匹配关键词 所有信息写入列表中 存入Excel中 效果如图 本文学习自B站UP ...
- python爬取豆瓣电影top250编码_Python学习日记1| 用python爬取豆瓣电影top250
今天是3.17号. 离毕业论文开题只剩下不到15天,自己这边还不知道要写什么好,问了导师,导师给的范围超级广泛,实在是想吐槽.想了几天,决定了要尽快给老师说自己的想法和方向,做什么还是靠自己比较靠谱. ...
- python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...
- 【Java爬虫】学爬虫从简单的开始,无门槛小白都能学会,带你爬取豆瓣电影Top250
闲扯几句 大家好,本期我准备了一篇爬虫的教程,也是从最基础的网页爬虫开始,给大家讲讲网页爬虫的小技巧. 看到网上很多的爬虫代码都是基于python的,那作为一名Java工程师的我就有点不服气了,Jav ...
- java 爬取 豆瓣_谁说Java不能搞爬虫,哥带你一起爬取豆瓣电影Top250
我命由我不由天,我今天就自己来试试看,看看Java写个爬虫是有多费劲?看懂的朋友别忘记给我个哈,毕竟我是堵上了咱们Java程序员的在奋战!奥利给!我们先来分析一下这个网页,看看哪些数据比较有价值.我们 ...
- python xpath爬取电影top100_python爬取豆瓣电影top250
爬取豆瓣电影top250比猫眼top100复杂了一点点,这里主要使用到的工具是BeautifulSoup网页解析库和正则表达式,个人认为,对于静态网页的爬取,Xpath查询语句和正则表达式是最有力的武 ...
最新文章
- Linux磁盘管理:LVM逻辑卷的拉伸及缩减
- Hey, 看看小程序的page-frame.html把~
- QQ圈子:从哪里来,到哪里去
- python小练习--模拟用户登录,(3次重试机会,登录成功展示登录账号密码)
- 吴恩达 coursera ML 第四课总结+作业答案
- 如何解决python爬虫requests.get()遇到的418问题
- NSURLCache缓存使用简介
- 我是如何在都柏林的一次中转中无意中写了维基百科页面的
- opencv中图像伪彩色处理(C++ / Python)
- 关于IDE集成开发环境,Pycharm小技巧
- redux-form(V7.4.2)笔记( 五)核心模块回顾
- RTMP WireShark抓包实例说明
- python快捷键失灵
- 麦咖啡设置指南------详细介绍访问保护的设置方法抵御未知病毒
- OpenEmu for mac(苹果系统原生游戏模拟软件)中文版
- 在我离开一段时间后锁定计算机,离开电脑一段时间怎么让win10自动锁屏
- Jmeter 调用python3脚本
- Gnome3 快捷键
- 《墨菲定律》——决策中的学问
- 新手入门,想用VB给班上写一个自动播放上下课铃声的程序,求教
热门文章
- 国产EDA工具Robei与Quartus ii联合使用(及在Rrobei设计中一些小技巧)
- 计算机counta函数怎么用,Excel函数公式:Counta函数的多功能应用~
- win10下安装elasticsearch-head
- python 可以用excel做词云图嘛_今天从零教你开始利用Python打造词云图!
- 因果推断1--基本方法介绍(个人笔记)
- 轻松识别文字,这款Python OCR库支持超过80种语言
- 计算机搜索栏无法搜索怎么办,电脑桌面搜索框无法使用失效怎么办?
- 计算机技术与软件专业技术资格(水平)考试—— 软考中级 网络工程师笔记five
- 你离顶尖游戏大厂只差这份招面试攻略啦
- 一次云服务器购买经历,给个人建站的小白做些参考