前期准备

网站信息

豆瓣官网TOP250：https://movie.douban.com/top250

打开网页，收集信息
top250的电影分为10页
F12打开控制台（笔记本Fn+F12）
获取站点，及浏览器伪装信息，一会代码需要用（下图已经用红框标出）：
在展开的详细信息中，复制下图的两点存起来备用，其中的url的start值在每次翻页后都会递增25：

– 此时翻到第二页，url中的start值变为25，记住这个点，代码中会用到：
伪装信息也要留下来：

代码部分

代码思路

涉及到爬取网页会用到requests包
需要解析为soup对象，会用到BeautifulSoup包
浏览器伪装信息
由于该网页不止一页，用循环进行请求
将获得的响应文件，解析为soup对象
从解析的内容中，获取我需要的信息

代码实现

1、导入两个需要的包（也可以在下面用到时alt+enter导包）：

import requests
from bs4 import BeautifulSoup

2、浏览器伪装信息：

headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'} #伪装浏览器

3、定义循环，确定每页的url：

由于每次翻页url中的start值会增加25，代码处理如下：

  for i in range(0,10):url = 'https://movie.douban.com/top250?start='+str(i * 25)#根据网站控制台信息确定url

4、发送请求，解析响应文档：

r = requests.get(url,headers=headers,timeout=10)#提交申请访问
soup = BeautifulSoup(r.text,'lxml')#第一个参数是要转换的文件，第二个是解释器

5.提取我所需要的部分：

div_list = soup.find_all(name='div',attrs={"class":"hd"})
print(str(i+1),"页的返回状态码",r.status_code)for each in div_list:movie =each.a.span.text.strip()movie_list.append(movie)

5.整体代码：

import requests
from bs4 import BeautifulSoupdef movie_get():movie_list =[]headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'} #伪装浏览器for i in range(0,10):url = 'https://movie.douban.com/top250?start='+str(i * 25)#根据网站控制台信息确定urlr = requests.get(url,headers=headers,timeout=10)#提交申请访问soup = BeautifulSoup(r.text,'lxml')div_list = soup.find_all(name='div',attrs={"class":"hd"})print(str(i+1),"页的返回状态码",r.status_code)for each in div_list:movie =each.a.span.text.strip()movie_list.append(movie)return movie_list
print(movie_get())

‘Snail 需要慢慢的走’

Python-静态网页示例-豆瓣电影Top250相关推荐

Python爬虫爬取豆瓣电影TOP250
Python爬虫爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结主要分为三步: 爬取豆瓣top250的网页,并通过 ...
Python数据可视化：豆瓣电影TOP250
豆瓣电影TOP250,对于众多爬虫爱好者,应该并不陌生. 很多人都会以此作为第一个练手的小项目. 当然这也多亏了豆瓣的包容,没有加以太多的反爬措施,对新手比较友好. 本期通过Scrapy框架,对豆瓣电 ...
python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格
豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...
Python爬虫爬取豆瓣电影Top250
爬虫爬取豆瓣Top250 文章目录爬虫爬取豆瓣Top250 完整代码第一步获取整个网页并以html来解析正则表达式来匹配关键词所有信息写入列表中存入Excel中效果如图本文学习自B站UP ...
python爬取豆瓣电影top250编码_Python学习日记1| 用python爬取豆瓣电影top250
今天是3.17号. 离毕业论文开题只剩下不到15天,自己这边还不知道要写什么好,问了导师,导师给的范围超级广泛,实在是想吐槽.想了几天,决定了要尽快给老师说自己的想法和方向,做什么还是靠自己比较靠谱. ...
python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例
利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...
【Java爬虫】学爬虫从简单的开始，无门槛小白都能学会，带你爬取豆瓣电影Top250
闲扯几句大家好,本期我准备了一篇爬虫的教程,也是从最基础的网页爬虫开始,给大家讲讲网页爬虫的小技巧. 看到网上很多的爬虫代码都是基于python的,那作为一名Java工程师的我就有点不服气了,Jav ...
java 爬取豆瓣_谁说Java不能搞爬虫，哥带你一起爬取豆瓣电影Top250
我命由我不由天,我今天就自己来试试看,看看Java写个爬虫是有多费劲?看懂的朋友别忘记给我个哈,毕竟我是堵上了咱们Java程序员的在奋战!奥利给!我们先来分析一下这个网页,看看哪些数据比较有价值.我们 ...
python xpath爬取电影top100_python爬取豆瓣电影top250
爬取豆瓣电影top250比猫眼top100复杂了一点点,这里主要使用到的工具是BeautifulSoup网页解析库和正则表达式,个人认为,对于静态网页的爬取,Xpath查询语句和正则表达式是最有力的武 ...

Python-静态网页示例-豆瓣电影Top250

Python 爬虫静态网页示例-豆瓣电影Top250

前期准备

网站信息

代码部分

代码思路

代码实现

Python-静态网页示例-豆瓣电影Top250相关推荐

最新文章

热门文章