Python 爬虫静态网页示例-豆瓣电影Top250

  • 前期准备
    • 网站信息
  • 代码部分
    • 代码思路
    • 代码实现

前期准备

网站信息

豆瓣官网TOP250:https://movie.douban.com/top250

  1. 打开网页,收集信息

  2. top250的电影分为10页

  3. F12打开控制台(笔记本Fn+F12)

  4. 获取站点,及浏览器伪装信息,一会代码需要用(下图已经用红框标出):

  5. 在展开的详细信息中,复制下图的两点存起来备用,其中的url的start值在每次翻页后都会递增25:

    – 此时翻到第二页,url中的start值变为25,记住这个点,代码中会用到:

  6. 伪装信息也要留下来:

代码部分

代码思路

  1. 涉及到爬取网页会用到requests包
  2. 需要解析为soup对象,会用到BeautifulSoup包
  3. 浏览器伪装信息
  4. 由于该网页不止一页,用循环进行请求
  5. 将获得的响应文件,解析为soup对象
  6. 从解析的内容中,获取我需要的信息

代码实现

1、导入两个需要的包(也可以在下面用到时alt+enter导包):

import requests
from bs4 import BeautifulSoup

2、浏览器伪装信息:

headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'} #伪装浏览器

3、定义循环,确定每页的url:

  • 由于每次翻页url中的start值会增加25,代码处理如下:
  for i in range(0,10):url = 'https://movie.douban.com/top250?start='+str(i * 25)#根据网站控制台信息确定url

4、发送请求,解析响应文档:

r = requests.get(url,headers=headers,timeout=10)#提交申请访问
soup = BeautifulSoup(r.text,'lxml')#第一个参数是要转换的文件,第二个是解释器

5.提取我所需要的部分:

div_list = soup.find_all(name='div',attrs={"class":"hd"})
print(str(i+1),"页的返回状态码",r.status_code)for each in div_list:movie =each.a.span.text.strip()movie_list.append(movie)

5.整体代码:

import requests
from bs4 import BeautifulSoupdef movie_get():movie_list =[]headers ={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:80.0) Gecko/20100101 Firefox/80.0'} #伪装浏览器for i in range(0,10):url = 'https://movie.douban.com/top250?start='+str(i * 25)#根据网站控制台信息确定urlr = requests.get(url,headers=headers,timeout=10)#提交申请访问soup = BeautifulSoup(r.text,'lxml')div_list = soup.find_all(name='div',attrs={"class":"hd"})print(str(i+1),"页的返回状态码",r.status_code)for each in div_list:movie =each.a.span.text.strip()movie_list.append(movie)return movie_list
print(movie_get())

‘Snail 需要慢慢的走’

Python-静态网页示例-豆瓣电影Top250相关推荐

  1. Python爬虫 爬取豆瓣电影TOP250

    Python爬虫 爬取豆瓣电影TOP250 最近在b站上学习了一下python的爬虫,实践爬取豆瓣的电影top250,现在对这两天的学习进行一下总结 主要分为三步: 爬取豆瓣top250的网页,并通过 ...

  2. Python数据可视化:豆瓣电影TOP250

    豆瓣电影TOP250,对于众多爬虫爱好者,应该并不陌生. 很多人都会以此作为第一个练手的小项目. 当然这也多亏了豆瓣的包容,没有加以太多的反爬措施,对新手比较友好. 本期通过Scrapy框架,对豆瓣电 ...

  3. python BeautifulSoup爬取豆瓣电影top250信息并写入Excel表格

    豆瓣是一个社区网站,创立于2005年3月6日.该网站以书影音起家,提供关于书籍,电影,音乐等作品信息,其描述和评论都是由用户提供的,是Web2.0网站中具有特色的一个网站. 豆瓣电影top250网址: ...

  4. Python爬虫爬取豆瓣电影Top250

    爬虫爬取豆瓣Top250 文章目录 爬虫爬取豆瓣Top250 完整代码 第一步获取整个网页并以html来解析 正则表达式来匹配关键词 所有信息写入列表中 存入Excel中 效果如图 本文学习自B站UP ...

  5. python爬取豆瓣电影top250编码_Python学习日记1| 用python爬取豆瓣电影top250

    今天是3.17号. 离毕业论文开题只剩下不到15天,自己这边还不知道要写什么好,问了导师,导师给的范围超级广泛,实在是想吐槽.想了几天,决定了要尽快给老师说自己的想法和方向,做什么还是靠自己比较靠谱. ...

  6. python爬取豆瓣电影top250的代码_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

  7. 【Java爬虫】学爬虫从简单的开始,无门槛小白都能学会,带你爬取豆瓣电影Top250

    闲扯几句 大家好,本期我准备了一篇爬虫的教程,也是从最基础的网页爬虫开始,给大家讲讲网页爬虫的小技巧. 看到网上很多的爬虫代码都是基于python的,那作为一名Java工程师的我就有点不服气了,Jav ...

  8. java 爬取 豆瓣_谁说Java不能搞爬虫,哥带你一起爬取豆瓣电影Top250

    我命由我不由天,我今天就自己来试试看,看看Java写个爬虫是有多费劲?看懂的朋友别忘记给我个哈,毕竟我是堵上了咱们Java程序员的在奋战!奥利给!我们先来分析一下这个网页,看看哪些数据比较有价值.我们 ...

  9. python xpath爬取电影top100_python爬取豆瓣电影top250

    爬取豆瓣电影top250比猫眼top100复杂了一点点,这里主要使用到的工具是BeautifulSoup网页解析库和正则表达式,个人认为,对于静态网页的爬取,Xpath查询语句和正则表达式是最有力的武 ...

最新文章

  1. Linux磁盘管理:LVM逻辑卷的拉伸及缩减
  2. Hey, 看看小程序的page-frame.html把~
  3. QQ圈子:从哪里来,到哪里去
  4. python小练习--模拟用户登录,(3次重试机会,登录成功展示登录账号密码)
  5. 吴恩达 coursera ML 第四课总结+作业答案
  6. 如何解决python爬虫requests.get()遇到的418问题
  7. NSURLCache缓存使用简介
  8. 我是如何在都柏林的一次中转中无意中写了维基百科页面的
  9. opencv中图像伪彩色处理(C++ / Python)
  10. 关于IDE集成开发环境,Pycharm小技巧
  11. redux-form(V7.4.2)笔记( 五)核心模块回顾
  12. RTMP WireShark抓包实例说明
  13. python快捷键失灵
  14. 麦咖啡设置指南------详细介绍访问保护的设置方法抵御未知病毒
  15. OpenEmu for mac(苹果系统原生游戏模拟软件)中文版
  16. 在我离开一段时间后锁定计算机,离开电脑一段时间怎么让win10自动锁屏
  17. Jmeter 调用python3脚本
  18. Gnome3 快捷键
  19. 《墨菲定律》——决策中的学问
  20. 新手入门,想用VB给班上写一个自动播放上下课铃声的程序,求教

热门文章

  1. 国产EDA工具Robei与Quartus ii联合使用(及在Rrobei设计中一些小技巧)
  2. 计算机counta函数怎么用,Excel函数公式:Counta函数的多功能应用~
  3. win10下安装elasticsearch-head
  4. python 可以用excel做词云图嘛_今天从零教你开始利用Python打造词云图!
  5. 因果推断1--基本方法介绍(个人笔记)
  6. 轻松识别文字,这款Python OCR库支持超过80种语言
  7. 计算机搜索栏无法搜索怎么办,电脑桌面搜索框无法使用失效怎么办?
  8. 计算机技术与软件专业技术资格(水平)考试—— 软考中级 网络工程师笔记five
  9. 你离顶尖游戏大厂只差这份招面试攻略啦
  10. 一次云服务器购买经历,给个人建站的小白做些参考