按照小甲鱼的爬虫教程,再自己修改了一部分。
废话不多说,直接贴代码

import requests
from bs4 import BeautifulSoup
import redef open_url(url):#使用代理#proxies = {"http":"127.0.0.1:1080","https":"127.0.0.1:1080"}headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}res = requests.get(url, headers=headers)#res = requests.get(url, headers=headers, proxies=proxies)return resdef find_movies(res,depth):soup = BeautifulSoup(res.text, 'html.parser')#电影名movies = []targets = soup.find_all("div",class_="hd")for each in targets:movies.append(each.a.span.text)#评分ranks = []targets = soup.find_all("span", class_="rating_num")for each in targets:ranks.append(' 评分:%s' % each.text)#资料messages = []targets = soup.find_all("div", class_="bd")for each in targets:try:msg = each.p.text.split('\n')[1].strip() + each.p.text.split('\n')[2].strip()temp = re.sub('[a-zA-Z]','',msg)#过滤掉英文名messages.append(temp)except:continue#简介introduction = []targets = soup.find_all("div", class_="star")for each in targets:try:introduction.append(each.next_sibling.next_sibling.text)#通过next_sibling找到可能不存在的简介except:introduction.append("无") #没有简介的电影后面加无result = []length = len(movies)index = depth * 25for i in range(length):result.append('第' + str(index+1)+'名' +'---'+movies[i] +'---'+ ranks[i].center(10) +'---'+ messages[i] +'---'+ introduction[i] + '\n')index = index + 1return result
#一共多少个页面
def find_depth(res):soup = BeautifulSoup(res.text, 'html.parser')depth = soup.find('span', class_='next').previous_sibling.previous_sibling.textreturn int(depth)def main():host = "https://movie.douban.com/top250" #url主网址res = open_url(host)depth = find_depth(res)result = []for index in range(depth):url = host + '/?start=' + str(25 * index)res =open_url(url)result.extend(find_movies(res,index))with open("豆瓣TOP250电影.txt", "w", encoding="utf-8") as f:for each in result:f.write(each)if __name__=="__main__":main()

最终效果还不错:

python爬取豆瓣TOP250电影相关推荐

  1. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  2. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

  3. Python爬取豆瓣Top250电影排名

    # -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...

  4. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  5. Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)

    Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...

  6. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  7. python 爬取豆瓣top100电影页面

    python 爬取豆瓣top100电影页面 运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存 避免多次访问 (登陆状态需页面cooki ...

  8. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  9. 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。

    爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

最新文章

  1. xpath定位中starts-with、contains和text()的用法
  2. mysql can_***MySQL错误:Can't connect to MySQL server (10060)
  3. 入门JavaScript?看懂这篇文章就够了!——Web前端系列学习笔记
  4. 20150901-Linux磁盘管理及文件系统管理
  5. C语言strstr函数实现
  6. STM32工作笔记0017---ISP串口下载
  7. 新东方年会节目员工吐槽公司问题 俞敏洪:奖励12万
  8. 源码实践指南!Mastering opencv Ch3 Markerless AR--UBUNTU下 opencv+opengl 运行
  9. 触摸屏是怎么控制PLC的?
  10. poj java_POJ 3083 java实现
  11. wsl 搭建 ubantu环境
  12. 癌症/肿瘤免疫治疗最新进展(2022年3月)
  13. Macbook Pro 启动Win7的过程中黑屏(black screen)
  14. 日本研发5nm取得重大进展,和美国远离EUV,ASML陷入众叛亲离境地
  15. Square Destroyer UVA - 1603 IDA*
  16. 资深研发真实编写的骚注释,你学废了么?
  17. 设计一个学生学籍管理系统
  18. 列表4:拼接排序方法实操
  19. ElasticSearch简介及ElasticSearch部署、原理和使用介绍
  20. AirDisk产品怎么恢复出厂设置?

热门文章

  1. Springboot毕设项目基于springboot的校园招聘系统dm1tu(java+VUE+Mybatis+Maven+Mysql)
  2. 大猫猫的JNCIE考试经历-第一次Fail
  3. 新工科下计算机专业,【计算机专业论文】新工科下的计算机专业有效产教融合(共4436字)...
  4. 火牛协议php网页版源码_阿狸子PHP商品订单系统V2.9豪华版源码(竞价单页源码,分销商城)...
  5. 基于java的快递物流查询系统_毕业论文-快递管理基于java的物流快递管理系统设计.doc...
  6. 【转载】用Word编辑论文的几个建议
  7. Linux 中 make 命令用法示例
  8. 基于安卓的公交查询系统设计与实现(含word文档)
  9. 三国杀虚拟服务器设置,三国杀单机版怎么玩?太阳神三国杀联网设置教程
  10. 计算机主机如何启动,教你电脑关机后自动开机怎么办