python爬取豆瓣TOP250电影

按照小甲鱼的爬虫教程，再自己修改了一部分。
废话不多说，直接贴代码

import requests
from bs4 import BeautifulSoup
import redef open_url(url):#使用代理#proxies = {"http":"127.0.0.1:1080","https":"127.0.0.1:1080"}headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}res = requests.get(url, headers=headers)#res = requests.get(url, headers=headers, proxies=proxies)return resdef find_movies(res,depth):soup = BeautifulSoup(res.text, 'html.parser')#电影名movies = []targets = soup.find_all("div",class_="hd")for each in targets:movies.append(each.a.span.text)#评分ranks = []targets = soup.find_all("span", class_="rating_num")for each in targets:ranks.append(' 评分：%s' % each.text)#资料messages = []targets = soup.find_all("div", class_="bd")for each in targets:try:msg = each.p.text.split('\n')[1].strip() + each.p.text.split('\n')[2].strip()temp = re.sub('[a-zA-Z]','',msg)#过滤掉英文名messages.append(temp)except:continue#简介introduction = []targets = soup.find_all("div", class_="star")for each in targets:try:introduction.append(each.next_sibling.next_sibling.text)#通过next_sibling找到可能不存在的简介except:introduction.append("无") #没有简介的电影后面加无result = []length = len(movies)index = depth * 25for i in range(length):result.append('第' + str(index+1)+'名' +'---'+movies[i] +'---'+ ranks[i].center(10) +'---'+ messages[i] +'---'+ introduction[i] + '\n')index = index + 1return result
#一共多少个页面
def find_depth(res):soup = BeautifulSoup(res.text, 'html.parser')depth = soup.find('span', class_='next').previous_sibling.previous_sibling.textreturn int(depth)def main():host = "https://movie.douban.com/top250" #url主网址res = open_url(host)depth = find_depth(res)result = []for index in range(depth):url = host + '/?start=' + str(25 * index)res =open_url(url)result.extend(find_movies(res,index))with open("豆瓣TOP250电影.txt", "w", encoding="utf-8") as f:for each in result:f.write(each)if __name__=="__main__":main()

最终效果还不错：

python爬取豆瓣TOP250电影相关推荐

Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息前言双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
Python爬取豆瓣Top250电影可见资料并保存为excel形式
Python爬取豆瓣Top250电影可见资料并保存为excel形式利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...
Python爬取豆瓣Top250电影排名
# -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
Python爬虫菜鸟入门，爬取豆瓣top250电影（自己学习，如有侵权，请联系我删除）
Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...
python采用requests+bs4爬取豆瓣top250电影信息
爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...
python 爬取豆瓣top100电影页面
python 爬取豆瓣top100电影页面运行结果截图: 代码: (原网站:https://movie.douban.com/top250) 1.将页面保存避免多次访问 (登陆状态需页面cooki ...
scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
爬取豆瓣TOP250电影的评分、评价人数、短评等信息，并在其保存在sql数据库中。
爬取目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

python爬取豆瓣TOP250电影

python爬取豆瓣TOP250电影相关推荐

最新文章

热门文章