豆瓣电影top250

一思路分析：

打开豆瓣电影Top250页面， https://movie.douban.com/top250。如下图第一部电影，肖申克的救赎，电影名称、导演、主演、年份、评分、评价人数这些信息是我们需要的。
二代码

from urllib import request
from lxml import etree
#构造函数，抓取第i页信息
def crow(i):#  构造第i页的网址url='https://movie.douban.com/top250?start='+str(25*i)#  发送请求，获得返回的html代码并保存在变量html中html=request.urlopen(url).read().decode('utf-8')#将返回的字符串格式的html代码转换成xpath能处理的对象html=etree.HTML(html)#先定位到li标签，datas是一个包含25个li标签的list，就是包含25部电影信息的listdatas = html.xpath('//ol[@class="grid_view"]/li')a=0for data in datas:data_title=data.xpath('div/div[2]/div[@class="hd"]/a/span[1]/text()')data_info=data.xpath('div/div[2]/div[@class="bd"]/p[1]/text()')data_quote=data.xpath('div/div[2]/div[@class="bd"]/p[2]/span/text()')data_score=data.xpath('div/div[2]/div[@class="bd"]/div/span[@class="rating_num"]/text()')data_num=data.xpath('div/div[2]/div[@class="bd"]/div/span[4]/text()')data_picurl=data.xpath('div/div[1]/a/img/@src')print("No: "+str(i*25+a+1))print(data_title)#保存电影信息到txt文件，下载封面图片with open('douban250.txt','a',encoding='utf-8')as f:#封面图片保存路径和文件名picname='F:/top250/'+str(i*25+a+1)+'.jpg'f.write("No: "+str(i*25+a+1)+'\n')f.write(data_title[0]+'\n')f.write(str(data_info[0]).strip()+'\n')f.write(str(data_info[1]).strip()+'\n')#因为发现有几部电影没有quote，所以这里加个判断，以免报错if data_quote:f.write(data_quote[0]+'\n')f.write(data_score[0]+'\n')f.write(data_num[0]+'\n')f.write('\n'*3)#下载封面图片到本地，路径为picnamerequest.urlretrieve(data_picurl[0],filename=picname)a+=1
for i in range(10):crow(i)

豆瓣电影top250相关推荐

append从一个添加到另一_真特么激动第一个爬虫----爬取豆瓣电影top250
养成习惯,先赞后看!!! 前言之前一直对爬虫有兴趣,但是一直没有真正静下心来去好好学习过,这一段时间跟着b站上的一个教程做了自己人生中第一个爬虫程序,还是很有成就感的. 准备工作 1. 我们爬取一个 ...
python2.7抓取豆瓣电影top250
利用python2.7抓取豆瓣电影top250 1.任务说明抓取top100电影名称依次打印输出 2.网页解析要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...
python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析
标签(空格分隔):python爬虫一.爬取网页,获取需要内容我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...
Colly实现豆瓣电影Top250爬取
使用 Colly 实现豆瓣电影Top250爬取 package mainimport ("encoding/csv""github.com/PuerkitoBio/go ...
python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250
用Python爬虫实现爬取豆瓣电影Top250 #爬取豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...
对豆瓣电影Top250榜单的一些探索性分析
业余打发时间看电影是个不错的选择,但是如果看了一部无聊糟心的电影就得不偿失了,所以一些电影方面的榜单就出现了,可以为这些选择困难患者提供一个不错的指南,那些是经典是值得看的,而那些电影不值得你浪费一两 ...
小试爬虫之豆瓣电影TOP250
import re from urllib.request import urlopendef getPage(url):response = urlopen(url)return response. ...
python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析
/ 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...
python爬虫-豆瓣电影Top250
豆瓣电影Top250 一.准备环境 idea+python插件/python 一.需求分析 1. 运用代码获取豆瓣电影Top250里面电影的相关信息: 影片详情链接: 影片名称: 影片图片链接: 影片 ...
案例：爬取豆瓣电影Top250中的电影信息
案例:爬取豆瓣电影Top250中的电影信息豆瓣电影Top250首页分析请求地址在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏 ...

豆瓣电影top250

豆瓣电影top250相关推荐

最新文章

热门文章