一 思路分析:

打开豆瓣电影Top250页面, https://movie.douban.com/top250。如下图第一部电影,肖申克的救赎,电影名称、导演、主演、年份、评分、评价人数这些信息是我们需要的。
二 代码

from urllib import request
from lxml import etree
#构造函数,抓取第i页信息
def crow(i):#  构造第i页的网址url='https://movie.douban.com/top250?start='+str(25*i)#  发送请求,获得返回的html代码并保存在变量html中html=request.urlopen(url).read().decode('utf-8')#将返回的字符串格式的html代码转换成xpath能处理的对象html=etree.HTML(html)#先定位到li标签,datas是一个包含25个li标签的list,就是包含25部电影信息的listdatas = html.xpath('//ol[@class="grid_view"]/li')a=0for data in datas:data_title=data.xpath('div/div[2]/div[@class="hd"]/a/span[1]/text()')data_info=data.xpath('div/div[2]/div[@class="bd"]/p[1]/text()')data_quote=data.xpath('div/div[2]/div[@class="bd"]/p[2]/span/text()')data_score=data.xpath('div/div[2]/div[@class="bd"]/div/span[@class="rating_num"]/text()')data_num=data.xpath('div/div[2]/div[@class="bd"]/div/span[4]/text()')data_picurl=data.xpath('div/div[1]/a/img/@src')print("No: "+str(i*25+a+1))print(data_title)#保存电影信息到txt文件,下载封面图片with open('douban250.txt','a',encoding='utf-8')as f:#封面图片保存路径和文件名picname='F:/top250/'+str(i*25+a+1)+'.jpg'f.write("No: "+str(i*25+a+1)+'\n')f.write(data_title[0]+'\n')f.write(str(data_info[0]).strip()+'\n')f.write(str(data_info[1]).strip()+'\n')#因为发现有几部电影没有quote,所以这里加个判断,以免报错if data_quote:f.write(data_quote[0]+'\n')f.write(data_score[0]+'\n')f.write(data_num[0]+'\n')f.write('\n'*3)#下载封面图片到本地,路径为picnamerequest.urlretrieve(data_picurl[0],filename=picname)a+=1
for i in range(10):crow(i)

豆瓣电影top250相关推荐

  1. append从一个添加到另一_真特么激动第一个爬虫----爬取豆瓣电影top250

    养成习惯,先赞后看!!! 前言 之前一直对爬虫有兴趣,但是一直没有真正静下心来去好好学习过,这一段时间跟着b站上的一个教程做了自己人生中第一个爬虫程序,还是很有成就感的. 准备工作 1. 我们爬取一个 ...

  2. python2.7抓取豆瓣电影top250

    利用python2.7抓取豆瓣电影top250 1.任务说明 抓取top100电影名称 依次打印输出 2.网页解析 要进行网络爬虫,利用工具(如浏览器)查看网页HTML文件的相关内容是很有必要,我使用 ...

  3. python爬取豆瓣电影并分析_爬取豆瓣电影top250提取电影分类进行数据分析

    标签(空格分隔):python爬虫 一.爬取网页,获取需要内容 我们今天要爬取的是豆瓣电影top250 页面如下所示: 我们需要的是里面的电影分类,通过查看源代码观察可以分析出我们需要的东西.直接进入 ...

  4. Colly实现豆瓣电影Top250爬取

    使用 Colly 实现 豆瓣电影Top250爬取 package mainimport ("encoding/csv""github.com/PuerkitoBio/go ...

  5. python爬取豆瓣电影top250_用Python爬虫实现爬取豆瓣电影Top250

    用Python爬虫实现爬取豆瓣电影Top250 #爬取 豆瓣电影Top250 #250个电影 ,分为10个页显示,1页有25个电影 import urllib.request from bs4 imp ...

  6. 对豆瓣电影Top250榜单的一些探索性分析

    业余打发时间看电影是个不错的选择,但是如果看了一部无聊糟心的电影就得不偿失了,所以一些电影方面的榜单就出现了,可以为这些选择困难患者提供一个不错的指南,那些是经典是值得看的,而那些电影不值得你浪费一两 ...

  7. 小试爬虫之豆瓣电影TOP250

    import re from urllib.request import urlopendef getPage(url):response = urlopen(url)return response. ...

  8. python爬取豆瓣电影top250_用Python爬取豆瓣电影TOP250分析

    / 01 / Scrapy 之前了解了pyspider框架的使用,但是就它而言,只能应用于一些简单的爬取. 对于反爬程度高的网站,它就显得力不从心. 那么就轮到Scrapy上场了,目前Python中使 ...

  9. python爬虫-豆瓣电影Top250

    豆瓣电影Top250 一.准备环境 idea+python插件/python 一.需求分析 1. 运用代码获取豆瓣电影Top250里面电影的相关信息: 影片详情链接: 影片名称: 影片图片链接: 影片 ...

  10. 案例:爬取豆瓣电影Top250中的电影信息

    案例:爬取豆瓣电影Top250中的电影信息 豆瓣电影Top250首页 分析请求地址 在豆瓣电影Top250首页的底部可以确定电影信息一共有10页内容,每页25个电影信息,如下图: 切换页面,可以看到浏 ...

最新文章

  1. nodejs npm install -g 全局安装和非全局安装的区别
  2. sklearn使用投票器VotingClassifier算法构建多模型融合的软投票器分类器(soft voting)并计算融合模型的混淆矩阵、可视化混淆矩阵(confusion matrix)
  3. oracle中的rowid--伪列-删除表中的重复内容-实用
  4. Linux常用命令——tar
  5. nginx 上传文件漏洞_nginx爆惊天漏洞 上传图片就能入侵服务器
  6. Maven配置阿里镜像仓库
  7. centos平台openstack spice配置
  8. 9宫格 java_java 拼接头像9宫格
  9. .NET开发框架(一)-框架介绍与视频演示
  10. django ajax form表单,Django学习系列之Form表单和ajax(示例代码)
  11. 【英语学习】【Daily English】U06 Shopping L03 What sort of market are you looking for?
  12. latex 字体加粗失效
  13. 【转】关于VS2005中不显示解决方案的解决方法
  14. WPF transform示例
  15. origin数据平滑_Origin平滑曲线的使用方法
  16. 全球及中国钢铁行业投资产量趋势及营销盈利模式研究报告2021版
  17. 基于小梅哥AC620开发板的NIOS II LWIP百兆以太网例程
  18. 解决vue项目运行npm run serve报错的问题
  19. PSNR SSIM BD-rate BD-PSNR
  20. IllegalStateException: Cannot find current proxy: Set 'exposeProxy' property on Advised to 'true'

热门文章

  1. 【PCB Layout】PCB布局布线经验总结
  2. 火山PC浏览文件和选择文件-通用对话框教程
  3. android 浏览器内核 内存占用,移动浏览器的四大内核
  4. 连点脚本java,按键精灵如何设置自动连续点击 自动连点脚本设置教程
  5. 随e行wlan v9.2.0930
  6. Flash 第九章 运动补间动画
  7. 手动杀毒,SOLA病毒,也称之为worm.script.bat.Agent、Trojan.Win32.Sola病毒)
  8. 制作符合期刊审图号标准的中国地图(含九段线)
  9. 一个屌丝程序猿的人生(八十七)
  10. JAVA实现IDcard身份证自动识别