原标题:打造一款Python实现自动下载电影的“脚本”!那种电影也可以哦!

都很有规律不是吗?而在Scrapy里面,就可以设定我们想要的规律,Scrapy就可以对这些符合规律的网址及页面信息进行处理。先来看看成果吧,这一部分中,我们想要的结果就是输出排行榜里面的电影名称:

而且我们其实可以做的更好。

Pycharm用这个文件夹创建Project,douban/db处创建一个方便IDE运行的文件run.py

输入

from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'douban'])

打开douban/db/items.py,如该文件的名字,这个是我们从豆瓣这个“仓库”里取出来的“货”,我们想要的是什么“货”呢?电影名字。

classDbItem(scrapy.Item ):

name =scrapy.Field ()

douban/db/db/spiders下创建spider.py,这个文件用来爬取网页,处理网址,我们需要告诉他我们想去的“仓库”该怎么走,该怎么爬。

“货物”信息的获取

下面轮到parse_item这个人来干活了,他需要从上述指定地点找到我们要的“货物”的信息,“货物”位于何处可以通过Xpath来查找。网页上点右键查看源代码,被给包住了,Xpath的功能就是通过这些标签来找到特定信息。

浏览器F12打开调试控制台,

指到该信息处,右侧就会显示出对应的代码

点右键有个好东西,

这个就可以拿来用啦。不幸的是,Scrapy经常不能识别出来,所以我们还需要会一点Xpath的语法(查一查10分钟搞定),参考Copy的自己修改一下。这里推荐Chrome的Xpath Helper这个插件,可以查看自己写的Xpath正不正确。

def parse_item(self,response):

name=response.xpath('//*[@class="title"][1]')

print(name)

好了,测试一下,运行run.py出现以下问题,403 forbidden,网站怀疑我们是机器人操作,

于是在setting.py里面伪装我们是浏览器的正常操作,

增加一个

总结

Scrapy可用来爬特定规则的网址,并进行处理;allow、follow等参数告诉程序如何“顺蔓摸瓜”;Xpath可方便的找出网页中的信息,本文举到的例子仅仅是提取电影名,我们其实如文章一开始的图片可以做的更丰富一些,对分数、演员、导演等加入一些判断,选择我们需要的电影。

私信小编03 即可获取源码!如果源码错误请进群!返回搜狐,查看更多

责任编辑:

python下载电影_打造一款Python实现自动下载电影的“脚本”!那种电影也可以哦!...相关推荐

  1. python必备神器_这5款Python可视化神器,总有一款适合你!

    我们都知道视觉是人们很重要的一种感官,而Python中可视化,在数据相关的研发中也起到"一木支危楼 "的作用.如果从直接查看离线存储在各类数据库中杂乱无章的数据,会让人瞬间感到崩溃 ...

  2. python实现自动下载软件怎么办_打造一款Python实现自动下载电影的“脚本”!那种电影也可以哦!...

    都很有规律不是吗?而在Scrapy里面,就可以设定我们想要的规律,Scrapy就可以对这些符合规律的网址及页面信息进行处理.先来看看成果吧,这一部分中,我们想要的结果就是输出排行榜里面的电影名称: 而 ...

  3. python编程基础_月隐学python第2课

    python编程基础_月隐学python第2课 学习目标 掌握变量的输入和输出 掌握数据类型的基本概念 掌握算数运算 1.变量的输入和输出 1.1 变量输入 使用input输入 input用于输入数据 ...

  4. 查看Python的版本_查看当前安装Python的版本

    一.查看Python的版本_查看当前安装Python的版本 具体方法: 首先按[win+r]组合键打开运行: 然后输入cmd,点击[确定]: 最后执行[python --version]命令即可. 特 ...

  5. python控制安卓手机的闹钟_【玩转Python】为女朋友打造一款智能语音闹钟

    在看这篇文章之前,你至少应该是一个会装操作系统的程序猿,懂点 Linux,会些 Python,最主要的是你得有一个女朋友.当然没有也没关系,相信看完这篇文章,你也尝试做了这么一款闹钟,说不定..... ...

  6. python做一个闹钟_【玩转Python】为女朋友打造一款智能语音闹钟

    在看这篇文章之前,你至少应该是一个会装操作系统的程序猿,懂点 Linux,会些 Python,最主要的是你得有一个女朋友.当然没有也没关系,相信看完这篇文章,你也尝试做了这么一款闹钟,说不定..... ...

  7. python新版下载安装_各种版本的Python下载安装教程

    python从17年开始大火,自然想学python的同学就多了,小编整理了这篇文章,从python的功能介绍.各系统最新版本python下载.python全部版本下载.python下载后安装教程以及p ...

  8. python编辑器_推荐一款Python编辑器,集Pycharm和Sublime优点于一身的王者

    编程里面的编辑器就像是武林大会里面的高手,每一年都有新秀,黑马出现!比如有练习霸道的天罡之气的榜首Pycharm,力量雄厚霸道战斗力极强,但是对斗气消耗很大,占内存大而且启动速度有点慢!还有练习灵巧的 ...

  9. 牛逼,两百行Python代码带你打造一款《天天酷跑》游戏!

    公众号关注 "菜鸟学Python" 第431篇原创,设为 "星标",带你一起学编程! 最近一段时间,小编发现已经好久没有给大家带来趣味游戏的案例展示了.刚好小编 ...

最新文章

  1. R语言ggplot2可视化将颜色图例和形状的图例组合成综合图例实战
  2. jQuery hash
  3. (android硬件应用实战)摄像头拍照实现和总结
  4. 华为mate40计算机,原来拍摄还能这么玩?华为Mate40 Pro连接电脑+耳机,Vlog输出分分钟...
  5. 已知三角形三边长怎么求面积_已知三角形三边求面积的公式——海伦公式
  6. Yii2 的 redis 应用
  7. python技术是什么意思_python中“//”表示什么意思_后端开发
  8. 算法 --- 反转数组
  9. php绘制时钟刻度,怎么用canvas写钟表刻度的时钟和分钟
  10. 【文献学习】矩阵投影
  11. python会议室系统预定_会议室预定系统
  12. 2021年4月蓝桥杯软件类省赛:题目+解析(完整版)
  13. 定向士官学计算机网络技术可以吗,山东信息职业技术学院2016年定向培养士官招生问答...
  14. 失业一年,学做跨境电商赚了50万,才知道上班是真的耽误赚钱 !
  15. android文件地址,Android文件夹在哪
  16. PPT总结篇之字体,图片
  17. Android和风SDK,Android 和风天气SDK获取天气
  18. 如何用电脑玩石器时代M 石器时代M手游PC电脑版教程
  19. 淘宝封杀返现模式 淘宝客返利网站模式遇挑战
  20. 关于连接池、JDBC、DBUtils的一些知识

热门文章

  1. JavaScript常用关键字
  2. VUE 入门及应用 ( 五 ) ElementUI 组件
  3. 修改simple_peripheral_oad_offchip的 Bootloader
  4. 打开 Ubuntu 18 中 Vim 的系统剪切板功能
  5. 人生感悟之——因果关系
  6. 锂离子电池析锂原因总结
  7. 天太冷导致电脑无法开机,怎么解决?
  8. AT89C51SND2单片机解密与破解
  9. 基于stm32微控制器的绘图机器人设计
  10. 如何将excel转换成word文档格式