我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题。那么,一些好看的影片如果不去电影院的话,在其他地方看都会有大大小小的限制,今天小编就教大家用python中的scrapy获取影片的办法吧。

1. 创建项目

运行命令:scrapy startproject myfrist(your_project_name)

文件说明: 名称 | 作用 --|-- scrapy.cfg | 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py | 设置数据存储模板,用于结构化数据,如:Django的Model pipelines | 数据处理行为,如:一般结构化的数据持久化 settings.py | 配置文件,如:递归的层数、并发数,延迟下载等 spiders | 爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

2 编写 spdier

在spiders目录中新建 daidu_spider.py 文件

2.1 注意

爬虫文件需要定义一个类,并继承scrapy.spiders.Spider

必须定义name,即爬虫名,如果没有name,会报错。因为源码中是这样定义的

2.2 编写内容

在这里可以告诉 scrapy 。要如何查找确切数据,这里必须要定义一些属性

name: 它定义了蜘蛛的唯一名称

allowed_domains: 它包含了蜘蛛抓取的基本URL;

start-urls: 蜘蛛开始爬行的URL列表;

parse(): 这是提取并解析刮下数据的方法;

下面的代码演示了蜘蛛代码的样子:import scrapy

class DoubanSpider(scrapy.Spider):

name = 'douban'

allwed_url = 'douban.com'

start_urls = [

'https://movie.douban.com/top250/'

]

def parse(self, response):

movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()

movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()

yield {

'movie_name':movie_name,

'movie_core':movie_core

}

以上的代码不是很复杂,小伙伴们已经按捺不住想要看电影愉悦的心情了,既然这样还在等什么呢,赶紧动手尝试下有没有自己喜欢的影片可以查看~更多Python学习推荐:PyThon学习网教学中心。

python scrapy爬虫电影_python爬虫如何用scrapy获取影片?相关推荐

  1. python scrapy爬虫电影_Python爬虫Scrapy框架(2) -- 爬取优酷电影进阶

    爬取更多的items,例如名字,主演,播放次数,电影海报,并进行多页爬取. items.py 1 importscrapy2 3 classYoukumoiveItem(scrapy.Item):4 ...

  2. scrapy mysql 豆瓣_Python爬虫之Scrapy+Mysql+Mongodb爬豆瓣top250电影

    学习python时,爬虫是一种简单上手的方式,应该也是一个必经阶段.本项目用Scrapy框架实现了抓取豆瓣top250电影,并将图片及其它信息保存下来.爬取豆瓣top250电影不需要登录.没有JS解析 ...

  3. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  4. 爬虫python下载电影_python爬虫:抓取下载电影文件,合并ts文件为完整视频

    目标网站:https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反贪风暴4 对电影进行分析 我们发现,电影是按片段一点点加载出来的,我们分别抓取 ...

  5. python scrapy爬虫视频_python爬虫scrapy框架的梨视频案例解析

    之前我们使用lxml对梨视频网站中的视频进行了下载 下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取 分析:我们要爬取的内容并不在同一个页面,视频描述内容需要我们点开视频 ...

  6. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  7. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  8. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  9. python爬虫设计模式_Python爬虫进阶一之爬虫框架概述

    综述 爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...

最新文章

  1. 关于OGNL表达式中的%,$,#
  2. STM32中EXTI和NVIC的关系
  3. java bindview_手写 ButterKnife BindView
  4. 用户流失的事前预警与事后分析
  5. Hadoop hdfs文件操作常用命令
  6. 【SQL】分析函数功能-排序
  7. java web核心编程_JavaWeb核心编程之(三)Servlet配置
  8. 代表性的神经网络模型分类
  9. [置顶]       Web开发百宝箱——提升网站档次的时尚 jQuery 图片滚动插件
  10. PIPI-OJ BUG log
  11. linux用sed命令修改IP地址,通过sed命令获取IP地址
  12. 狗狗有关的知识tips
  13. 谈一下wxid转扫一扫的核心
  14. IDEA设置成白色背景
  15. 会汇编语言学c语言好学吗,只有C语言功底的我学习汇编语言可以吗?
  16. ios 编译ffmpeg 支持 x264 fdk-aac openssl 并裁剪库大小
  17. 关于node链接数据库Handshake inactivity timeout
  18. 【无用之书】侦探小说的二十条规则
  19. Linux命令详解之 ls
  20. eclipse 解决 java.lang.NoClassDefFoundError: ilog/concert/IloException

热门文章

  1. Homekit智能家居DIY一智能吸顶灯
  2. 微信/QQ/TIM防撤回神器,看见没有,这就是撤回狗
  3. 一文搞定Void与void
  4. 公祭日网站变灰白色效果
  5. Open3D 点云曲率计算(Python版本)
  6. 修复好IE 的 DLL
  7. 以《哈利波特》人物为例,学用Python处理csv模块
  8. Ubuntu 安装的迅雷下载软件
  9. 思科CCNP路由实验专题讲解--OSPF篇视频课程-晁海江-专题视频课程
  10. Tez的简介以及安装配置