Scrapy爬取1908电影网电影数据

最初是打算直接从豆瓣上爬电影数据的,但编写完一直出现403错误,查了查是豆瓣反爬虫导致了,加了headers也还是一直出现错误,无奈只能转战1908电影网了。
爬取数据是为了构建电影知识图谱的。而1908电影网的电影数据确实比豆瓣少太多,尤其是电影评论这块,所以需要数据全的童鞋们还是继续啃豆瓣吧。。
直接上代码,
items.py文件下

import scrapyclass Movie1905Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()#电影名称movie_name=scrapy.Field()#评分rating=scrapy.Field()#海报#post=scrapy.Field()#上映日期date=scrapy.Field()#类型genre=scrapy.Field()#时长time=scrapy.Field()#导演director=scrapy.Field()#剧情story=scrapy.Field()pass

之后在spider文件下创建1908movie.py

from scrapy import Request
from scrapy.spiders import Spider
from pymovie.items import Movie1905Itemclass movie1908(Spider):name='1908movies_china'headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5',}url='http://www.1905.com/mdb/film/list/country-China/o0d0p1.html'def start_requests(self):basic_url='http://www.1905.com/mdb/film/list/country-China/o0d0p%s.html'        start,end=0,220for i in range(start,end):url=basic_url.replace("%s",str(i))yield Request(url,headers=self.headers)           def parse(self,response):urls=response.xpath('.//ul[@class="inqList pt18"]/li/a/@href').extract()for url in urls:url="http://www.1905.com"+urlyield Request(url,self.parse_movie)def parse_movie(self,response):item=Movie1905Item()imovie=response.xpath('//div[@class="body"]')item['movie_name']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/h1/text()').extract()item['rating']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/h1/span[@class="score"]/b/text()').extract()item['date']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[1]/text()').extract()item['genre']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[2]/a[1]/text()').extract()item['time']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[4]/text()').extract()item['director']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[2]/a[1]/@title').extract()item['story']=imovie.xpath('.//div[@class="container containerMain"]/div[1]/section/div/p/text()').extract()yield item

最后在cmd内进入同scrapy.cfg同一级目录中,输入

scrapy crawl 1908movies_china movie.csv

得到的movie.csv如图

参考博客
http://www.2cto.com/kf/201604/501764.html
http://www.cnblogs.com/mrchige/p/6481194.html

Scrapy爬取1908电影网电影数据相关推荐

  1. Python爬虫爬取ok资源网电影播放地址

    #爬取ok资源网电影播放地址#www.okzy.co #入口一:http://okzy.co/index.php?m=vod-search&wd={关键字}&submit=search ...

  2. python3 scrapy实战:爬取猎聘网招聘数据至数据库(反爬虫)

    首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...

  3. Scrapy框架爬取中国裁判文书网案件数据

    Scrapy框架爬取中国裁判文书网案件数据 项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...

  4. 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据

    基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...

  5. Python+scrapy爬取36氪网

    Python+Scrapy爬取36氪网新闻 一.准备工作: ​ ①安装python3 ​ ②安装scrapy ​ ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...

  6. scrapy 爬取校花网

    原文链接: scrapy 爬取校花网 上一篇: scrapy 安装和简单命令 下一篇: scrapy 腾讯 招聘信息爬取 网址,爬取名称和对应的图片链接,并保存为json格式 http://www.x ...

  7. 爬取链家网二手房数据并保存到mongodb中

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 爬取链家网二手房数据并保存到mongodb中 文章目录 前言 一.爬虫的介绍 二.协程的介绍 三.css选择器 四.基于asyncio ...

  8. python selenium 爬取去哪儿网的数据

    python selenium 爬取去哪儿网的数据 完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/selenium+qu ...

  9. python—简单数据抓取七(采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用,利用ip池访问网页并将scrapy爬取转移到items的数据存入到数据库)

    学习目标: Python学习二十七-简单数据抓取七 学习内容: 1.采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用 2.利用ip池访问网页并将scrapy爬取转移到it ...

最新文章

  1. c++ vector向量直接赋值_vector-Jacobian product 解释 ---- pytorch autograd
  2. mysql用法之创建事件
  3. 你真的了解JavaScript的比较运算符(==,!=,===,!===,=,=,,)吗?
  4. iOS故障排除指南:基本技巧
  5. 题解 UVA10298 【Power Strings】
  6. 【每周CV论文推荐】 初学GAN必须要读的文章
  7. chap单向认证客户端
  8. 微信小程序:背景图片在电脑可以显示,真机测试时无法显示
  9. 利用永恒之蓝入侵服务器复制文件,msf利用永恒之蓝进行漏洞攻击
  10. ll微信2下载安装_【兰苑文学】:陈振 ll黄金槐
  11. 10 个利用Eclipse调试Java的常见技巧
  12. 医院设置(信息学奥赛一本通-T1338)
  13. 大数据技术存在局限 经验直觉不可或缺
  14. apply()、call()与bind()的用法与区别
  15. idea-解决安装及各种问题
  16. oracle procedure可以执行非常复杂的语句吗,oracle-存储过程(procedure)
  17. C4D快速入门教程——倒角
  18. jmu-Java-03面向对象-06-继承覆盖综合练习-Person、Student、Employee、Company
  19. 欧美html游戏安卓,HTML5 Games - Rated M or for 18+ only
  20. 国内比较好的软件接单平台有哪些?

热门文章

  1. 社会分工的理想与现实
  2. mi4a android tv,小米电视4A精简系统教程
  3. 直观理解--马氏距离
  4. 非视线成像:角膜成像系统
  5. 非全也要卷?复旦大学软件非全很多高分
  6. 音频基础知识-PCM、AAC
  7. 天津工业大学软件园 ubuntu电信网设置。
  8. linux GPT分区工具
  9. 【达摩院OpenVI】AIGC技术在图像超分上的创新应用
  10. NetworkX学习及使用