Scrapy爬取1908电影网电影数据

最初是打算直接从豆瓣上爬电影数据的，但编写完一直出现403错误，查了查是豆瓣反爬虫导致了，加了headers也还是一直出现错误，无奈只能转战1908电影网了。
爬取数据是为了构建电影知识图谱的。而1908电影网的电影数据确实比豆瓣少太多，尤其是电影评论这块，所以需要数据全的童鞋们还是继续啃豆瓣吧。。
直接上代码，
items.py文件下

import scrapyclass Movie1905Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()#电影名称movie_name=scrapy.Field()#评分rating=scrapy.Field()#海报#post=scrapy.Field()#上映日期date=scrapy.Field()#类型genre=scrapy.Field()#时长time=scrapy.Field()#导演director=scrapy.Field()#剧情story=scrapy.Field()pass

之后在spider文件下创建1908movie.py

from scrapy import Request
from scrapy.spiders import Spider
from pymovie.items import Movie1905Itemclass movie1908(Spider):name='1908movies_china'headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5',}url='http://www.1905.com/mdb/film/list/country-China/o0d0p1.html'def start_requests(self):basic_url='http://www.1905.com/mdb/film/list/country-China/o0d0p%s.html'        start,end=0,220for i in range(start,end):url=basic_url.replace("%s",str(i))yield Request(url,headers=self.headers)           def parse(self,response):urls=response.xpath('.//ul[@class="inqList pt18"]/li/a/@href').extract()for url in urls:url="http://www.1905.com"+urlyield Request(url,self.parse_movie)def parse_movie(self,response):item=Movie1905Item()imovie=response.xpath('//div[@class="body"]')item['movie_name']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/h1/text()').extract()item['rating']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/h1/span[@class="score"]/b/text()').extract()item['date']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[1]/text()').extract()item['genre']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[2]/a[1]/text()').extract()item['time']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[4]/text()').extract()item['director']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[2]/a[1]/@title').extract()item['story']=imovie.xpath('.//div[@class="container containerMain"]/div[1]/section/div/p/text()').extract()yield item

最后在cmd内进入同scrapy.cfg同一级目录中，输入

scrapy crawl 1908movies_china movie.csv

得到的movie.csv如图

参考博客
http://www.2cto.com/kf/201604/501764.html
http://www.cnblogs.com/mrchige/p/6481194.html

Scrapy爬取1908电影网电影数据相关推荐

Python爬虫爬取ok资源网电影播放地址
#爬取ok资源网电影播放地址#www.okzy.co #入口一:http://okzy.co/index.php?m=vod-search&wd={关键字}&submit=search ...
python3 scrapy实战：爬取猎聘网招聘数据至数据库（反爬虫）
首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...
Scrapy框架爬取中国裁判文书网案件数据
Scrapy框架爬取中国裁判文书网案件数据项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...
基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据
基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据参考资料: 黑马程序员爬虫教程静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...
Python+scrapy爬取36氪网
Python+Scrapy爬取36氪网新闻一.准备工作: ①安装python3 ②安装scrapy ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...
scrapy 爬取校花网
原文链接: scrapy 爬取校花网上一篇: scrapy 安装和简单命令下一篇: scrapy 腾讯招聘信息爬取网址,爬取名称和对应的图片链接,并保存为json格式 http://www.x ...
爬取链家网二手房数据并保存到mongodb中
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档爬取链家网二手房数据并保存到mongodb中文章目录前言一.爬虫的介绍二.协程的介绍三.css选择器四.基于asyncio ...
python selenium 爬取去哪儿网的数据
python selenium 爬取去哪儿网的数据完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/selenium+qu ...
python—简单数据抓取七（采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用，利用ip池访问网页并将scrapy爬取转移到items的数据存入到数据库）
学习目标: Python学习二十七-简单数据抓取七学习内容: 1.采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用 2.利用ip池访问网页并将scrapy爬取转移到it ...

Scrapy爬取1908电影网电影数据

Scrapy爬取1908电影网电影数据

Scrapy爬取1908电影网电影数据相关推荐

最新文章

热门文章