Scrapy爬取1908电影网电影数据
Scrapy爬取1908电影网电影数据
最初是打算直接从豆瓣上爬电影数据的,但编写完一直出现403错误,查了查是豆瓣反爬虫导致了,加了headers也还是一直出现错误,无奈只能转战1908电影网了。
爬取数据是为了构建电影知识图谱的。而1908电影网的电影数据确实比豆瓣少太多,尤其是电影评论这块,所以需要数据全的童鞋们还是继续啃豆瓣吧。。
直接上代码,
items.py文件下
import scrapyclass Movie1905Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()#电影名称movie_name=scrapy.Field()#评分rating=scrapy.Field()#海报#post=scrapy.Field()#上映日期date=scrapy.Field()#类型genre=scrapy.Field()#时长time=scrapy.Field()#导演director=scrapy.Field()#剧情story=scrapy.Field()pass
之后在spider文件下创建1908movie.py
from scrapy import Request
from scrapy.spiders import Spider
from pymovie.items import Movie1905Itemclass movie1908(Spider):name='1908movies_china'headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5',}url='http://www.1905.com/mdb/film/list/country-China/o0d0p1.html'def start_requests(self):basic_url='http://www.1905.com/mdb/film/list/country-China/o0d0p%s.html' start,end=0,220for i in range(start,end):url=basic_url.replace("%s",str(i))yield Request(url,headers=self.headers) def parse(self,response):urls=response.xpath('.//ul[@class="inqList pt18"]/li/a/@href').extract()for url in urls:url="http://www.1905.com"+urlyield Request(url,self.parse_movie)def parse_movie(self,response):item=Movie1905Item()imovie=response.xpath('//div[@class="body"]')item['movie_name']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/h1/text()').extract()item['rating']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/h1/span[@class="score"]/b/text()').extract()item['date']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[1]/text()').extract()item['genre']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[2]/a[1]/text()').extract()item['time']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[1]/span[4]/text()').extract()item['director']=imovie.xpath('.//div[@class="container containerTop"]/div[2]/div[2]/a[1]/@title').extract()item['story']=imovie.xpath('.//div[@class="container containerMain"]/div[1]/section/div/p/text()').extract()yield item
最后在cmd内进入同scrapy.cfg同一级目录中,输入
scrapy crawl 1908movies_china movie.csv
得到的movie.csv如图
参考博客
http://www.2cto.com/kf/201604/501764.html
http://www.cnblogs.com/mrchige/p/6481194.html
Scrapy爬取1908电影网电影数据相关推荐
- Python爬虫爬取ok资源网电影播放地址
#爬取ok资源网电影播放地址#www.okzy.co #入口一:http://okzy.co/index.php?m=vod-search&wd={关键字}&submit=search ...
- python3 scrapy实战:爬取猎聘网招聘数据至数据库(反爬虫)
首先注明:感谢拉勾网提供的权威.质量的数据,本人抱着学习的态度,不愿增加其服务器负担,与dos攻击. 继前两篇爬取拉勾网.直聘网后的第三篇文章,同样是使用scrapy来获取网站的招聘信息,并且保存至M ...
- Scrapy框架爬取中国裁判文书网案件数据
Scrapy框架爬取中国裁判文书网案件数据 项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...
- 基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据
基于selenium+scrapy爬取复仇者联盟4豆瓣影评数据 参考资料: 黑马程序员爬虫教程 静觅爬虫教程 mac下anaconda安装selenium+PhantomJS scrapy下载中间件结 ...
- Python+scrapy爬取36氪网
Python+Scrapy爬取36氪网新闻 一.准备工作: ①安装python3 ②安装scrapy ③安装docker,用来运行splash,splash是用来提供js渲染服务(pyth ...
- scrapy 爬取校花网
原文链接: scrapy 爬取校花网 上一篇: scrapy 安装和简单命令 下一篇: scrapy 腾讯 招聘信息爬取 网址,爬取名称和对应的图片链接,并保存为json格式 http://www.x ...
- 爬取链家网二手房数据并保存到mongodb中
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 爬取链家网二手房数据并保存到mongodb中 文章目录 前言 一.爬虫的介绍 二.协程的介绍 三.css选择器 四.基于asyncio ...
- python selenium 爬取去哪儿网的数据
python selenium 爬取去哪儿网的数据 完整代码下载:https://github.com/tanjunchen/SpiderProject/tree/master/selenium+qu ...
- python—简单数据抓取七(采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用,利用ip池访问网页并将scrapy爬取转移到items的数据存入到数据库)
学习目标: Python学习二十七-简单数据抓取七 学习内容: 1.采取蘑菇API代理设置scrapy的代理IP池并利用redis形成队列依次使用 2.利用ip池访问网页并将scrapy爬取转移到it ...
最新文章
- c++ vector向量直接赋值_vector-Jacobian product 解释 ---- pytorch autograd
- mysql用法之创建事件
- 你真的了解JavaScript的比较运算符(==,!=,===,!===,=,=,,)吗?
- iOS故障排除指南:基本技巧
- 题解 UVA10298 【Power Strings】
- 【每周CV论文推荐】 初学GAN必须要读的文章
- chap单向认证客户端
- 微信小程序:背景图片在电脑可以显示,真机测试时无法显示
- 利用永恒之蓝入侵服务器复制文件,msf利用永恒之蓝进行漏洞攻击
- ll微信2下载安装_【兰苑文学】:陈振 ll黄金槐
- 10 个利用Eclipse调试Java的常见技巧
- 医院设置(信息学奥赛一本通-T1338)
- 大数据技术存在局限 经验直觉不可或缺
- apply()、call()与bind()的用法与区别
- idea-解决安装及各种问题
- oracle procedure可以执行非常复杂的语句吗,oracle-存储过程(procedure)
- C4D快速入门教程——倒角
- jmu-Java-03面向对象-06-继承覆盖综合练习-Person、Student、Employee、Company
- 欧美html游戏安卓,HTML5 Games - Rated M or for 18+ only
- 国内比较好的软件接单平台有哪些?