用SCRAPY爬取豆瓣

Items.py

import scrapyclass Douban1Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()names = scrapy.Field()actors = scrapy.Field()scores= scrapy.Field()webs = scrapy.Field()

douban.py

import scrapy
from douban1.items import Douban1Itemclass DoubanSpider(scrapy.Spider):header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}name = 'douban'allowed_domains = ['movie.douban.com']start_urls = ['https://movie.douban.com/chart']def parse(self, response):selector=response.xpath('//div[@class="indent"]//tr[@class="item"]')for movie in selector:item = Douban1Item()item['names'] =movie.xpath("//a[@class='nbg']/@title").extract()print('\t')item['actors']= movie.xpath("//p[@class='pl']/text()").extract()print('\t')item['scores'] = movie.xpath("//span[@class='rating_nums']/text()").extract()print('\t')item['webs'] = movie.xpath("//a[@class='nbg']/@href").extract()print('\t')return item

pipelines.py
写入txt文件如下：

class Douban1Pipeline(object):def process_item(self, item, spider):with open('douban.txt', 'a+')  as fp:fp.write(str(item['names'])+'\n\n')fp.write(str(item['scores'])+'\n\n')fp.write(str(item['actors'])+'\n\n')fp.write(str(item['webs'])+'\n\n')

pipelines.py
写入json文件如下：

class Douban1Pipeline(object):def open_spider(self,spider):self.filename=open('douban.json','a')def process_item(self, item, spider):content=json.dumps(dict(item),ensure_ascii=False)+'\t\t\t\t\t'self.filename.write(content)return itemdef close_spider(self,spider):self.filename.close()

用SCRAPY爬取豆瓣相关推荐

python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
Scrapy爬取豆瓣图书详情存入CSV并导入MySQL
目录前言一.新建爬虫工程二.修改settings.py文件三.编写items.py 四.编写pipelines.py 五.编写book.py 六.存储到MySQL 七.爬取结果八.后言前言 ...
python爬取豆瓣电影top250_Python爬虫 - scrapy - 爬取豆瓣电影TOP250
0.前言新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例.所以找了很多实 ...
python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
爬虫实战（一）利用scrapy爬取豆瓣华语电影
爬虫第一个项目是爬取豆瓣华语电影,后面将对这部分数据进行分析. 本文也是发表于『运筹OR帷幄』微信公众号的<用数据带你了解电影行业-华语篇>的爬虫介绍篇. 1. 爬取思路在观察了豆瓣每个 ...
scrapy爬取豆瓣所有电影信息（新手入门超详细版）
本次小实验目标就是爬取豆瓣所有的电影,我们以豆瓣的分类页(https://movie.douban.com/tag/#/)作为start_urls,首要任务就是分析当前页面是否为动态加载,何为js动态 ...
scrapy爬取豆瓣电影
刚看了scrapy框架,就想写个小项目练练手,刚好最近的一个django项目缺少电影推荐的信息,自然就想到了去爬取豆瓣电影的数据,爬取的url是https://movie.douban.com/top ...
python爬虫，Scrapy爬取豆瓣电影《芳华》电影短评，分词生成词云图。
项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...

用SCRAPY爬取豆瓣

用SCRAPY爬取豆瓣

用SCRAPY爬取豆瓣相关推荐

最新文章

热门文章