用SCRAPY爬取豆瓣
用SCRAPY爬取豆瓣
Items.py
import scrapyclass Douban1Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()names = scrapy.Field()actors = scrapy.Field()scores= scrapy.Field()webs = scrapy.Field()
douban.py
import scrapy
from douban1.items import Douban1Itemclass DoubanSpider(scrapy.Spider):header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}name = 'douban'allowed_domains = ['movie.douban.com']start_urls = ['https://movie.douban.com/chart']def parse(self, response):selector=response.xpath('//div[@class="indent"]//tr[@class="item"]')for movie in selector:item = Douban1Item()item['names'] =movie.xpath("//a[@class='nbg']/@title").extract()print('\t')item['actors']= movie.xpath("//p[@class='pl']/text()").extract()print('\t')item['scores'] = movie.xpath("//span[@class='rating_nums']/text()").extract()print('\t')item['webs'] = movie.xpath("//a[@class='nbg']/@href").extract()print('\t')return item
pipelines.py
写入txt文件如下:
class Douban1Pipeline(object):def process_item(self, item, spider):with open('douban.txt', 'a+') as fp:fp.write(str(item['names'])+'\n\n')fp.write(str(item['scores'])+'\n\n')fp.write(str(item['actors'])+'\n\n')fp.write(str(item['webs'])+'\n\n')
pipelines.py
写入json文件如下:
class Douban1Pipeline(object):def open_spider(self,spider):self.filename=open('douban.json','a')def process_item(self, item, spider):content=json.dumps(dict(item),ensure_ascii=False)+'\t\t\t\t\t'self.filename.write(content)return itemdef close_spider(self,spider):self.filename.close()
用SCRAPY爬取豆瓣相关推荐
- python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250
今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...
- scrapy爬取豆瓣top250电影数据
scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...
- Scrapy爬取豆瓣图书详情存入CSV并导入MySQL
目录 前言 一.新建爬虫工程 二.修改settings.py文件 三.编写items.py 四.编写pipelines.py 五.编写book.py 六.存储到MySQL 七.爬取结果 八.后言 前言 ...
- python爬取豆瓣电影top250_Python爬虫 - scrapy - 爬取豆瓣电影TOP250
0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例.所以找了很多实 ...
- python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己
本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...
- 爬虫实战(一)利用scrapy爬取豆瓣华语电影
爬虫第一个项目是爬取豆瓣华语电影,后面将对这部分数据进行分析. 本文也是发表于『运筹OR帷幄』微信公众号的<用数据带你了解电影行业-华语篇>的爬虫介绍篇. 1. 爬取思路 在观察了豆瓣每个 ...
- scrapy爬取豆瓣所有电影信息(新手入门超详细版)
本次小实验目标就是爬取豆瓣所有的电影,我们以豆瓣的分类页(https://movie.douban.com/tag/#/)作为start_urls,首要任务就是分析当前页面是否为动态加载,何为js动态 ...
- scrapy爬取豆瓣电影
刚看了scrapy框架,就想写个小项目练练手,刚好最近的一个django项目缺少电影推荐的信息,自然就想到了去爬取豆瓣电影的数据,爬取的url是https://movie.douban.com/top ...
- python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。
项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...
最新文章
- poj3259(SPFA算法)
- 全年月平均工作时间和工资折算办法
- BZOJ4293 Siano
- 【LeetCode笔记】215. 数组中的第K个最大元素(Java、快排、堆排、并发快排)
- centos7以普通用户开机启动某个服务或者指定脚本
- linux+tar怎样解压,如何在Linux上使用tar命令解压和压缩文件
- mat 释放_Square Ma?mat住宅区:释放公共空间,连接社区居民
- Labview对mysql查询的数据进行展示
- 计算机视觉实战(十三)停车场车位识别(附完整代码)
- 博士后斯坦福大学计算机学院,美国斯坦福大学博士后职位
- 美团一面:线程崩溃了,进程也会崩溃吗?
- 玩转IE之自动切换代理服务器
- win10版本的共享网络,以及HP LaserJet 1020的共享打印机总结
- httpclient 设置短连接_关于HTTP的长连接和短连接那些事
- php imap 安装_PHP安装IMAP扩展
- eNSP解决OSPF不规则区域几个方法和vlink-peer
- 再来看一下培根的<论读书>吧!
- 免费小说分享—《异界之九阳真经》
- JS获取当前网页大小以及屏幕分辨率等
- SaaS-HRM(3)企业部门管理前后台