用SCRAPY爬取豆瓣

Items.py

import scrapyclass Douban1Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()names = scrapy.Field()actors = scrapy.Field()scores= scrapy.Field()webs = scrapy.Field()

douban.py

import scrapy
from douban1.items import Douban1Itemclass DoubanSpider(scrapy.Spider):header={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'}name = 'douban'allowed_domains = ['movie.douban.com']start_urls = ['https://movie.douban.com/chart']def parse(self, response):selector=response.xpath('//div[@class="indent"]//tr[@class="item"]')for movie in selector:item = Douban1Item()item['names'] =movie.xpath("//a[@class='nbg']/@title").extract()print('\t')item['actors']= movie.xpath("//p[@class='pl']/text()").extract()print('\t')item['scores'] = movie.xpath("//span[@class='rating_nums']/text()").extract()print('\t')item['webs'] = movie.xpath("//a[@class='nbg']/@href").extract()print('\t')return item

pipelines.py
写入txt文件如下:

class Douban1Pipeline(object):def process_item(self, item, spider):with open('douban.txt', 'a+')  as fp:fp.write(str(item['names'])+'\n\n')fp.write(str(item['scores'])+'\n\n')fp.write(str(item['actors'])+'\n\n')fp.write(str(item['webs'])+'\n\n')

pipelines.py
写入json文件如下:

class Douban1Pipeline(object):def open_spider(self,spider):self.filename=open('douban.json','a')def process_item(self, item, spider):content=json.dumps(dict(item),ensure_ascii=False)+'\t\t\t\t\t'self.filename.write(content)return itemdef close_spider(self,spider):self.filename.close()

用SCRAPY爬取豆瓣相关推荐

  1. python爬取豆瓣电影top250_【Python3爬虫教程】Scrapy爬取豆瓣电影TOP250

    今天要实现的就是使用是scrapy爬取豆瓣电影TOP250榜单上的电影信息. 步骤如下: 一.爬取单页信息 首先是建立一个scrapy项目,在文件夹中按住shift然后点击鼠标右键,选择在此处打开命令 ...

  2. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  3. Scrapy爬取豆瓣图书详情存入CSV并导入MySQL

    目录 前言 一.新建爬虫工程 二.修改settings.py文件 三.编写items.py 四.编写pipelines.py 五.编写book.py 六.存储到MySQL 七.爬取结果 八.后言 前言 ...

  4. python爬取豆瓣电影top250_Python爬虫 - scrapy - 爬取豆瓣电影TOP250

    0.前言 新接触爬虫,经过一段时间的实践,写了几个简单爬虫,爬取豆瓣电影的爬虫例子网上有很多,但都很简单,大部分只介绍了请求页面和解析部分,对于新手而言,我希望能够有一个比较全面的实例.所以找了很多实 ...

  5. python scrapy爬取豆瓣即将上映电影用邮件定时推送给自己

    本文不是python.scrapy的教程,而是分享一个好玩的点子. python教程请看python教程,scrapy教程请看scrapy教程 爬取豆瓣高分电影教程参考python爬虫入门笔记:用sc ...

  6. 爬虫实战(一)利用scrapy爬取豆瓣华语电影

    爬虫第一个项目是爬取豆瓣华语电影,后面将对这部分数据进行分析. 本文也是发表于『运筹OR帷幄』微信公众号的<用数据带你了解电影行业-华语篇>的爬虫介绍篇. 1. 爬取思路 在观察了豆瓣每个 ...

  7. scrapy爬取豆瓣所有电影信息(新手入门超详细版)

    本次小实验目标就是爬取豆瓣所有的电影,我们以豆瓣的分类页(https://movie.douban.com/tag/#/)作为start_urls,首要任务就是分析当前页面是否为动态加载,何为js动态 ...

  8. scrapy爬取豆瓣电影

    刚看了scrapy框架,就想写个小项目练练手,刚好最近的一个django项目缺少电影推荐的信息,自然就想到了去爬取豆瓣电影的数据,爬取的url是https://movie.douban.com/top ...

  9. python爬虫,Scrapy爬取豆瓣电影《芳华》电影短评,分词生成词云图。

    项目github地址:https://github.com/kocor01/scrapy_cloud Python版本为3.6 自己写的简单架构<python爬虫,爬取豆瓣电影<芳华> ...

最新文章

  1. poj3259(SPFA算法)
  2. 全年月平均工作时间和工资折算办法
  3. BZOJ4293 Siano
  4. 【LeetCode笔记】215. 数组中的第K个最大元素(Java、快排、堆排、并发快排)
  5. centos7以普通用户开机启动某个服务或者指定脚本
  6. linux+tar怎样解压,如何在Linux上使用tar命令解压和压缩文件
  7. mat 释放_Square Ma?mat住宅区:释放公共空间,连接社区居民
  8. Labview对mysql查询的数据进行展示
  9. 计算机视觉实战(十三)停车场车位识别(附完整代码)
  10. 博士后斯坦福大学计算机学院,美国斯坦福大学博士后职位
  11. 美团一面:线程崩溃了,进程也会崩溃吗?
  12. 玩转IE之自动切换代理服务器
  13. win10版本的共享网络,以及HP LaserJet 1020的共享打印机总结
  14. httpclient 设置短连接_关于HTTP的长连接和短连接那些事
  15. php imap 安装_PHP安装IMAP扩展
  16. eNSP解决OSPF不规则区域几个方法和vlink-peer
  17. 再来看一下培根的<论读书>吧!
  18. 免费小说分享—《异界之九阳真经》
  19. JS获取当前网页大小以及屏幕分辨率等
  20. SaaS-HRM(3)企业部门管理前后台

热门文章

  1. 超越局域网,免费多平台的文件分享利器:SendAnywhere
  2. bios添加slic激活win7
  3. 直连网线和交叉网线的制作与应用
  4. 2020年【408真题】和参考答案解析!
  5. 线性代数 04.07 向量组的线性相关性 习题课
  6. linux 中文游戏网站,5款值得推荐的免费游戏
  7. 美国商业史上的七个巨人
  8. 2017中国产品经理、互联网运营大会官方回顾:未来,属于你
  9. php allow furl open,实现在线阅读WORD,PDF等文件,JAVA,PHP都可以
  10. 用html做个性相册,纯CSS实现蜂窝六边形的个性相册