工程搭建流程:

1、cmd: cd PyCharmProject(工程所在目标文件)

2、cmd: scrapy startproject movie

3、cmd: cd movie

4、cmd: scrapy genspider meiju meijutt.com

5、IDE(PyCharm) 打开工程:

items.py -- 该文件定义存储模板,用于结构化数据

import scrapy

class MovieItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

name = scrapy.Field()

meiju.py -- 存储实际的爬虫代码

import scrapy

from movie.items import MovieItem

class MeijuSpider(scrapy.Spider):

name = 'meiju'

allowed_domains = ['meijutt.com']

start_urls = ['http://www.meijutt.com/new100.html']

# def start_requests(self):

# urls = ['http://www.meijutt.com/new100.html']

# for url in urls:

# yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):

movies = response.xpath('//ul[@class="top-list fn-clear"]/li')

for each_movie in movies:

item = MovieItem()

item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]

yield item

pipelines.py --该文件定义数据的存储方式,可以是文件、数据库或其他

class MoviePipeline(object):

def process_item(self, item, spider):

with open("my_meiju.txt",'a') as fp:

fp.write(item['name'])

# fp.write(str(value=item['name'], encoding="utf-8"))

fp.write('\n------------\n')

setting.py -- 配置文件,可设置用户代理、爬取延时等

ITEM_PIPELINES = {'movie.pipelines.MoviePipeline': 100}

6、cmd: cd movie

7、cmd: scrapy crawl meiju --log 或 scrapy crawl meiju

python scrapy框架 简书_7、Python Scrapy框架,简单学习相关推荐

  1. 用 python selenium 爬简书,Python自动化领域之 Selenium WebDriver 学习第2篇

    本篇博客使用 selenium 实现对简书官网的操作. 文章目录 通过 selenium 执行 JS selenium 实现简书搜索 selenium 隐式与显式等待 selenium 采集京东图书 ...

  2. python爬虫教程简书_7个Python爬虫实战项目教程

    有很多小伙伴在开始学习Python的时候,都特别期待能用Python写一个爬虫脚本,实验楼上有不少python爬虫的课程,这里总结几个实战项目,如果你想学习Python爬虫的话,可以挑选感兴趣的学习哦 ...

  3. python工厂模式 简书_[Python设计模式] 01 - 简单工厂模式

    设计模式的目的是让代码易维护.易扩展,不能为了模式而模式,因此一个简单的工具脚本是不需要用到任何模式的. 简单工厂模式又叫静态工厂方法模式,工厂模式家族中最简单的一种模式.这个模式的基本工作方式: 通 ...

  4. [译] 12步轻松搞定python装饰器 - 简书

    [译] 12步轻松搞定python装饰器 - 简书 呵呵!作为一名教python的老师,我发现学生们基本上一开始很难搞定python的装饰器,也许因为装饰器确实很难懂.搞定装饰器需要你了解一些函数式编 ...

  5. Python爬虫获取简书的用户、文章、评论、图片等数据,并存入数据库

    Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库 爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...

  6. python scrapy框架 简书_python爬虫框架——Scrapy架构原理介绍

    说起写爬虫,大多数第一时间想到的就是python了.python语法简洁明了,加上及其丰富好用的库,用它来写爬虫有天然的优势. 之前学python的时候也用requests+lxml写过几个爬虫玩,但 ...

  7. python工厂模式 简书_工厂

    思考题 public void printMenu() { PancakeHouseMenu pancakeHouseMenu = new PancakeHouseMenu(); ArrayList ...

  8. python 排序算法 简书_Python---简析八大排序算法

    前言 1 .排序的概念 排序是计算机内经常进行的一种操作,其目的是将一组"无序"的记录序列调整为"有序"的记录序列. 排序分为内部排序和外部排序. 若整个排序过 ...

  9. 简书python_用python轻松刷简书文章访问量

    作者:bigtrace 很多人大概都为自己辛辛苦苦写的文章没人看而烦恼,本文就以简书为例,通过python来轻松刷访问量. 刷访问量需要当前没有用户登录,页面每刷新一次,阅读量就会增加一次.Repla ...

  10. 简书爬ajax接口获取csrf,Python爬取简书主页信息

    主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...

最新文章

  1. 程序猿,凭什么让你拿二十万
  2. cifs------网络文件系统(2)
  3. WINCE下调试AT050TN22屏及触摸屏小结
  4. Android之如何使用junit
  5. angular js 使用pdf.js_排名靠前的几个JS框架发展趋势和前景
  6. dos打开计算机管理,小何 发布 DOS 命令打开控制面板各项东东 你们懂得...
  7. Android中ActionBar中不显示overflow(就是三个点的那个按钮)解决办法
  8. hihoCoder 1388(fft)
  9. VBA字符处理 特殊符号
  10. 实体书店不断萎缩 路在何方?
  11. FPGA之旅设计99例之第九例-----驱动0.96寸OLED屏
  12. Data Binding学习(一)
  13. SPSS结果解读——【独立样本T检验】【方差齐性】
  14. 三维场景注记的配置相关(学习记录)
  15. 保持一张干净的脸部!
  16. ubuntu下mongodb及其可视化工具robomongo安装
  17. An association from the table yi_community refers to an unmapped class: com。yiyi.domain.YiGroup
  18. Windows路由功能及DHCP中继服务
  19. 51job爬虫-xpath
  20. 【问题解决】SpringBoot工程无法找到父依赖 parent-pom Failure to find com.xxx:parent-pom:pom:1.0.0.RELEASE

热门文章

  1. Excel如何快速录入甲乙丙丁序列
  2. Regex 量词Quantifier 分组group
  3. python 网络设备巡检_Python自动巡检H3C交换机实现过程解析
  4. esp8266使用TF卡并读写数据(基于arduino)
  5. android wifi音箱,(原创)图文并茂教程,手把手教你用安卓手机当电脑的无线扬声器(喇叭)...
  6. iPaaS 重新定义集成 - 开篇
  7. 微信群成员活跃度测试软件,微信群活跃度最佳人数是多少?
  8. 中国数据开放共享的“道”与“术”
  9. mysql数据库运维月报_微运维weadmin快速上手手册.doc
  10. TeamViewer设备数量受限的解决办法