python scrapy框架简书_7、Python Scrapy框架，简单学习

工程搭建流程：

1、cmd: cd PyCharmProject(工程所在目标文件)

2、cmd: scrapy startproject movie

3、cmd: cd movie

4、cmd: scrapy genspider meiju meijutt.com

5、IDE(PyCharm) 打开工程：

items.py -- 该文件定义存储模板，用于结构化数据

import scrapy

class MovieItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

name = scrapy.Field()

meiju.py -- 存储实际的爬虫代码

import scrapy

from movie.items import MovieItem

class MeijuSpider(scrapy.Spider):

name = 'meiju'

allowed_domains = ['meijutt.com']

start_urls = ['http://www.meijutt.com/new100.html']

# def start_requests(self):

# urls = ['http://www.meijutt.com/new100.html']

# for url in urls:

# yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):

movies = response.xpath('//ul[@class="top-list fn-clear"]/li')

for each_movie in movies:

item = MovieItem()

item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]

yield item

pipelines.py --该文件定义数据的存储方式，可以是文件、数据库或其他

class MoviePipeline(object):

def process_item(self, item, spider):

with open("my_meiju.txt",'a') as fp:

fp.write(item['name'])

# fp.write(str(value=item['name'], encoding="utf-8"))

fp.write('\n------------\n')

setting.py -- 配置文件，可设置用户代理、爬取延时等

ITEM_PIPELINES = {'movie.pipelines.MoviePipeline': 100}

6、cmd: cd movie

7、cmd: scrapy crawl meiju --log 或 scrapy crawl meiju

python scrapy框架简书_7、Python Scrapy框架，简单学习相关推荐

用 python selenium 爬简书，Python自动化领域之 Selenium WebDriver 学习第2篇
本篇博客使用 selenium 实现对简书官网的操作. 文章目录通过 selenium 执行 JS selenium 实现简书搜索 selenium 隐式与显式等待 selenium 采集京东图书 ...
python爬虫教程简书_7个Python爬虫实战项目教程
有很多小伙伴在开始学习Python的时候,都特别期待能用Python写一个爬虫脚本,实验楼上有不少python爬虫的课程,这里总结几个实战项目,如果你想学习Python爬虫的话,可以挑选感兴趣的学习哦 ...
python工厂模式简书_[Python设计模式] 01 - 简单工厂模式
设计模式的目的是让代码易维护.易扩展,不能为了模式而模式,因此一个简单的工具脚本是不需要用到任何模式的. 简单工厂模式又叫静态工厂方法模式,工厂模式家族中最简单的一种模式.这个模式的基本工作方式: 通 ...
[译] 12步轻松搞定python装饰器 - 简书
[译] 12步轻松搞定python装饰器 - 简书呵呵!作为一名教python的老师,我发现学生们基本上一开始很难搞定python的装饰器,也许因为装饰器确实很难懂.搞定装饰器需要你了解一些函数式编 ...
Python爬虫获取简书的用户、文章、评论、图片等数据，并存入数据库
Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...
python scrapy框架简书_python爬虫框架——Scrapy架构原理介绍
说起写爬虫,大多数第一时间想到的就是python了.python语法简洁明了,加上及其丰富好用的库,用它来写爬虫有天然的优势. 之前学python的时候也用requests+lxml写过几个爬虫玩,但 ...
python工厂模式简书_工厂
思考题 public void printMenu() { PancakeHouseMenu pancakeHouseMenu = new PancakeHouseMenu(); ArrayList ...
python 排序算法简书_Python---简析八大排序算法
前言 1 .排序的概念排序是计算机内经常进行的一种操作,其目的是将一组"无序"的记录序列调整为"有序"的记录序列. 排序分为内部排序和外部排序. 若整个排序过 ...
简书python_用python轻松刷简书文章访问量
作者:bigtrace 很多人大概都为自己辛辛苦苦写的文章没人看而烦恼,本文就以简书为例,通过python来轻松刷访问量. 刷访问量需要当前没有用户登录,页面每刷新一次,阅读量就会增加一次.Repla ...
简书爬ajax接口获取csrf,Python爬取简书主页信息
主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...

python scrapy框架简书_7、Python Scrapy框架，简单学习

python scrapy框架简书_7、Python Scrapy框架，简单学习相关推荐

最新文章

热门文章

python scrapy框架 简书_7、Python Scrapy框架，简单学习

python scrapy框架 简书_7、Python Scrapy框架，简单学习相关推荐

最新文章

热门文章

python scrapy框架简书_7、Python Scrapy框架，简单学习

python scrapy框架简书_7、Python Scrapy框架，简单学习相关推荐