python scrapy框架 简书_7、Python Scrapy框架,简单学习
工程搭建流程:
1、cmd: cd PyCharmProject(工程所在目标文件)
2、cmd: scrapy startproject movie
3、cmd: cd movie
4、cmd: scrapy genspider meiju meijutt.com
5、IDE(PyCharm) 打开工程:
items.py -- 该文件定义存储模板,用于结构化数据
import scrapy
class MovieItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
name = scrapy.Field()
meiju.py -- 存储实际的爬虫代码
import scrapy
from movie.items import MovieItem
class MeijuSpider(scrapy.Spider):
name = 'meiju'
allowed_domains = ['meijutt.com']
start_urls = ['http://www.meijutt.com/new100.html']
# def start_requests(self):
# urls = ['http://www.meijutt.com/new100.html']
# for url in urls:
# yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
movies = response.xpath('//ul[@class="top-list fn-clear"]/li')
for each_movie in movies:
item = MovieItem()
item['name'] = each_movie.xpath('./h5/a/@title').extract()[0]
yield item
pipelines.py --该文件定义数据的存储方式,可以是文件、数据库或其他
class MoviePipeline(object):
def process_item(self, item, spider):
with open("my_meiju.txt",'a') as fp:
fp.write(item['name'])
# fp.write(str(value=item['name'], encoding="utf-8"))
fp.write('\n------------\n')
setting.py -- 配置文件,可设置用户代理、爬取延时等
ITEM_PIPELINES = {'movie.pipelines.MoviePipeline': 100}
6、cmd: cd movie
7、cmd: scrapy crawl meiju --log 或 scrapy crawl meiju
python scrapy框架 简书_7、Python Scrapy框架,简单学习相关推荐
- 用 python selenium 爬简书,Python自动化领域之 Selenium WebDriver 学习第2篇
本篇博客使用 selenium 实现对简书官网的操作. 文章目录 通过 selenium 执行 JS selenium 实现简书搜索 selenium 隐式与显式等待 selenium 采集京东图书 ...
- python爬虫教程简书_7个Python爬虫实战项目教程
有很多小伙伴在开始学习Python的时候,都特别期待能用Python写一个爬虫脚本,实验楼上有不少python爬虫的课程,这里总结几个实战项目,如果你想学习Python爬虫的话,可以挑选感兴趣的学习哦 ...
- python工厂模式 简书_[Python设计模式] 01 - 简单工厂模式
设计模式的目的是让代码易维护.易扩展,不能为了模式而模式,因此一个简单的工具脚本是不需要用到任何模式的. 简单工厂模式又叫静态工厂方法模式,工厂模式家族中最简单的一种模式.这个模式的基本工作方式: 通 ...
- [译] 12步轻松搞定python装饰器 - 简书
[译] 12步轻松搞定python装饰器 - 简书 呵呵!作为一名教python的老师,我发现学生们基本上一开始很难搞定python的装饰器,也许因为装饰器确实很难懂.搞定装饰器需要你了解一些函数式编 ...
- Python爬虫获取简书的用户、文章、评论、图片等数据,并存入数据库
Python爬虫获取简书的用户.文章.评论.图片等数据,并存入数据库 爬虫定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维 ...
- python scrapy框架 简书_python爬虫框架——Scrapy架构原理介绍
说起写爬虫,大多数第一时间想到的就是python了.python语法简洁明了,加上及其丰富好用的库,用它来写爬虫有天然的优势. 之前学python的时候也用requests+lxml写过几个爬虫玩,但 ...
- python工厂模式 简书_工厂
思考题 public void printMenu() { PancakeHouseMenu pancakeHouseMenu = new PancakeHouseMenu(); ArrayList ...
- python 排序算法 简书_Python---简析八大排序算法
前言 1 .排序的概念 排序是计算机内经常进行的一种操作,其目的是将一组"无序"的记录序列调整为"有序"的记录序列. 排序分为内部排序和外部排序. 若整个排序过 ...
- 简书python_用python轻松刷简书文章访问量
作者:bigtrace 很多人大概都为自己辛辛苦苦写的文章没人看而烦恼,本文就以简书为例,通过python来轻松刷访问量. 刷访问量需要当前没有用户登录,页面每刷新一次,阅读量就会增加一次.Repla ...
- 简书爬ajax接口获取csrf,Python爬取简书主页信息
主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...
最新文章
- 程序猿,凭什么让你拿二十万
- cifs------网络文件系统(2)
- WINCE下调试AT050TN22屏及触摸屏小结
- Android之如何使用junit
- angular js 使用pdf.js_排名靠前的几个JS框架发展趋势和前景
- dos打开计算机管理,小何 发布 DOS 命令打开控制面板各项东东 你们懂得...
- Android中ActionBar中不显示overflow(就是三个点的那个按钮)解决办法
- hihoCoder 1388(fft)
- VBA字符处理 特殊符号
- 实体书店不断萎缩 路在何方?
- FPGA之旅设计99例之第九例-----驱动0.96寸OLED屏
- Data Binding学习(一)
- SPSS结果解读——【独立样本T检验】【方差齐性】
- 三维场景注记的配置相关(学习记录)
- 保持一张干净的脸部!
- ubuntu下mongodb及其可视化工具robomongo安装
- An association from the table yi_community refers to an unmapped class: com。yiyi.domain.YiGroup
- Windows路由功能及DHCP中继服务
- 51job爬虫-xpath
- 【问题解决】SpringBoot工程无法找到父依赖 parent-pom Failure to find com.xxx:parent-pom:pom:1.0.0.RELEASE
热门文章
- Excel如何快速录入甲乙丙丁序列
- Regex 量词Quantifier 分组group
- python 网络设备巡检_Python自动巡检H3C交换机实现过程解析
- esp8266使用TF卡并读写数据(基于arduino)
- android wifi音箱,(原创)图文并茂教程,手把手教你用安卓手机当电脑的无线扬声器(喇叭)...
- iPaaS 重新定义集成 - 开篇
- 微信群成员活跃度测试软件,微信群活跃度最佳人数是多少?
- 中国数据开放共享的“道”与“术”
- mysql数据库运维月报_微运维weadmin快速上手手册.doc
- TeamViewer设备数量受限的解决办法