Scrapy框架----pipeline---------数据保存EXCEL
from openpyxl import Workbookwk = Workbook() #class实例化 ws = wk.active #激活工作表 ws["A1"] = 999999 #A1表格输入数据 ws.append(['2018-1-1','学习','Python','人生苦短,我用Python']) #加入一行数据 wb.save('/me/con.xlsx') #保存文件
from openpyxl import Workbookclass TuniuPipeline(object): # 设置工序一self.wb = Workbook()self.ws = self.wb.activeself.ws.append(['新闻标题', '新闻链接', '来源网站', '发布时间', '相似新闻', '是否含有网站名']) # 设置表头def process_item(self, item, spider): # 工序具体内容line = [item['title'], item['link'], item['source'], item['pub_date'], item['similar'], item['in_title']] # 把数据中每一项整理出来self.ws.append(line) # 将数据以行的形式添加到xlsx中self.wb.save('/home/alexkh/tuniu.xlsx') # 保存xlsx文件return item
为了让pipeline.py
生效,还需要在settings.py
文件中增加设置,内容如下:
ITEM_PIPELINES = {'tuniunews.pipelines.TuniuPipeline': 200, # 200是为了设置工序顺序 }
转载于:https://www.cnblogs.com/eunuch/p/9277317.html
Scrapy框架----pipeline---------数据保存EXCEL相关推荐
- 爬虫之scrapy框架的数据持久化存储/保存为scv,json文件
文章目录 前情回顾 selenium+phantomjs/chrome/firefox execjs模块使用 今日笔记 scrapy框架 小试牛刀 猫眼电影案例 知识点汇总 数据持久化存储(MySQL ...
- scrapy+mysql+pipeline+更新数据_python3+Scrapy爬虫实战(二)—— 使用pipeline数据保存到文本和数据库(mysql)...
前言 保存本地 存储Json数据 配置setting 保存数据库 创建数据库 创建表 编写pipelines 配置setting 本文是对上篇文章所讲的代码进一步优化,回看可以点这里,代码就直接在上一 ...
- 爬虫Spider 09 - scrapy框架 | 日志级别 | 保存为csv、json文件
文章目录 Spider 08回顾 selenium+phantomjs/chrome/firefox execjs模块使用 Spider 09笔记 scrapy框架 小试牛刀 猫眼电影案例 知识点汇总 ...
- 【python】数据分析绘制疫情图(爬取数据+保存Excel+echart绘制地图)
数据分析师工作中常规流程一般是:数据获取.数据处理.数据分析展示等. 本篇通过国内疫情数据实现数据从爬取到展示的过程. 介绍 py版本:python 3.8 目标绘制全国疫情图. 思路 通过以下三个方 ...
- Scrapy框架items数据建模、翻页请求、requests对象请求、meta参数的使用
1. 数据建模 通常在做项目的过程中,在items.py中进行数据建模 1.1 为什么建模 定义item即提前规划好哪些字段需要抓,防止手误,因为定义好之后,在运行过程中,系统会自动检查 配合注释一起 ...
- CANape数据保存excel格式的方法
使用CANape采集的数据如果想保存为可用excel打开的文件,可按照如下方法操作: 在Graphic的图像区域,右键,选择signal values,然后选择save 选择需要的信号和时间段,点OK ...
- Python 读取Excel, 隔行取数据, 保存Excel
前言 啊啊啊, 吐槽吐槽吐槽, 网上几乎搜不到这么简单任务的代码, 在Excel里的操作也很繁琐(数据量太大了), 想到自己怎么也是一只程序媛, 自己动手丰衣足食; import pandas as ...
- scrapy 保存mysql_scrapy爬虫事件以及数据保存为txt,json,mysql
今天要爬取的网页是虎嗅网 我们将完成如下几个步骤: 创建一个新的Scrapy工程 定义你所需要要抽取的Item对象 编写一个spider来爬取某个网站并提取出所有的Item对象 编写一个Item Pi ...
- Python爬虫5.3 — scrapy框架spider[Request和Response]模块的使用
Python爬虫5.3 - scrapy框架spider[Request和Response]模块的使用 综述 Request对象 scrapy.Request()函数讲解: Response对象 发送 ...
最新文章
- js变量前有 var 与没有的区别
- 互掐!美团“抛弃”支付宝,背后的真相到底是啥?
- sklearn 线性回归_使用sklearn库做线性回归拟合
- 数据人看Feed流-架构实践
- ad14 drc报错_AD怎么设置DRC检查常规检查项报错?
- matlab linux命令行窗口,linux命令行运行matlab
- 【R】【课程笔记】06 金融波动模型
- 初探MYD-AM335x开发板
- sh: arithmetic expression: expecting primary
- 高德地图ajax距离,高德地图 API 计算两个城市之间的距离
- marked扩展语法(增加自定义表情)
- HDMI接口的HPD问题
- MSP430X1XX系列ADC12和DMA详解(附带程序)(上)--ADC12详解与源码
- 测试用例评审的旁观记录
- eclipse juno(4.2) 集成 maven 插件
- IDEA好用的插件推荐
- 将网络url图片链接转换为File类型对象
- 蓝牙协议栈消息的关联
- Vcenter无法开启EVC,显示主机的CPU硬件不支持
- 百度理财如何玩转社交营销?玩法比收益率更重要