网络爬虫采集下来的结果数据是用XML文件存的,如果要转换成Excel格式,需要用到爬虫的导入和导出功能。导入数据的方法又分成手工导入和自动导入两种情况。

  1. 做完采集规则后,点击爬数据或者DS打数机上的单搜或者集搜按钮,这样采集下来的数据是不会自动导入的,需要按照本教程讲解的方法导入数据。
  2. 对规则设置了调度,而且勾选了自动入库,或者使用微博采集工具箱和快捷采集工具,那么都会自动导入,用户只需在规则管理那里导出数据即可。

使xml格式转为excel格式,手工导入导出的操作步骤如下:(注意控制ZIP包的大小)

二、手工导入操作步骤

打数机采集下来的数据,一页一个XML文件,存放在硬盘的DataScraperWorks目录下,相应主题名文件夹里**。**

1,在硬盘的主题名文件夹里选中多个xml文件直接压缩到zip包,不要夹杂除xml外的文件夹或其他文件类型。

2,登录中心->任务管理。

3,点击对应的任务名进入到该任务的管理页面,点击“数据”按钮->“导入XML”,选择XML的压缩包zip,导入。

4,导入成功后即可“导出数据”,在“历史记录”中可以重复下载。下载的数据,默认保存在本地的下载目录

注意:ZIP包不能大于10M,为了稳定上传,最好分批压缩成多个2M的包。

**【注意】**数据管理功能是增值服务,每个规则可以免费导出1万条数据。专业版or旗舰版爬虫”。

三、自动导入操作步骤

在中心给自己做的规则设置调度,而且勾选了自动入库,如果运行起来爬虫群模式,爬虫群就能自动入库。

Python学习笔记(6) xml转换为excel相关推荐

  1. Python学习笔记(二)Excel保存数据

    由于之前对Python有一些了解,因此这个学习笔记并不是学习顺序,而是工作中需要用到的技术的记录. 工作中需要记录一大组数据,因此需要将其保存起来,我就想到了比较常见的excel. 保存到excel的 ...

  2. python学习笔记-day6-【python如何写excel表】

    说说Python如何操作excel, 往excel里写数据,这个还是很常用场景的. 一.安装模块 #pip install xlwt 二.往excel里写数据的步骤 1.步骤 2.注意点 保存的时候, ...

  3. VSTO学习笔记(二)Excel对象模型

    原文:VSTO学习笔记(二)Excel对象模型 上一次主要学习了VSTO的发展历史及其历代版本的新特性,概述了VSTO对开发人员的帮助和效率提升.从这次开始,将从VSTO 4.0开始,逐一探讨VSTO ...

  4. 零基础学Python学习笔记

    Python学习笔记 代码下载地址 链接:https://pan.baidu.com/s/1yGnpfq4ZHeKpt4V0J_PTSg 提取码:hmzs 1. Python 基础语法 1.1 基本数 ...

  5. Python学习笔记19:列表 III

    Python学习笔记19:列表 III 其实这篇笔记标题应该是列表扩展,从列表开始,将涵盖Python中的序列容器. 关于列表的基础知识,可以看我的前两篇文章: Python学习笔记1:列表. Pyt ...

  6. Python学习笔记 day5

    Python学习笔记 day5 参考/引用资料: 1.file a.打开文件方式(读写两种方式) 缓冲 with语句 b.文件对象的操作方法 c.学习对excel及csv文件进行操作 读写excel ...

  7. 廖Python学习笔记一

    1. 廖Python学习笔记 大的分类 如函数 用二级标题,下面的用三级 如输入输出 1.1.1. 输入输出 1.1.1.1. 输出 用 print() 在括号里加上字符串,就可以向屏幕上输出指定的文 ...

  8. Python 学习笔记(3)对txt文件的读与写操作(下)

    上一章节我们讨论了如何对txt文本文件进行读写操作,这一张将讨论如何进行二进制文件的写与读.<Python 学习笔记(3)对txt文件的读与写操作(上)>的链接如下https://blog ...

  9. Python学习笔记:Day5 编写web框架

    前言 最近在学习深度学习,已经跑出了几个模型,但Pyhton的基础不够扎实,因此,开始补习Python了,大家都推荐廖雪峰的课程,因此,开始了学习,但光学有没有用,还要和大家讨论一下,因此,写下这些帖 ...

  10. Python学习笔记:访问数据库

    前言 最近在学习深度学习,已经跑出了几个模型,但Pyhton的基础不够扎实,因此,开始补习Python了,大家都推荐廖雪峰的课程,因此,开始了学习,但光学有没有用,还要和大家讨论一下,因此,写下这些帖 ...

最新文章

  1. 用一维数组统计五个人的成绩中的最大值最小值平均值_昨天为了整理这份教程,我放弃了参加一个几亿人的大项目。...
  2. 17 个方面,综合对比 Kafka、RabbitMQ、RocketMQ、ActiveMQ
  3. MapReduce多表连接
  4. boost::container模块实现vector选项
  5. DELL台式机BIOS常见问题
  6. python爬_python爬虫--模拟登录知乎
  7. Unity C# Job System介绍(四) 并行化Job和故障排除(完结)
  8. 箱梁终张拉后弹性上拱度计算_高速铁路预应力简支箱梁反拱预设分析
  9. Linux 新加一块硬盘,添加到已有逻辑卷扩容
  10. python threading.Barrier
  11. [转载] python自定义异常类型和raise抛出异常
  12. elementui表格序号自动加上
  13. 80 - 抓取豆瓣音乐排行榜
  14. 云上城之歌通用服务器是什么意思,云上城之歌ios安卓是互通的吗 不同系统可以一起玩吗...
  15. 苹果电脑开机长android,苹果笔记本开机白屏时间太长
  16. 不入门级代码教程(仅供参考)
  17. netstat 查看tcp 网络连接
  18. An internal error occurred during: “Enabling Maven Dependency Management”. Unsup
  19. office2016增强版注册
  20. 软考中级软件设计师--9.计算机网络

热门文章

  1. Element-UI el-table组件表格打印
  2. SqlLoader(Sqlldr) 的用法
  3. 视差图Disparity与深度图Depth Map的一点知识
  4. adb手机无法识别 vivo_vivo安卓adb工具
  5. c语言输入字符计算器,C语言编写简单计算器
  6. 仿京东商城html网页源码
  7. “婚礼邀请函”小程序开发过程
  8. tftp服务器离线安装
  9. 软件测试人员电脑需要安装的基础工具
  10. 牛腩新闻发布系统-概要介绍