为了爬点小数据同时试用了八爪鱼和集搜客。两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分。不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件。本着能省则省的原则,用Python折腾了一个将多个xml文件中的内容进行提取并合并到一个txt文件中的小工具。八爪鱼和集搜客的简单试用对比:对能直接从页面提取的元素都有很好的支持,但如果是从源码中提取,集搜客的XPath支持貌似更好些。

也可以通过Excel的开发工具建立xml映射将多个xml导入一张sheet内。

用到了BeautifulSoup的库,需要另行下载安装。这里下载     其实不用BeautifulSoup也可以用正则表达式匹配出来。

#Merge .xml files into a csv-ready .txt.

#Matt Sun

#http://offmask.com

#Oct 22, 2016

#coding=utf-8

filePath = "c:\\work\\marketplace\\imgURL\\"

#放xml文件的文件夹路径

import os

from bs4 import BeautifulSoup

files = os.listdir(path = filePath)

outF = open('c:\\work\\marketplace\\imgurl.txt','a')

for i in range(len(files)):

xmlF = open(filePath+files[i],'r')

xmlContent = BeautifulSoup(xmlF)

xmlF.close()

imgUrl = xmlContent.url.text

asin = xmlContent.fullpath.text

outContent =asin + "," + imgUrl + "\n"

outF.write(outContent)

outF.close()

print("all done!")

xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...相关推荐

  1. Python使用 (一)从网页爬取并清洗一些优美的中英双语短句

    Crawl Short Sentence 爬取一些优美的中英双语短句 找到一个网站 http://www.siandian.com/haojuzi/1574.html 用上面的网站链接做例子 # 通过 ...

  2. xml文件拆分 python_使用Python解析大型拆分XML文件

    我有一个非常大的XML日志文件,它以固定大小(约200MB)自动拆分.可能有很多部分(通常少于10个).当它拆分时,它不会在记录的末尾或者甚至在当前行的末尾进行拆分.它只要达到目标尺寸就会裂开.在 基 ...

  3. python中用Beautifulsoup提取集搜客网站的信息

    1爬取集搜客网站上面的信息点击打开链接 2看下这个源代码 3使用正则表达式提取出来 # coding:utf8 import urllib2 import time from bs4 import B ...

  4. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  5. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  6. python 爬虫实例-python爬虫实例,一小时上手爬取淘宝评论(附代码)

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...

  7. Python爬虫实例,一小时上手爬取淘宝评论(附代码)!

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...

  8. python爬虫——使用requests库和xpath爬取猎聘网职位详情

    文章目录 前言 一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析 至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...

  9. Python新手爬虫训练小项目《爬取彼岸图网》(超详细讲解版)

    Python新手爬虫训练小项目<爬取彼岸图网>(超详细讲解版) 这是我的第一篇文章,作为一名新手爬虫,这个算是我这几天来的努力成果,虽然代码寥寥几行但花费了大半天,新手上路还是不能只看视频 ...

最新文章

  1. Servlet映射路径中的通配符
  2. ES6中 const 关键字
  3. 海量日志分析方案--logstash+kibnana+kafka
  4. Java集合框架:LinkedHashMap
  5. 计算机网络工程应用,全面信息化管理在计算机网络工程的应用
  6. ROS服务中存在string类型变量,如何给string类型变量赋值及取值
  7. OJ1025: 最大字符
  8. 使用PostgREST的RestAPI操作PostgreSQL数据库教程
  9. 我对这个页面做了什么?
  10. python绘制小猪佩奇
  11. SSM整合(二)(mybatis逆向工程)
  12. 总结:常用的 Python 爬虫技巧
  13. 商汤物语:全球最大AI独角兽的雄心与优雅
  14. jq js json 转字符串_js-jquery-对象与JSON字符串互相转换
  15. 如何将本地项目上传到码云
  16. 校验集装箱号;java校验集装箱号并附解析
  17. Android 百度地图应用定位经纬度返回4.9E-324有关问题
  18. 如何在BIOS设置电脑主机刚接通电源后开机方式
  19. 程序员加班面临的问题
  20. 聊聊心理学专业去用户体验研究方向的求职

热门文章

  1. 第二章 体重指数计算器
  2. matlab power什么意思啊,power是什么意思
  3. THREE.js实现蝴蝶随机方向飞舞(飞行过程中可随机改变方向)
  4. 深度学习入门(斋藤康毅)
  5. 震惊,python二级真题答案流出
  6. HackRF-One 的接收和发送实验
  7. Noip 模拟练习5
  8. 8项seo的日常工作
  9. 5-DOF机械臂课程设计(一)之正逆运动学
  10. react-native自定义头部