xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据

为了爬点小数据同时试用了八爪鱼和集搜客。两者都有免费版本，但八爪鱼数据导出需要积分，集搜客可以不用积分。不过八爪鱼导出的数据有多种格式可选，而集搜客如果不用积分就只能得到一堆xml文件。本着能省则省的原则，用Python折腾了一个将多个xml文件中的内容进行提取并合并到一个txt文件中的小工具。八爪鱼和集搜客的简单试用对比：对能直接从页面提取的元素都有很好的支持，但如果是从源码中提取，集搜客的XPath支持貌似更好些。

也可以通过Excel的开发工具建立xml映射将多个xml导入一张sheet内。

用到了BeautifulSoup的库，需要另行下载安装。这里下载其实不用BeautifulSoup也可以用正则表达式匹配出来。

#Merge .xml files into a csv-ready .txt.

#Matt Sun

#http://offmask.com

#Oct 22, 2016

#coding=utf-8

filePath = "c:\\work\\marketplace\\imgURL\\"

#放xml文件的文件夹路径

import os

from bs4 import BeautifulSoup

files = os.listdir(path = filePath)

outF = open('c:\\work\\marketplace\\imgurl.txt','a')

for i in range(len(files)):

xmlF = open(filePath+files[i],'r')

xmlContent = BeautifulSoup(xmlF)

xmlF.close()

imgUrl = xmlContent.url.text

asin = xmlContent.fullpath.text

outContent =asin + "," + imgUrl + "\n"

outF.write(outContent)

outF.close()

print("all done!")

xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...相关推荐

Python使用（一）从网页爬取并清洗一些优美的中英双语短句
Crawl Short Sentence 爬取一些优美的中英双语短句找到一个网站 http://www.siandian.com/haojuzi/1574.html 用上面的网站链接做例子 # 通过 ...
xml文件拆分 python_使用Python解析大型拆分XML文件
我有一个非常大的XML日志文件,它以固定大小(约200MB)自动拆分.可能有很多部分(通常少于10个).当它拆分时,它不会在记录的末尾或者甚至在当前行的末尾进行拆分.它只要达到目标尺寸就会裂开.在基 ...
python中用Beautifulsoup提取集搜客网站的信息
1爬取集搜客网站上面的信息点击打开链接 2看下这个源代码 3使用正则表达式提取出来 # coding:utf8 import urllib2 import time from bs4 import B ...
Python爬虫系列（二）：爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
python爬虫多久能学会-不踩坑的Python爬虫：如何在一个月内学会爬取大规模数据...
原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...
python 爬虫实例-python爬虫实例，一小时上手爬取淘宝评论(附代码)
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
Python爬虫实例，一小时上手爬取淘宝评论(附代码)！
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
python爬虫——使用requests库和xpath爬取猎聘网职位详情
文章目录前言一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...
Python新手爬虫训练小项目《爬取彼岸图网》（超详细讲解版）
Python新手爬虫训练小项目<爬取彼岸图网>(超详细讲解版) 这是我的第一篇文章,作为一名新手爬虫,这个算是我这几天来的努力成果,虽然代码寥寥几行但花费了大半天,新手上路还是不能只看视频 ...

xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...

xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...相关推荐

最新文章

热门文章