xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...
为了爬点小数据同时试用了八爪鱼和集搜客。两者都有免费版本,但八爪鱼数据导出需要积分,集搜客可以不用积分。不过八爪鱼导出的数据有多种格式可选,而集搜客如果不用积分就只能得到一堆xml文件。本着能省则省的原则,用Python折腾了一个将多个xml文件中的内容进行提取并合并到一个txt文件中的小工具。八爪鱼和集搜客的简单试用对比:对能直接从页面提取的元素都有很好的支持,但如果是从源码中提取,集搜客的XPath支持貌似更好些。
也可以通过Excel的开发工具建立xml映射将多个xml导入一张sheet内。
用到了BeautifulSoup的库,需要另行下载安装。这里下载 其实不用BeautifulSoup也可以用正则表达式匹配出来。
#Merge .xml files into a csv-ready .txt.
#Matt Sun
#http://offmask.com
#Oct 22, 2016
#coding=utf-8
filePath = "c:\\work\\marketplace\\imgURL\\"
#放xml文件的文件夹路径
import os
from bs4 import BeautifulSoup
files = os.listdir(path = filePath)
outF = open('c:\\work\\marketplace\\imgurl.txt','a')
for i in range(len(files)):
xmlF = open(filePath+files[i],'r')
xmlContent = BeautifulSoup(xmlF)
xmlF.close()
imgUrl = xmlContent.url.text
asin = xmlContent.fullpath.text
outContent =asin + "," + imgUrl + "\n"
outF.write(outContent)
outF.close()
print("all done!")
xml文件拆分 python_用Python提取合并由集搜客爬取的多个xml文件中的数据 | 向死而生...相关推荐
- Python使用 (一)从网页爬取并清洗一些优美的中英双语短句
Crawl Short Sentence 爬取一些优美的中英双语短句 找到一个网站 http://www.siandian.com/haojuzi/1574.html 用上面的网站链接做例子 # 通过 ...
- xml文件拆分 python_使用Python解析大型拆分XML文件
我有一个非常大的XML日志文件,它以固定大小(约200MB)自动拆分.可能有很多部分(通常少于10个).当它拆分时,它不会在记录的末尾或者甚至在当前行的末尾进行拆分.它只要达到目标尺寸就会裂开.在 基 ...
- python中用Beautifulsoup提取集搜客网站的信息
1爬取集搜客网站上面的信息点击打开链接 2看下这个源代码 3使用正则表达式提取出来 # coding:utf8 import urllib2 import time from bs4 import B ...
- Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价
Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...
- python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...
原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...
- python 爬虫实例-python爬虫实例,一小时上手爬取淘宝评论(附代码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- Python爬虫实例,一小时上手爬取淘宝评论(附代码)!
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- python爬虫——使用requests库和xpath爬取猎聘网职位详情
文章目录 前言 一.页面分析 1.职位列表页面分析 2.职位详情页面URL获取 3.职位详情页面分析 至此,所有页面解析完毕,开始写代码. 二.代码编写 1.导入相应库 2.设置代理和随机请求头 3. ...
- Python新手爬虫训练小项目《爬取彼岸图网》(超详细讲解版)
Python新手爬虫训练小项目<爬取彼岸图网>(超详细讲解版) 这是我的第一篇文章,作为一名新手爬虫,这个算是我这几天来的努力成果,虽然代码寥寥几行但花费了大半天,新手上路还是不能只看视频 ...
最新文章
- Servlet映射路径中的通配符
- ES6中 const 关键字
- 海量日志分析方案--logstash+kibnana+kafka
- Java集合框架:LinkedHashMap
- 计算机网络工程应用,全面信息化管理在计算机网络工程的应用
- ROS服务中存在string类型变量,如何给string类型变量赋值及取值
- OJ1025: 最大字符
- 使用PostgREST的RestAPI操作PostgreSQL数据库教程
- 我对这个页面做了什么?
- python绘制小猪佩奇
- SSM整合(二)(mybatis逆向工程)
- 总结:常用的 Python 爬虫技巧
- 商汤物语:全球最大AI独角兽的雄心与优雅
- jq js json 转字符串_js-jquery-对象与JSON字符串互相转换
- 如何将本地项目上传到码云
- 校验集装箱号;java校验集装箱号并附解析
- Android 百度地图应用定位经纬度返回4.9E-324有关问题
- 如何在BIOS设置电脑主机刚接通电源后开机方式
- 程序员加班面临的问题
- 聊聊心理学专业去用户体验研究方向的求职