在用wordpress导出日志时,得到的往往是xml文件,具体形式如下:

<?xml version="1.0" encoding="UTF-8"?><!-- This is a WordPress eXtended RSS file generated by WordPress as an export of your site. It contains information about your site's posts, pages, comments, categories, and other content. You may use this file to transfer that content from one site to another. This file is not intended to serve as a complete backup of your site. To import this information into a WordPress site follow these steps: 1. Log in to that site as an administrator. 2. Go to Tools: Import in the WordPress admin panel. 3. Install the "WordPress" importer from the list. 4. Activate & Run Importer. 5. Upload this file using the form provided on that page. 6. You will first be asked to map the authors in this export file to users on the site. For each author, you may choose to map to an existing user on the site or to create a new user. 7. WordPress will then import each of the posts, pages, comments, categories, etc. contained in this file into your site. --><!-- generator="WordPress.com" created="2014-07-20 01:52"-->-<rss xmlns:wp="http://wordpress.org/export/1.2/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:excerpt="http://wordpress.org/export/1.2/excerpt/" version="2.0">-<channel><title>又一个无知的我</title><link>http://zhaoxinfan.wordpress.com</link><description>一个人要像一支队伍,对着自己的头脑和心灵招兵买马,不气馁,有召唤,爱自由</description><pubDate>Sun, 20 Jul 2014 01:52:09 +0000</pubDate><language>en</language><wp:wxr_version>1.2</wp:wxr_version><wp:base_site_url>http://wordpress.com/</wp:base_site_url><wp:base_blog_url>http://zhaoxinfan.wordpress.com</wp:base_blog_url>-<wp:wp_author><wp:author_login>felven2011</wp:author_login><wp:author_email>fanzhaoxing@gmail.com</wp:author_email>-<wp:author_display_name><![CDATA[felven2011]]></wp:author_display_name>-<wp:author_first_name><![CDATA[]]></wp:author_first_name>-<wp:author_last_name><![CDATA[]]></wp:author_last_name></wp:wp_author>-<wp:term><wp:term_id>49802233</wp:term_id><wp:term_taxonomy>nav_menu</wp:term_taxonomy><wp:term_slug>felven</wp:term_slug>-<wp:term_name><![CDATA[Felven]]></wp:term_name></wp:term>-<wp:term><wp:term_id>133338631</wp:term_id><wp:term_taxonomy>nav_menu</wp:term_taxonomy><wp:term_slug>header</wp:term_slug>-<wp:term_name><![CDATA[Header]]></wp:term_name></wp:term><generator>http://wordpress.com/</generator>-<image><url>https://secure.gravatar.com/blavatar/8d58061bb9bddb3c120363045033f1a2?s=96&d=https%3A%2F%2Fs2.wp.com%2Fi%2Fbuttonw-com.png</url><title>又一个无知的我</title><link>http://zhaoxinfan.wordpress.com</link></image>-<item><title>十天之后蓦然回首</title><link>http://zhaoxinfan.wordpress.com/2007/09/06/%e5%8d%81%e5%a4%a9%e4%b9%8b%e5%90%8e%e8%93%a6%e7%84%b6%e5%9b%9e%e9%a6%96/</link><pubDate>Thu, 06 Sep 2007 03:29:29 +0000</pubDate><dc:creator>felven2011</dc:creator><guid isPermaLink="false">http://felven.blogcn.com/?p=1793</guid><description/>-<content:encoded><![CDATA[ 说实话,真不知道十天后我会怎样。 拖着沉重的旅行箱,和父母一起登上北上的火车,这或许意味着大学生涯的开始。当我站在宿舍楼门前,望着父母远去的背影时,我会有怎样的感觉?恐怕脱离父母独自生活的新鲜感早已被无限的依恋所笼罩了吧。 十天,240个小时,折算成秒数字大的可以过万。也不过是几十万而已,与过去的18年相比,这只不过是湖中的一滴水。不知那些已在军训的朋友会在这最后十天内做些什么。试图记住家的样子和每一件物品的摆放地?记住书橱里的每一本书的名字,无论看没看过?厚厚的影集我不知翻过多少遍,今早在整理东西时,偶尔发现初中毕业合影。望着上面的自己,脑中忽闪出一句话,烈士暮年,壮心不已。我又不是烈士,还没到暮年呢。暗自觉得自己想法的可笑。 母亲老在耳边唠叨,等到送我去,他们走的时候,我一定会哭的。什么啊?我才不会哭呢。我一个人离家越远越好。暗暗嘲笑母亲的担心多余。晚上收到一条短信,是一个上苏大的朋友。他说他在和母亲分别的时候哭了,离家后的第一个晚上,他失眠了。当时我心里吃了一惊,他在家时是那样的充满激情,可现在……或许大一新生最难接受的局面是与家的分离。一个人心理成熟与否可以从他对家的依恋程度反映出来。十天以后,我就要面对这样的考验了。 不过,十天后的我到底是怎样离家的还是个未知数。在与父母分离时我会不会哭仍然是个迷。试想象一下,十天以后的某个时刻,在某个学生宿舍门口,一个1米79的学生,睁大眼睛向南眺望,同时在脑中搜寻家的美好记忆。我会不会是他呢?当他看累了,眼睛发胀,脑子转不动了时,蓦然回首,突然他发现,家就在他身边,就在他四周,在他的心中。 原来我与家是藕断丝连的,我永远也离不开家的温暖怀抱。 ]]></content:encoded>-<excerpt:encoded><![CDATA[]]></excerpt:encoded><wp:post_id>1793</wp:post_id><wp:post_date>2007-09-06 11:29:29</wp:post_date><wp:post_date_gmt>2007-09-06 03:29:29</wp:post_date_gmt><wp:comment_status>open</wp:comment_status><wp:ping_status>open</wp:ping_status><wp:post_name>%e5%8d%81%e5%a4%a9%e4%b9%8b%e5%90%8e%e8%93%a6%e7%84%b6%e5%9b%9e%e9%a6%96</wp:post_name><wp:status>publish</wp:status><wp:post_parent>0</wp:post_parent><wp:menu_order>0</wp:menu_order><wp:post_type>post</wp:post_type><wp:post_password/><wp:is_sticky>0</wp:is_sticky>-<category nicename="%e6%88%91%e6%80%9d%e6%95%85%e6%88%91%e5%9c%a8" domain="category"><![CDATA[我思故我在]]></category>-<wp:postmeta><wp:meta_key>_publicize_pending</wp:meta_key>-<wp:meta_value><![CDATA[1]]></wp:meta_value></wp:postmeta>-<wp:postmeta><wp:meta_key>ratings_users</wp:meta_key>-<wp:meta_value><![CDATA[0]]></wp:meta_value></wp:postmeta>-<wp:postmeta><wp:meta_key>ratings_score</wp:meta_key>-<wp:meta_value><![CDATA[0]]></wp:meta_value></wp:postmeta>-<wp:postmeta><wp:meta_key>ratings_average</wp:meta_key>-<wp:meta_value><![CDATA[0]]></wp:meta_value></wp:postmeta>-<wp:postmeta><wp:meta_key>_wp_old_slug</wp:meta_key>-<wp:meta_value><![CDATA[]]></wp:meta_value></wp:postmeta>-<wp:postmeta><wp:meta_key>edg_digg_count</wp:meta_key>-<wp:meta_value><![CDATA[0]]></wp:meta_value></wp:postmeta>-<wp:postmeta><wp:meta_key>original_post_id</wp:meta_key>-<wp:meta_value><![CDATA[1793]]></wp:meta_value></wp:postmeta>-<wp:postmeta><wp:meta_key>_wp_old_slug</wp:meta_key>-<wp:meta_value><![CDATA[1793]]></wp:meta_value></wp:postmeta></item>

对于用户来说,需要的仅仅是日志标题和内容。为了得到这些数据,最简单的方法是使用python对xml文件进行解析,然后把解析得到的数据保存到另一个文件中,具体做法如下:

from xml.dom.minidom import parse
import xml.dom.minidomdef parse(wordpress_file):DOMTree = xml.dom.minidom.parse(wordpress_file);collection = DOMTree.documentElement;posts = collection.getElementsByTagName("item");for post in posts:output.write("***********************"+"\n")title = post.getElementsByTagName('title')[0];print "Title: %s" % title.childNodes[0].data;output.write("Title"+"\t"+title.childNodes[0].data.encode('utf-8').strip()+"\n");content = post.getElementsByTagName('content:encoded')[0];print "Content: %s" % content.childNodes[0].data;output.write("Content"+"\t"+content.childNodes[0].data.encode('utf-8').strip()+"\n");###############################################################################if __name__=="__main__":output = open('E:\\w1.txt', 'w+')parse("E:\\w1.xml")output.close()

得到的结果如下:

***********************
Title   十天之后蓦然回首
Content 说实话,真不知道十天后我会怎样。拖着沉重的旅行箱,和父母一起登上北上的火车,这或许意味着大学生涯的开始。当我站在宿舍楼门前,望着父母远去的背影时,我会有怎样的感觉?恐怕脱离父母独自生活的新鲜感早已被无限的依恋所笼罩了吧。十天,240个小时,折算成秒数字大的可以过万。也不过是几十万而已,与过去的18年相比,这只不过是湖中的一滴水。不知那些已在军训的朋友会在这最后十天内做些什么。试图记住家的样子和每一件物品的摆放地?记住书橱里的每一本书的名字,无论看没看过?厚厚的影集我不知翻过多少遍,今早在整理东西时,偶尔发现初中毕业合影。望着上面的自己,脑中忽闪出一句话,烈士暮年,壮心不已。我又不是烈士,还没到暮年呢。暗自觉得自己想法的可笑。母亲老在耳边唠叨,等到送我去,他们走的时候,我一定会哭的。什么啊?我才不会哭呢。我一个人离家越远越好。暗暗嘲笑母亲的担心多余。晚上收到一条短信,是一个上苏大的朋友。他说他在和母亲分别的时候哭了,离家后的第一个晚上,他失眠了。当时我心里吃了一惊,他在家时是那样的充满激情,可现在……或许大一新生最难接受的局面是与家的分离。一个人心理成熟与否可以从他对家的依恋程度反映出来。十天以后,我就要面对这样的考验了。不过,十天后的我到底是怎样离家的还是个未知数。在与父母分离时我会不会哭仍然是个迷。试想象一下,十天以后的某个时刻,在某个学生宿舍门口,一个1米79的学生,睁大眼睛向南眺望,同时在脑中搜寻家的美好记忆。我会不会是他呢?当他看累了,眼睛发胀,脑子转不动了时,蓦然回首,突然他发现,家就在他身边,就在他四周,在他的心中。原来我与家是藕断丝连的,我永远也离不开家的温暖怀抱。

经过这样的操作,就能够把wordpress导出的文件处理为自己需要的结果了,如果还需要类别或发表时间等其他字段,只需要在相应的位置添加解析操作即可。总而言之,使用python解析xml确实很简单,这完全得益于python强大的类库。

使用python解析Wordpress导出的xml文件相关推荐

  1. 【Python】识别.yaml/.ini/.xml文件

    文章目录 一.[Python]识别.yaml/.ini/.xml文件: 1.1.模块的安装: 1.2..yaml文件读取: 1.3.yaml文件写入: 1.4.yaml文件更新操作: 1.5..ini ...

  2. 如何将DATASET的数据导出到XML文件,并直接下载

    如何将DATASET的数据导出到XML文件,并直接下载 转成其他格式可以使用诸如      Dim   Temp   As   String   =   String.Format("att ...

  3. Python解析CANoe录制的blf文件asc文件通用方法

    Python解析CANoe录制的blf文件&asc文件通用方法 一.背景     由于很多时候我们在录制日志文件的时候更愿意选择BLF文件,至少目前我见到的很多公司都是使用的BLF文件来作为最 ...

  4. Python解析CANoe录制的asc文件

    Python解析CANoe录制的asc文件 一.背景     由于很多时候我们需要单纯分析一些报文数据,筛选或者一些故障报文,这个时候,用CANoe打开太占用设备了,而且只能过滤到某一帧报文,当我们能 ...

  5. 使用存储过程将数据以XML格式导出到XML文件

    最近看到有网上有很多人问怎么把数据导出到XML文件,大多的解决方法就是 dbms_xmlgen+utl_file,首先要说的是,这种方法确实不错,但是有些缺点.如果系统中需要把数据导出XML文件,通常 ...

  6. java 解析xml xmlns_dom4j解析带有xmlns的xml文件

    dom4j解析带有xmlns的xml文件 上一篇 / 下一篇  2013-01-22 10:03:23 / 个人分类:Java学习 使用dom4j来解析带有命名空间的xml文件, 由于dom4j的xp ...

  7. java 导出本地xml文件_java导出xml文件

    JDOM 文档声明其目的是"使用 20%(或更少)的精力解决 80%(或更多)Java/XML 问题"(根据学习曲线假定为 20%).JDOM 对于大多数 Java/XML 应用程 ...

  8. 转载,python处理excel转换成xml文件

    帖子来源http://blog.csdn.net/u014489596/article/details/41285933,http://blog.csdn.net/u014489596/article ...

  9. [Python]_[初级]_[校验XML文件完整性]

    场景 在开发生成docx文档时,也需要生成内部的word/document.xml文档, 而生成xml避免不了需要校验xml的元素标签完整性,即开始和结束标签匹配.如果每次生成docx文档还需要解压获 ...

最新文章

  1. centos6.4使用man查找命令时,报错No manual entry for xxxx
  2. WebTable之ChildItem方法应用
  3. 关于进程资源限制的getrlimit和setrlimit函数(epoll、服务器经常用)
  4. 排序算法之 Inplace Merge Sort
  5. Cocos2d-x 3.2 大富翁游戏项目开发-第八部分 角色的散步路径
  6. java终止程序语句总结 System.exit(1)、System.exit(0)、return;break;continue;
  7. STL笔记 ( 迭代器 )
  8. RTX(2009)整合注意点
  9. 网络广告公司的恐慌 XSS广告终结者(html5新特性)
  10. 淘宝新店提升必备-直通车如何开
  11. Windows10彻底关闭休眠功能
  12. 大学毕业4年-回顾和总结(3)-投资理财观-图穷而真相现
  13. Java求解一元二次方程详解
  14. Obsidian 0x01:Obsidian 双链
  15. 《Delphi传奇》网络游戏组件安装步骤:Delphi 10.3安装DelphiX
  16. Schnorr签名算法(初始化和签名)C语言实现
  17. Adobe Dreamweaver CS5的时候,显示“安装程序无法初始化,请下载Adobe Support Advisor检测该问题
  18. ubuntu8.10解决flash乱码问题!
  19. 知识图谱赵军学习笔记(十)--知识问答与对话
  20. Windows server 2003 R2之一:通过域控建立OU跟USER

热门文章

  1. 如何搭建属于自己的阿里云服务器
  2. dlt645协议电表数据采集接入PLC或scada等组态软件系统(转modbus)实现内网监控技术方案
  3. (毕业设计资料)基于单片机汽车自动照明灯超远近光灯设计
  4. 女朋友说“随便”到底是什么意思?
  5. 大内高手 调试手段及原理
  6. 在Centos7下捣鼓邮件发送软件sendmail与postfix
  7. 计算机WORD函数求乘积,Word表格函数运用:加减乘除、求和、求积超简单,大神都不一定会!...
  8. 马尔科夫链细致平衡条件
  9. rm删除命令源码分析
  10. 这27个电源符号,还傻傻分不清楚?