我有一个巨大的xml文件,其示例数据如下:

因为可以看到有文字“GesellschaftfürBildverarbeitung”,它不符合UTF-8,因为我从xml验证器得到错误,错误如:

Import failed:

com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 1 of 1-byte UTF-8 sequence.

那么查询是如何在Linux环境中处理这个问题,将xml文件转换为UTF-8兼容格式?或者在bash中是否存在这样的方式,以便在首先创建xml时,我可以确保所有变量/字符串都以UTF-8兼容格式存储?

解决方法:

使用字符集转换工具:

iconv -f ISO-8859-1 -t UTF-8 filename.txt

00-0B-91 (hex) Aglaia Gesellschaft für Bildverarbeitung und Kommunikation m

000B91 (base 16) Aglaia Gesellschaft für Bildverarbeitung und Kommunikation m

Tiniusstr. 12-15

Berlin D-13089

GERMANY

似乎“ü”是获得mangeld的角色.

更新

当使用wget下载“oui.txt”时,我在文件中看到字符“ü”.如果您没有在下载中破坏某些内容.考虑使用以下其中一种:

> wget –header =’Accept-Charset:utf-8′

>尝试使用curl -o oui.txt代替

如果以上都不起作用,只需在您喜欢的浏览器中打开链接并执行“另存为”.在这种情况下,请在下面的脚本中注释wget行.

我成功使用以下脚本(更新BEGIN& END以获取有效的XML文件)

#!/bin/bash

wget http://standards.ieee.org/develop/regauth/oui/oui.txt

iconv -f iso-8859-15 -t utf-8 oui.txt > converted

awk 'BEGIN {

print "HTML-header"

}

/base 16/ {

printf("\n", $4)

read

desc = substr($0, index($0, $4))

printf("\n", $1, desc)

}

END {

print "HTML-footer"

}

' converted

希望这可以帮助!

标签:shell,unix,linux,unicode,utf-8

来源: https://codeday.me/bug/20190630/1338523.html

linux的xml文件格式,linux – 如何将非UTF-8格式的xml文件转换为符合UTF-8的xml相关推荐

  1. linux查看执行文件格式,Linux运行dat文件格式

    广告 100%的CPU性能,计算能力不会降低!选择最主流的云服务器来满足各种业务需求,有数百种流行的云产品和8888元起价套餐,可帮助行业恢复工作! 在"域名解析列表"中,选择要导 ...

  2. linux 的压缩文件格式,linux 文件格式压缩

    大致总结了一下linux下各种格式的压缩包的压缩.解压方法.但是部分方法我没有用到,也就不全,我将随时修改完善! .tar 解包:tar xvf FileName.tar 打包:tar cvf Fil ...

  3. linux安装包文件格式,linux多种安装包格式的安装方法

    一.rpm包安装方式步骤: 1.找到相应的软件包,比如soft.version.rpm,下载到本机某个目录: 2.打开一个终端,su -成root用户: 3.cd soft.version.rpm所在 ...

  4. linux修改torrent文件格式,linux下飞快的BT客户端rtorrent设置:详细解说

    打开终端(以下代码如无特殊说明,均指在终端中的命令) 安装 sudo aptitude install rtorrent 建立下载目录 mkdir universe 建立下载历史目录 mkdir un ...

  5. HarmonyOS之将SVG文件转换为XML文件

    SVG(Scalable Vector Graphics)可缩放矢量图形,是一种图像文件格式.目前由于 HarmonyOS 图形渲染引擎不支持 SVG 格式图片的渲染,开发者需要将 SVG 格式的图片 ...

  6. labelimg标注的VOC格式标签xml文件和yolo格式标签txt文件相互转换

    目录 1 labelimg标注VOC格式和yolo格式介绍 1.1 voc格式 1.2 yolo数据格式介绍 2 voc格式数据和yolo格式数据相互转换 2.1 voc转yolo代码 2.2 yol ...

  7. pdmreader支持读取xml格式的pdm文件,无法读取二进制格式的pdm文件。

    您的Pdm数据字典文件可能不被PDMReader读取,可能是因为pdm文件版本的问题.但 您可以通过PowerDesigner12(下载PowerDesigner12)进行转换 后进行读取. 您要做的 ...

  8. 怎么用linux查看xml文件格式,xml是什么格式?xml文件格式用什么软件可以打开

    xml是什么格式?xml文件是很多用户在电脑上看见过了,很多小伙伴看到了xml格式的文件都不知道这个是什么东东,其实这个xml也是一种比较有用的文件,可以用来存储软件数据,不过不是所有的软件都可以打开 ...

  9. linux nobody 用户,Linux CentOS7安装配置tomcat8(使用非root用户/nobody用户运行)

    Tomcat主要用于运行JavaWeb项目,打开:tomcat8官方下载,可以看到官方有Binary Distributions和Source Code Distributions两大类,前者是二进制 ...

最新文章

  1. Windows:利用各种小工具查看自己电脑上的CPUGPU型号、个数、详细参数等不同方法的详细攻略
  2. 二维数组的对角搜索C++
  3. c语言填空三个数找中间大小,计算机文化基础复习题及答案(精华)
  4. html页面包含头文件,Web前端技术:HTML部分---Head标签中包含的头文件标签,body标签包含的内部标签...
  5. 树状数组的相关知识 及 求逆序对的运用
  6. 网友评论:Struts漏洞为什么来势凶猛
  7. matlab有限体积网格,用Matlab实现简单有限体积求解器
  8. mac 备份文件 太大 时间机器_新手必看!加速 Mac 时间机器备份速度教程,Time Machine 备份太慢的解决方法...
  9. pythonjson安装_python安装simplejson
  10. 《构建高可用Linux服务器 第3版》—— 2.7 系统维护时应注意的非技术因素
  11. 计算机二级c语言上机答案全,计算机二级C语言上机题库答案大全及上机说明
  12. 中间代码生成-四元式
  13. 计算机上的策略禁止用户安装,Win7系统如何使用组策略禁止安装软件?
  14. ssm基于微信小程序的物流仓储系统vue
  15. DHCP,服务器,汇聚层三层交换机,网关
  16. mac实用小技巧之解压.xip文件
  17. 传感器实训心得体会_传感器心得体会
  18. monkey稳定性测试
  19. JSON转JS对象,JS对象转JSON
  20. 详解搜索引擎的工作原理

热门文章

  1. 会声会影的简介和安装
  2. 2020年阴历三月初一 投资理财~有些大v要警惕
  3. 千里马若有人赏识--不论对错,不为输赢,我就是认真。
  4. lc谐振计算机网络,LC谐振频率的测试方法和基本原理
  5. 【草稿待续】统一的嵌入式软件编程模型——驱动
  6. AJAX框架眼镜店活动,眼镜店节日促销H5的活动方案有哪些?快来看看吧!
  7. RV32I:RISC-V 基础整数指令集
  8. 【Python入门教程】第57篇 循环进阶之模拟do…while语句
  9. mysql 利用information_schema库COLUMNS表查看哪些表含有指定字段
  10. 【CVPR2020】Detection in Crowded Scenes One Proposal Multiple Predictions 翻译