在php函数库有一个函数:iconv(),iconv函数库能够完成各种字符集间的转换,是php编程中不可缺少的基础函数库。

近在做一个小偷程序,需要用到iconv函数把抓取来过的utf-8编码的页面转成gb2312,

发现只有用iconv函数把抓取过来的数据一转码数据就会无缘无故的少一些。

让我郁闷了好一会儿,去网上一查资料才知道这是iconv函数的一个bug。iconv在转换字符"—"到gb2312时会出错。

下面慢慢看一下这个函数的用法。

最简单的应用,把gb2312置换成utf-8:

1

$text=iconv("GB2312","UTF-8",$text);

在用$text=iconv("UTF-8","GB2312",$text)过程中,如果遇到一些特别字符时,如:"—",英文名中的"."等等字符,转换就断掉了。这些字符后的文字都没法继续转换了。

针对这的问题,可以用如下代码实现:

1

$text=iconv("UTF-8","GBK",$text);

你没有看错,就这么简单,不使用gb2312,而写成GBK,就可以了。

还有一种方法,第二个参数,加上//IGNORE,忽略错误,如下:

1

iconv("UTF-8","GB2312//IGNORE",$data);

没有具体比较这两种方法,感觉第一种(GBK代替gb2312)方法更好。

php手册中iconv() 说明:

1

iconv

2

3

(PHP 4 >= 4.0.5, PHP 5)

4

iconv – Convert string to requested character encoding

5

Description

6

string iconv ( string in_charset, string out_charset, string str )

7

Performs a character set conversion on the string str from in_charset to out_charset. Returns the converted string or FALSE on failure.

8

If you append the string //TRANSLIT to out_charset transliteration is activated. This means that when a character can't be represented in the target charset, it can be approximated through one or several similarly looking characters. If you append the string //IGNORE, characters that cannot be represented in the target charset are silently discarded. Otherwise, str is cut from the first illegal character.

在使用这个函数进行字符串编码转换时,需要注意,如果将utf-8转换为gb2312时,可能会出现字符串被截断的情况发生。此时可以使用以下方法解决:

1

$str=iconv('utf-8',"gb2312//TRANSLIT",file_get_contents($filepath));

即在第二个参数出添加红色字部分,表示:如果在目标编码中找不到与源编码相匹配的字符,会选择相似的字符进行转换。此处也可以使用://IGNORE 这个参数,表示忽略不能转换的字符。

ignore的意思是忽略转换时的错误,如果没有ignore参数,所有该字符后面的字符串都无法被保存。

iconv不是php的默认函数,也是默认安装的模块。需要安装才能用的。

果是windows2000+php,你可以修改php.ini文件,将extension=php_iconv.dll前的";"去掉,同时你要

copy你的原php安装文件下的iconv.dll到你的winnt/system32下(如果你的dll指向的是这个目录)。在linux环境下,用

静态安装的方式,在configure时加多一项

--with-iconv就可以了,phpinfo看得到iconv的项。(Linux7.3+Apache4.06+php4.3.2)。

mb_convert_encoding与iconv函数介绍

mb_convert_encoding

这个函数是用来转换编码的。原来一直对程序编码这一概念不理解,不过现在好像有点开窍了。不过英文一般不会存在编码问题,只有中文数据才会有这个问题。比

如你用Zend

Studio或Editplus写程序时,用的是gbk编码,如果数据需要入数据库,而数据库的编码为utf8时,这时就要把数据进行编码转换,不然进到

数据库就会变成乱码。

做一个GBK To UTF-8:

1

2

header("content-Type: text/html; charset=Utf-8");

3

echo mb_convert_encoding("妳係我的友仔","UTF-8","GBK");

4

?>

再来个GB2312 To Big5:

1

2

header("content-Type: text/html; charset=big5");

3

echo mb_convert_encoding("你是我的朋友","big5","GB2312");

4

?>

不过要使用上面的函数需要安装但是需要先enable mbstring 扩展库。

string

mb_convert_encoding ( string str, string to_encoding [, mixed

from_encoding] )需要先enable mbstring 扩展库,在 php.ini里将;

extension=php_mbstring.dll 前面的 ; 去掉mb_convert_encoding

可以指定多种输入编码,它会根据内容自动识别,但是执行效率比iconv差太多;

string

iconv ( string in_charset, string out_charset, string str

)注意:第二个参数,除了可以指定要转化到的编码以外,还可以增加两个后缀://TRANSLIT 和 //IGNORE,其中 //TRANSLIT

会自动将不能直接转化的字符变成一个或多个近似的字符,//IGNORE 会忽略掉不能转化的字符,而默认效果是从第一个非法字符截断。

一般情况下用 iconv,只有当遇到无法确定原编码是何种编码,或者iconv转化后无法正常显示时才用mb_convert_encoding 函数。

1

$content = iconv("GBK", "UTF-8″,$content);

2

$content = mb_convert_encoding($content,"UTF-8″, "GBK");

字符编码知识简介和iconv函数的简单使用

字符编码知识简介和iconv函数的简单使用 字符编码知识简介 我们知道,在计算机的世界其实只有0和1.期初计算机主要用于科学计算,而我们知道一个数,除了用我们常用对10进制表示,也可以用2进制表示,所 ...

UTF8与GBK、GB2312等其他字符编码的相互转换

utf8与其他字符编码的转换是国际化必然遇到的问题. windows的api函数对: WideCharToMultiByte和MultiByteToWideChar 个人喜欢的跨平台库: 单纯做字符编 ...

erlang中字符编码转换(转)

转自:http://www.thinksaas.cn/group/topic/244329/ 功能说明: erlang中对各种语言的编码支持不足,此代码是使用erlang驱动了著名的iconv编码库来 ...

php 字符编码转换函数 iconv mb_convert_encoding比较

在使用PHP处理字符串时,我们经常会碰到字符编码转换的问题,你碰到过iconv转换失败吗? 发现问题时,网上搜了搜,才发现iconv原来有bug ,碰到一些生僻字就会无法转换,当然了配置第二个参数时, ...

iconv字符编码转换

转自 http://blog.csdn.net/langresser_king/article/details/7459367 iconv(http://www.gnu.org/software/li ...

php字符编码转换中的iconv与mb_convert_encoding用法

iconv ( 'UTF-8' , 'GBK' , $str ); //将$str字符串 utf-8 编码转换成 gbk: 另外,5.4.0 这个版本起,字符非法时候会返回 FALSE,除非在输出字符 ...

Python学习Day2笔记(字符编码和函数)

1.字符编码 #ASCII码里只能存英文和特殊字符 不能存中文 存英文占1个字节 8位#中文编码为GBK 操作系统编码也为GBK#为了统一存储中文和英文和其他语言文字出现了万国码Unicode 所有一 ...

Python自动化 【第三篇】:Python基础-集合、文件操作、字符编码与转码、函数

1.        集合 1.1      特性 集合是一个无序的,不重复的数据组合,主要作用如下: 去重,把一个列表变成集合实现自动去重. set可以看成数学意义上的无序和无重复元素的集合,因此,两 ...

Python 基础篇:字符编码、函数

字符编码 在python2默认编码是ASCII, python3里默认是utf-8 unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), so ...

随机推荐

Android 常用数据适配器SimpleAdapter

在中介绍了ArrayAdapter数据适配器.但是存在一个缺陷,那就是条目的图标都固定相同,要显示每个条目的图标都不相同,那么使用 ...

UNIX命令,统计当前目录(含子目录)下所有后缀为.log的文件中ERROR出现的行数

shell程序如下所示: # cat xarg.txt #! /usr/bin/ksh for logfile in `find . -name "*.log*"` do echo ...

BestCoder Round #39

-------好久没更新博客了,发现还是需要不断总结才能进步,所以还是把最近打的一些比赛记录一下. T1:Delete (hdu 5210) 题目大意: 给出n个数,然后要删掉k个,要求剩下的数中 不 ...

PHP类与面向对象(二)

构造函数和析构函数 构造函数PHP 5 允行开发者在一个类中定义一个方法作为构造函数.具有构造函数的类会在每次创建新对象时先调用此方法,所以非常适合在使用对象之前做一些初始化工作.如果子类中定义了构造 ...

linux开机启动增加tomcat启动项

需求:开发环境(linux)重启后,每次需手动启动相关应用较为繁琐,如设置为开机自动启动则可减少此工作量. google下,参考了以下博文较好解决了问题: 1. 简单说明 Centos下设置程序开机自 ...

获取不变的UDID-b

iOS唯一标识的历史历程 iOS 6.0 在iOS6.0以前,是使用uniqueIdentifier来获取手机的唯一标识,后来苹果感觉这样会泄露用户隐藏,就封掉了这个方法: iOS 6.0系统新增了两 ...

mysql学习链接

1 传智播客PHP培训.刘道成.PHP视频教程.mysql http://down.51cto.com/zt/887

linux IO诊断命令集

IO.sh ##iostat是查看磁盘活动统计情况 ##显示全部设备负载情况 r/s: 每秒完毕的读 I/O 设备次数.即 rio/s:w/s: 每秒完毕的写 I/O 设备次数.即 wio/s等 io ...

JavaScript可否多线程? 深入理解JavaScript定时机制(转载)

说明:最近写 js 时需要用setinterval函数做定时操作,谁知道,刚开始后运行完好,但一段时间后他就抽风了,定时任务运行的时间间隔越来越短,频率加快,这是一个完全不能容忍的问题,带着一个可以出 ...

php 转码iconv,PHP iconv()函数转字符编码的问题(转)相关推荐

  1. c语言使用iconv函数实现字符编码转换

    c语言使用iconv函数实现字符编码转换 linux下提供了iconv库来实现字符编码转换,先介绍下命令行: iconv [-f encoding] [-t encoding] [inputfile ...

  2. 结合file和iconv命令转换文件的字符编码类型

    http://hi.baidu.com/netwrom/blog/item/8885f31ef0d09ae7e1fe0b1c.html 在很多类unix平台上都有一个iconv工具,可以用来转换字符编 ...

  3. PHP iconv()函数转字符编码的问题(转)

    载自:http://www.nowamagic.net/php/php_FunctionIconv.php 在php函数库有一个函数:iconv(),iconv函数库能够完成各种字符集间的转换,是ph ...

  4. c++语言转换为字符串函数,C++字符编码转换函数

    1.MultiByteToWideChar 函数功能:该函数映射一个字符串到一个宽字符(unicode)的字符串.由该函数映射的字符串没必要是多 字节字符组. 函数原型: int MultiByteT ...

  5. 字符串转换函数和字符编码

    //将单字节char*转化为宽字节wchar_t* wchar_t* AnsiToUnicode( const char* szStr ) {  int nLen = MultiByteToWideC ...

  6. iconv 判断字符编码_php下用iconv函数转换字符编码的问题

    昨天在调试 WAP 网站时发现,在增加了 GB2312 到 UTF-8 转化以后,有些页面显示不正常了--有些页面只有一半的内容,另一半被截掉了.因为被截掉的部分包含了 的后半个标签 ,因此整个页面都 ...

  7. day3-文件读取、函数、字符编码转换、全局变量与局部变量

    1.函数 ==============第一个函数================= def fun1():# this is my first functionprint('Hello Functio ...

  8. php的内部方法编码方式,字符集字符编码以及PHP中的一些转码方法

    在重写一些老的项目的时候,有可能会遇到这种情况 ¾ÍÒµÖ¸µ¼ÖÐÐÄ2010Ä꺮¼Ù·Å¼Ù֪ͨ �����˵�λ������� ???????? 这就是传说中的乱码,要想处理乱码,得先了 ...

  9. ios查看ipa是否函数特定字符_iOS 中基础字符判断函数收集(如判断大小写、数字等)...

    函数:isdigit 用法:#include 功能:判断字符c是否为数字 说明:当c为数字0-9时,返回非零值,否则返回零. 函数:islower 用法:#include 功能:判断字符c是否为小写英 ...

最新文章

  1. Result Maps collection already contains value for
  2. python imgaug 图片增强
  3. html语言分行,Markdown内嵌Html语言
  4. 数据科学中的6个基本算法,掌握它们要学习哪些知识
  5. C++指针数组、数组指针、数组名及二维数组技巧汇总
  6. python asyncio理解_深入理解asyncio(二)
  7. 非线性动力学_非线性动力学特辑 低维到高维的联通者
  8. Productivity Power Tools 动画演示(转)
  9. 【BZOJ3669】【codevs3314】魔法森林,写作LCT,读作SPFA
  10. 【白皮书分享】2021智慧城市白皮书:城市建设运营数字化转型.pdf(附下载链接)...
  11. 广义表的存储结构算法c语言,广义表(一)
  12. Python : async和await、asyncio与aiofiles
  13. 如果一非零的整系数多项式能够分解成两个次数较低的有理系数多项式的乘积,那么它一定能分解成两个次数较低的整系数多项式的乘积
  14. word 2007导出pdf格式(含下载地址)
  15. 使用phaserjs开发简单h5小游戏
  16. Flash计时器次数为什么设置1次的重要性
  17. 【从零开始学架构-李运华】06|复杂地来源:可扩展性
  18. 大物狭义相对论中的四维时空与闵氏时空图(上)
  19. matlab全桥电路设计,全桥变换电路的Matlab仿真及实验装置开发.pdf
  20. python爬取的代码_零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(代码篇)...

热门文章

  1. Entity Framework4.0 (一)概述(EF4 的Database First方法)
  2. 用installshield打包的asp.net程序
  3. 字符串大小写字母转换c 语言,towlower()
  4. 32位linux 内存占用,LINUX内存高,触发OOM-KILLER问题解决
  5. php源码编程,10个小技巧让你做好php源码编程
  6. 安卓APP_ Fragment(4)—— Fragment + ViewPager2 模拟微信首页 (1)两者联动实现翻页
  7. 全国计算机等级考试题库二级C操作题100套(第11套)
  8. 流浪宠物救助网站前端页面_全国爱心人士齐聚鞍山 救助流浪猫狗
  9. Mybatis openSession.commit()手动提交数据和openSession.commit(true)自动动提交数据
  10. java 获取类加载器_java-如何从类加载器获取类路径?