phpQuery采集乱码问题解决方案
今天写了一个采集程序,去网上查了查,phpQuery比较好用(没用过啊),就下来试试。
结果,好用是好用(曾经用curl写了一个采集程序,采集某汽车网站所有品牌车系车型,当时没写过爬虫,因为捉急也没考虑其它方法,所有的数据都是正则匹配出来的,泪~~~)
貌似偏题了啊。
好用是好用,就是采集下来的内容是特么乱码啊。
去网上找了好久,最终得到一个略靠谱的解释,和循着这个解释能得到结果的答案。
原因是phpQuery认不清目标网页是什么编码,即找不到meta属性的时候,会默认转换成iso-8859-1的格式。
所以乱码么,需要先从iso-8859-1的格式转换成utf-8的格式,再转换成GBK的格式。
就能得到满意的结果了。
如下:
$t = pq('h1#h1title')->text();
$t = mb_convert_encoding($t,'ISO-8859-1','utf-8');
$t = mb_convert_encoding($t,'utf-8','GBK');
echo $t;
phpQuery采集乱码问题解决方案相关推荐
- Curl 采集乱码 gzip 原因及解决方案 utf-8
Curl 采集乱码 gzip 原因及解决方案 utf-8 参考文章: (1)Curl 采集乱码 gzip 原因及解决方案 utf-8 (2)https://www.cnblogs.com/jiaosq ...
- xp系统安装oracle乱码,linux中安装Oracle汉字乱码完整解决方案
一. 安装JDK 在/tmp下建立一个临时的文件夹 # cd /tmp # mkdir javacn # cd javacn 从网上搜索下载j2sdk-1_4_2_02-linux-i586.bin并 ...
- 在SQL 2005中用T-SQL插入中文数据时出现的问号或乱码的解决方案[转]
在SQL 2005中用T-SQL插入中文数据时出现的问号或乱码的解决方案 病症表现为:主要表现为用T-sql语句插入中文数据时数据库显示全是问号"???" 解决办法: 第一种办法 ...
- Source Insight乱码的解决方案,SI不支持UTF-8字符编码乱码
最近使用source insight查看一些开源代码,显示中文就乱码,据说是因为source insight不支持utf-8编码,默认编码方式为ANSI码.所以需要将utf-8等非ANSI码的文件转换 ...
- ViewBag与ViewData传值乱码问题解决方案
ViewBag与ViewData传值乱码问题解决方案 参考文章: (1)ViewBag与ViewData传值乱码问题解决方案 (2)https://www.cnblogs.com/mi21/p/121 ...
- Win7安装软件,界面上中文显示乱码的解决方案
Win7安装软件,界面上中文显示乱码的解决方案 参考文章: (1)Win7安装软件,界面上中文显示乱码的解决方案 (2)https://www.cnblogs.com/heyang78/p/42588 ...
- Navicat连接MySQL8.0出现乱码的解决方案
Navicat连接MySQL8.0出现乱码的解决方案 参考文章: (1)Navicat连接MySQL8.0出现乱码的解决方案 (2)https://www.cnblogs.com/ray-mr-hua ...
- PHP 利用PHPExcel到处数据到Excel;还有导出数据乱码的解决方案。
PHP 利用PHPExcel到处数据到Excel:还有导出数据乱码的解决方案. 参考文章: (1)PHP 利用PHPExcel到处数据到Excel:还有导出数据乱码的解决方案. (2)https:// ...
- 使用Kettle抽取数据时,出现中文乱码问题解决方案
使用Kettle抽取数据时,出现中文乱码问题解决方案 参考文章: (1)使用Kettle抽取数据时,出现中文乱码问题解决方案 (2)https://www.cnblogs.com/yiyezhiqiu ...
- 关于java文件下载文件名乱码问题解决方案
关于java文件下载文件名乱码问题解决方案 参考文章: (1)关于java文件下载文件名乱码问题解决方案 (2)https://www.cnblogs.com/zhaoyan001/p/9012750 ...
最新文章
- java 连接池 druid_从零开始学 Java - 数据库连接池的选择 Druid
- ios 中的小技巧 - 总有你想要的 一
- slf4j 日志接口 统一
- 机器学习中Python常用库总结(numpy,scipy,matplotlib,pandas)
- K - FatMouse and Cheese
- Windows配置本地域名
- 关于CKEditor 4.0 过滤html标签
- 微信小程序获取openid
- ARM中ROM,RAM,FLASH区别
- python编程基础知识体系_【汇总】Python 编程核心知识体系
- MFC开发-树形菜单
- 如何选择最佳云托管服务提供商
- LSET与LREM结合删除list中特定索引的值
- MySQL(5)-----DQL语句的基本查询与高级查询
- android图片尺寸大小设置
- Execl单元格图片锁定----一定能
- iCop-Ratel执行run_local.sh文件报错
- 计算机博士毕业致谢,这篇博士论文《致谢》刷屏,句句扎心……
- systemd服务创建服务demo
- 【线代】矩阵的秩和线性方程组的解的情况
热门文章
- 我的世界服务器物品锁bug,【MOD教程】已知MOD服BUG物品解析
- 专业卸载工具Your Uninstaller! Pro
- Wunderlist使用技巧
- 手机测试的主要测试内容
- ol+天地图+geoserver_天地图离线瓦片的打包与发布(GeoServer)
- 2018科来杯WriteUp
- iOS 新浪微博客户端Demo实践之(六) 微博评论列表页面和发评论
- python微博数据分析_用python处理微博JSON数据范例
- Ghostscript介绍和移植
- Linux中LANG,LC_ALL,local详解