直接上干货!!

采用python 2.7.5-windows

打开 http://www.apple.com/cn/itunes/charts/free-apps/ 

如上图可以见采用的是utf-8 编码

经过一番思想斗争  编码如下 (拍砖别打脸)

#coding=utf-8
import urllib2
import urllib
import re
import thread
import time#----------- APP store 排行榜 -----------
class Spider_Model:    def __init__(self):    self.page = 1    self.pages = []    self.enable = False    def GetCon(self):    myUrl = "http://www.apple.com/cn/itunes/charts/free-apps/"    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   headers = { 'User-Agent' : user_agent }   req = urllib2.Request(myUrl, headers = headers)   myResponse = urllib2.urlopen(req)  myPage = myResponse.read()    #encode的作用是将unicode编码转换成其他编码的字符串    #decode的作用是将其他编码的字符串转换成unicode编码       print myPageprint ' '
myModel = Spider_Model()
myModel.GetCon()

  采集页面字符集 python文件字符集统一为utf-8 (贫蛋哥是认为没啥问题的)

  打印输出结果:

                

拿出杀手锏   www.baidu.com

找到原因:

        http://blog.csdn.net/lf8289/article/details/2465196

        http://www.crifan.com/unicodeencodeerror_gbk_codec_can_not_encode_character_in_position_illegal_multibyte_sequence/

  各种狂改中.......

        

#coding=gbk   编码修改为gbk
import urllib2
import urllib
import re
import thread
import time#----------- APP store 排行榜 -----------
class Spider_Model:    def __init__(self):    self.page = 1    self.pages = []    self.enable = False    def GetCon(self):    myUrl = "http://www.apple.com/cn/itunes/charts/free-apps/"    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   headers = { 'User-Agent' : user_agent }   req = urllib2.Request(myUrl, headers = headers)   myResponse = urllib2.urlopen(req)  myPage = myResponse.read()    #encode的作用是将unicode编码转换成其他编码的字符串    #decode的作用是将其他编码的字符串转换成unicode编码    unicodePage = myPage.decode('utf-8').encode('gbk','ignore') #采集页面编码为utf-8  转为 gbk (ignore来忽略非法的字符)

     print unicodePage 
    print ' '     myModel = Spider_Model()     myModel.GetCon()

  运行结果:

            

转载于:https://www.cnblogs.com/etodream/p/3918264.html

初识python之 APP store排行榜 蜘蛛抓取(一)相关推荐

  1. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

  2. 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析

    浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...

  3. 全文搜索引擎有哪些?_搜索引擎工作原理是什么?seo蜘蛛抓取会受到哪些因素影响?...

    seo优化就是搜索引擎优化,就是对网站进行各方面调整,使其更符合搜索引擎的算法要求,从而得到更多的流量及转化,所以做seo必须要多搜索引擎有更多的认识和了解.搜索引擎有哪些功能模块?它的工作原理是什么 ...

  4. 外贸网络推广浅谈蜘蛛抓取频次的原则跟哪些有关?

    众所周知,外贸网络推广表示,百度蜘蛛会根据网站设置的协议对站点的页面进行抓取,但也并不是每个站点都能保持同样的抓取频次,也并不会对每个网站都保持喜爱,但想要网站提高排名,让蜘蛛保持优质的抓取频次很重要 ...

  5. 网站推广收录少?网站推广专员浅析可能是蜘蛛抓取出现问题

    从事过网站优化相关工作的人士都了解,企业网站想要在搜索引擎中获取良好的排名,没有充足的收录量作为基础很难实现.在网站优化期间,网站收录量有太多可影响因素,那么针对收录量偏低的网站来说,如果是搜索引擎蜘 ...

  6. python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取

    Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...

  7. Python语言程序设计之urllib.request抓取页面,网易公开课之《麻省理工学院公开课:算法导论》

    Python语言用urllib.request模块抓取页面非常简单,再将抓取的页面内容用re模块解析,找出自己想要的东西.下面就就此方法来抓取网易公开课之<麻省理工学院公开课:算法导论>, ...

  8. python爬虫资源大全_Python爬虫抓取纯静态网站及其资源(基础篇)

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:程序员宝库 **( 想要学习Python?Python ...

  9. php抓取aspx_哪些因素会影响蜘蛛抓取页面?

    我们在优化网站时,有很多设置是不利于蜘蛛抓取的,具体有哪些呢? 建设网站地图 网站地图就像一个指向标,唯有清晰明了的指向标,才能指引蜘蛛抓取的路线.如果网站地图清晰明了,蜘蛛很乐意在网站进行爬行.但是 ...

最新文章

  1. 机器学习基础-数据降维
  2. 您没有权限来打开应用程序_苹果建议:除非应用程序无响应,否则不要滑动强制退出...
  3. 建议收藏:服务器和存储技术知识
  4. [leetcode]@python 85. Maximal Rectangle
  5. 重庆邮电大学计算机2019湖北分数线,重庆邮电大学2019各省高考录取分数线 投档分数线是多少...
  6. w10系统自带linux系统,win10下,内置linux系统的安装和体验,你造吗?
  7. STM32之SDIO原理
  8. 计算机设计大赛二等奖,学部在第十一届中国大学生计算机设计大赛中喜获二等奖...
  9. mac搭建svn服务器文件被锁定,MAC搭建SVN服务器并配置Cornerstone
  10. 至商3000服务器信息,至商3000软件
  11. 刀下留人--苹果开发者账号封号前挽救
  12. matlab在有限差分法中的应用,MATLAB在有限差分法中的应用
  13. linux里怎么解压war包,Linux压缩war和解压war包
  14. 【贪玩巴斯】无线传感器网络(三)「Mac协议讲解」——2021-10-08
  15. word撰写格式系列2
  16. origin画图---学习时遇到的画图记录
  17. 快速了解 Git 仓库
  18. html导航栏动态图标,导航栏动态图.html
  19. html5水墨效果,用html5可以做出水墨晕开的效果吗
  20. MS Office Word 2007/2003 资料下载汇总

热门文章

  1. (转)彻底学会使用epoll(一)——ET模式实现分析
  2. SqlServer中的数据类型UniqueIdentifier
  3. [C++] Nested Radical Constant
  4. 【总有一些东西要弄清】——说说面试时一系列的CSS问题
  5. Retina时代的前端视觉优化
  6. Android 核心已经从 Linux kernel 代码库中删除
  7. Gym 101982 (2018-2019 ACM-ICPC Pacific Northwest Regional Contest (Div. 1) )
  8. 【笔记】跨域重定向中使用Ajax(XHR请求)导致跨域失败
  9. Oracle中procedure和function创建举例
  10. 面向对象课程 - T-shirt