初识python之 APP store排行榜 蜘蛛抓取(一)
直接上干货!!
采用python 2.7.5-windows
打开 http://www.apple.com/cn/itunes/charts/free-apps/
如上图可以见采用的是utf-8 编码
经过一番思想斗争 编码如下 (拍砖别打脸)
#coding=utf-8
import urllib2
import urllib
import re
import thread
import time#----------- APP store 排行榜 -----------
class Spider_Model: def __init__(self): self.page = 1 self.pages = [] self.enable = False def GetCon(self): myUrl = "http://www.apple.com/cn/itunes/charts/free-apps/" user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent } req = urllib2.Request(myUrl, headers = headers) myResponse = urllib2.urlopen(req) myPage = myResponse.read() #encode的作用是将unicode编码转换成其他编码的字符串 #decode的作用是将其他编码的字符串转换成unicode编码 print myPageprint ' '
myModel = Spider_Model()
myModel.GetCon()
采集页面字符集 python文件字符集统一为utf-8 (贫蛋哥是认为没啥问题的)
打印输出结果:
拿出杀手锏 www.baidu.com
找到原因:
http://blog.csdn.net/lf8289/article/details/2465196
http://www.crifan.com/unicodeencodeerror_gbk_codec_can_not_encode_character_in_position_illegal_multibyte_sequence/
各种狂改中.......
#coding=gbk 编码修改为gbk
import urllib2
import urllib
import re
import thread
import time#----------- APP store 排行榜 -----------
class Spider_Model: def __init__(self): self.page = 1 self.pages = [] self.enable = False def GetCon(self): myUrl = "http://www.apple.com/cn/itunes/charts/free-apps/" user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_agent } req = urllib2.Request(myUrl, headers = headers) myResponse = urllib2.urlopen(req) myPage = myResponse.read() #encode的作用是将unicode编码转换成其他编码的字符串 #decode的作用是将其他编码的字符串转换成unicode编码 unicodePage = myPage.decode('utf-8').encode('gbk','ignore') #采集页面编码为utf-8 转为 gbk (ignore来忽略非法的字符)
print unicodePage
print ' ' myModel = Spider_Model() myModel.GetCon()
运行结果:
转载于:https://www.cnblogs.com/etodream/p/3918264.html
初识python之 APP store排行榜 蜘蛛抓取(一)相关推荐
- python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app
Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...
- 如何用python抓取文献_浅谈Python爬虫技术的网页数据抓取与分析
浅谈 Python 爬虫技术的网页数据抓取与分析 吴永聪 [期刊名称] <计算机时代> [年 ( 卷 ), 期] 2019(000)008 [摘要] 近年来 , 随着互联网的发展 , 如何 ...
- 全文搜索引擎有哪些?_搜索引擎工作原理是什么?seo蜘蛛抓取会受到哪些因素影响?...
seo优化就是搜索引擎优化,就是对网站进行各方面调整,使其更符合搜索引擎的算法要求,从而得到更多的流量及转化,所以做seo必须要多搜索引擎有更多的认识和了解.搜索引擎有哪些功能模块?它的工作原理是什么 ...
- 外贸网络推广浅谈蜘蛛抓取频次的原则跟哪些有关?
众所周知,外贸网络推广表示,百度蜘蛛会根据网站设置的协议对站点的页面进行抓取,但也并不是每个站点都能保持同样的抓取频次,也并不会对每个网站都保持喜爱,但想要网站提高排名,让蜘蛛保持优质的抓取频次很重要 ...
- 网站推广收录少?网站推广专员浅析可能是蜘蛛抓取出现问题
从事过网站优化相关工作的人士都了解,企业网站想要在搜索引擎中获取良好的排名,没有充足的收录量作为基础很难实现.在网站优化期间,网站收录量有太多可影响因素,那么针对收录量偏低的网站来说,如果是搜索引擎蜘 ...
- python中国大学排名爬虫写明详细步骤-Python爬虫--2019大学排名数据抓取
Python爬虫--2019大学排名数据抓取 准备工作 输入:大学排名URL连接 输出:大学排名信息屏幕输出 所需要用到的库:requests,bs4 思路 获取网页信息 提取网页中的内容并放到数据结 ...
- Python语言程序设计之urllib.request抓取页面,网易公开课之《麻省理工学院公开课:算法导论》
Python语言用urllib.request模块抓取页面非常简单,再将抓取的页面内容用re模块解析,找出自己想要的东西.下面就就此方法来抓取网易公开课之<麻省理工学院公开课:算法导论>, ...
- python爬虫资源大全_Python爬虫抓取纯静态网站及其资源(基础篇)
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:程序员宝库 **( 想要学习Python?Python ...
- php抓取aspx_哪些因素会影响蜘蛛抓取页面?
我们在优化网站时,有很多设置是不利于蜘蛛抓取的,具体有哪些呢? 建设网站地图 网站地图就像一个指向标,唯有清晰明了的指向标,才能指引蜘蛛抓取的路线.如果网站地图清晰明了,蜘蛛很乐意在网站进行爬行.但是 ...
最新文章
- 机器学习基础-数据降维
- 您没有权限来打开应用程序_苹果建议:除非应用程序无响应,否则不要滑动强制退出...
- 建议收藏:服务器和存储技术知识
- [leetcode]@python 85. Maximal Rectangle
- 重庆邮电大学计算机2019湖北分数线,重庆邮电大学2019各省高考录取分数线 投档分数线是多少...
- w10系统自带linux系统,win10下,内置linux系统的安装和体验,你造吗?
- STM32之SDIO原理
- 计算机设计大赛二等奖,学部在第十一届中国大学生计算机设计大赛中喜获二等奖...
- mac搭建svn服务器文件被锁定,MAC搭建SVN服务器并配置Cornerstone
- 至商3000服务器信息,至商3000软件
- 刀下留人--苹果开发者账号封号前挽救
- matlab在有限差分法中的应用,MATLAB在有限差分法中的应用
- linux里怎么解压war包,Linux压缩war和解压war包
- 【贪玩巴斯】无线传感器网络(三)「Mac协议讲解」——2021-10-08
- word撰写格式系列2
- origin画图---学习时遇到的画图记录
- 快速了解 Git 仓库
- html导航栏动态图标,导航栏动态图.html
- html5水墨效果,用html5可以做出水墨晕开的效果吗
- MS Office Word 2007/2003 资料下载汇总
热门文章
- (转)彻底学会使用epoll(一)——ET模式实现分析
- SqlServer中的数据类型UniqueIdentifier
- [C++] Nested Radical Constant
- 【总有一些东西要弄清】——说说面试时一系列的CSS问题
- Retina时代的前端视觉优化
- Android 核心已经从 Linux kernel 代码库中删除
- Gym 101982 (2018-2019 ACM-ICPC Pacific Northwest Regional Contest (Div. 1) )
- 【笔记】跨域重定向中使用Ajax(XHR请求)导致跨域失败
- Oracle中procedure和function创建举例
- 面向对象课程 - T-shirt