初次写爬虫,拿很简单的自己的csdn主页来练习一下:

打开自己的主页查看源码,发现此部分信息在标签<divclass="result"></div>

很简单的程序出了点错,发现是编码问题,记录一下

(1)出现urllib2.HTTPError: HTTP Error 403: Forbidden错误

由于网站禁止爬虫,可以在请求加上头信息,伪装成浏览器访问

(2)统一编码,匹配的字符和要查找的字符编码要统一,尤其是中文要转换为unicode

Python中的字符串有两种数据类型:str类型和unicode类型。str类型采用的ASCII编码,也就是说它无法表示中文。unicode类型采用unicode编码,能够表示任意的字符,包括中文、日文、韩文等。在python中字符串默认采用的ASCII编码,如果要显示声明为unicode类型的话,需要在字符串前面加上'u'或者'U'。

如果用中文去查找,字符串前面要加ur

(3)注意不管是search还是findall来进行匹配时,后面添加re.S,可以匹配换行符,要不然查询不到结果

其他的备选

  • re.I(全拼:IGNORECASE): 忽略大小写
  • re.M(全拼:MULTILINE): 多行模式,改变'^'和'$'的行为
  • re.S(全拼:DOTALL): 点任意匹配模式,改变'.'的行为
  • re.L(全拼:LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
  • re.U(全拼:UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性
  • re.X(全拼:VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。

此外注意查看python手册,如果预编译用再进行查询,flag 在compile参数中

pattern = re.compile(xxx,re.S)

pattern.search() //此处的search没有flag

# <!-*- coding:utf-8 -*->
import urllib2
import urllib
import re
from time import ctime
'''需要从<div class="result"></div>中取出下列信息
积分:<span>560</span> 排名:第<span>24195</span>名 访问:<span>5995</span>次
'''
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
myCsdnUrl = u'http://my.csdn.net/kuaile123'
try :
myRequest = urllib2.Request(url=myCsdnUrl,headers=headers)
myResponse = urllib2.urlopen(myRequest)
myPage = myResponse.read()
unicodePage = myPage.decode("utf-8")
myInfo = re.search(r'<div class="result">.*?</div>',unicodePage,re.S)
if myInfo is not None:
strInfo =  myInfo.group()
rankInfo = re.search(ur'积分:<span>(\d+?)</span> 排名:第<span>(\d+?)</span>名 访问:<span>(\d+?)</span>次',strInfo)
if rankInfo is not None:
print u'时间: ', ctime()
print u'积分: ' , rankInfo.group(1)
print u'排名:  ' , rankInfo.group(2)
print u'访问量: ' , rankInfo.group(3)
except Exception,e:
print e

运行结果如下:

python爬取csdn排名积分等信息相关推荐

  1. 使用Python爬取CSDN历史博客文章列表,并生成目录

    使用Python爬取CSDN历史博客文章列表,并生成目录 这篇博客将介绍如何使用Python爬取CSDN历史博客文章列表,并生成目录. 2020年 2020年04月 cv2.threshold() 阈 ...

  2. Python爬取武汉店铺出租转让信息

    Python爬取武汉店铺出租转让信息 摘要:由于有亲戚想到武汉发展,开个店面做点小生意,实地考察的效率不算太高,于是乎就在网上收集相关的转让信息,做第一步筛选,希望能够起到一些作用~ 技术组合:req ...

  3. python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析

    原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...

  4. python爬取58同城的兼职信息

    标题python爬取58同城的兼职信息 刚刚开始学习爬虫,一些 自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码: #首先是导包 imp ...

  5. python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  6. Python爬取酷狗音乐歌手信息

    前面我们说过用python爬取网易云音乐的歌手信息,Python爬取网易云音乐歌手信息 今天我们来爬取一下酷狗音乐的歌手信息(歌手id和歌手名),如果环境没有安装好,可以参照前面爬网易云环境配置作为参 ...

  7. python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!

    原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...

  8. 用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)

    爬虫入门:python爬取豆瓣影评及影片信息:影片评分.评论时间.用户ID.评论内容 思路分析 元素定位 完整代码 豆瓣网作为比较官方的电影评价网站,有很多对新上映影片的评价,不多说,直接进入正题. ...

  9. python爬取去哪儿网酒店信息

    python爬取去哪儿网酒店信息 利用selenium+python爬取去哪儿网酒店信息,获取酒店名称.酒店地址.第一条评论.评论数.最低价格等信息,写入excel表. 1.观察网页结构 浏览器地址栏 ...

最新文章

  1. 机器学习系列(9)_机器学习算法一览(附Python和R代码)
  2. cuda-Block和Grid设定
  3. 4.24企业数据库应用实践技术沙龙
  4. P2502 [HAOI2006]旅行 最小生成树
  5. 背景图层和普通图层的区别_ps:图层有多少种类?我已经列出来了,学不学就看你自己了...
  6. Code Review的重要性
  7. DataGridView很详细的用法
  8. SQL(五) - 表的创建以及操作
  9. 全球仅4人,刚毕业年薪201万元 !华为最高档“天才少年”回应...
  10. 趋势科技防毒墙网络版—OfficeScan
  11. UG NX10.0软件安装教程
  12. Ffmpeg常用转码命令
  13. matlab对信号DTFT,【MATLAB】离散傅里叶变换DTFT和IDTFT
  14. php 755,chmod 命令——chmod 755与 chmod 4755区别_PHP教程
  15. 鸿蒙不是Linux也不是安卓
  16. CRM实战分类以及对企业运营的思考
  17. APP中使用UI交互设计动效的三个好处
  18. 脚踏实地才能仰望星空
  19. Swagger怎么没有你要的model?一个注解帮你解决
  20. 计算机对操作系统函数的调用失败,解决win7提示“远程过程调用失败且未执行”的方案...

热门文章

  1. spring源码分析之spring-core总结篇
  2. 在创业公司做架构师,你需要解决哪些问题?
  3. CLOSE_WAIT状态的原因与解决方法 --转
  4. Java 7之集合类型 - 二叉排序树、平衡树、红黑树---转
  5. Lesson 15.1 学习率调度基本概念与手动实现方法
  6. iPIN CEO 杨洋:AI 还未被大规模用在工作中,缺的是认知智能
  7. Android华容道之一步一步实现-序言
  8. RocketMQ-初体验RocketMQ(07)-使用API操作RocketMQ_顺序消息 ordermessage
  9. Redis-01Redis概述
  10. Oracle-trigger触发器解读