用Python写简单爬虫:

Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得cloga这个词在百度搜索结果页中的排名结果(排名结果+URL),这就是一个很简单的爬虫需求。

1、首先,要通过urllib2这个Module获得对应的HTML源码。(PS:在python3.3之后urllib2已经不能再用,代之以urllib)

通过上面这三句就可以将URL的源码存在content变量中,其类型为字符型。

2、接下来是要从这堆HTML源码中提取我们需要的内容。用Chrome查看一下对应的内容的代码(也可以用Firefox的Firebug)。

3、可以看到url的信息存储在span标签中,要获取其中的信息可以用正则式。

import re

urls_pat=re.compile(r'(。*?)')

siteUrls=re.findall(results_pat,content)

4、用正则式获得内容还需要进一步处理,因为其中包含html标签。类似,hi.baidu.com/cloga 2010-8-29或者hi.baidu.com/cloga 2010-8-29,同样可以用正则式的sub方法替换掉这些标签。

strip_tag_pat=re.compile(r'<.*?>')

file=open('results000.csv','w')

for i in results:

i0=re.sub(strip_tag_pat,'',i)

i0=i0.strip()

i1=i0.split(' ')

date=i1[-1]

siteUrl=''.join(i1[:-1])

rank+=1

file.write(date+','+siteUrl+','+str(rank)+'n')

file.close()

5、再来就是把对应的结果输出到文件中,比如,排名、URL、收入日期这样的形式。OK,这样就用Python实现了一个简单的爬虫需求。

python语言下载-python下载_python免费下载[编程工具]-下载之家相关推荐

  1. python语言程序的特点_Python语言概述及其运行机制详解

    即日起,我们将打开一个新的编程世界的大门--Python语言.Python是一种跨平台的计算机程序设计语言.是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新 ...

  2. 视频教程-Python编程的术与道:Python语言入门-Python

    Python编程的术与道:Python语言入门 大学教授,美国归国博士.博士生导师:人工智能公司专家顾问:长期从事人工智能.物联网.大数据研究:已发表学术论文100多篇,授权发明专利10多项 白勇 ¥ ...

  3. python pdf编辑开发_20行Python代码实现一款永久免费PDF编辑工具的实现

    PDF(Portable Document Format),中文名称便携文档格式是我们经常会接触到的一种文件格式,文献.文档...很多都是PDF格式.它以格式稳定的优势,使得我们在打印.分享.传输过程 ...

  4. 视频教程-Python编程的术与道:Python语言进阶-Python

    Python编程的术与道:Python语言进阶 大学教授,美国归国博士.博士生导师:人工智能公司专家顾问:长期从事人工智能.物联网.大数据研究:已发表学术论文100多篇,授权发明专利10多项 白勇 ¥ ...

  5. python语言简介-Python语言介绍

    原标题:Python语言介绍 Python简介 Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其 ...

  6. python语言能做什么软件-什么是Python语言,Python语言可以用来做什么?

    什么是Python语言? Python是一种计算机程序设计语言.你可能已经听说过很多种流行的编程语言,比如非常难学的C语言,非常流行的Java语言,适合初学者的Basic语言,适合网页编程的JavaS ...

  7. python语言视频-Python语言之Python3 实现简易局域网视频聊天工具

    本文主要向大家介绍了Python语言之Python3 实现简易局域网视频聊天工具,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. 操作系统为 Ubuntu 16.04,OpenCV ...

  8. 什么是Python语言?Python成为热门编程语言的原因

    什么是Python语言?Python成为热门编程语言的原因,由于Python简单易学功能强大,可以适用于各种开发环境,一门语言可走遍打天下,比较适合初学者入门. Python是什么?百度百科:Pyth ...

  9. python语言入门-Python语言入门详解!快速学成Python!

    原标题:Python语言入门详解!快速学成Python! 很多技能是被职场所需要的,但很可惜... 这些技能在大学中并学习不到. 大学和职场现实存在的横沟对大部分同学来说难以跨越或碰得头破血流... ...

  10. 【python】北京理工大学Python语言程序设计Python图形基本绘制【二】

    @[python]北京理工大学Python语言程序设计Python图形基本绘制[二] 内容 深入理解python语言 turtle库的运用 turtle库分析 深入理解python 1946年第一台计 ...

最新文章

  1. DevExpress最强干货|实用示例、更新等你来体验!
  2. Redis的数据模型
  3. 做服务器_码迷SEO:细数那些做SEO巨坑的服务器们
  4. PyTorch基础-使用卷积神经网络CNN实现手写数据集识别-07
  5. MySQL的主从复制详解
  6. oracle 截取 tr,oracle中实现截取字符串(substr)、查找字符串位置(instr)、替换字符串(replace)...
  7. 共轭梯度法确实存在数值精度的要求
  8. IOS开发之——手动设置屏幕旋转
  9. oracle查询语句大全
  10. DDR 内存基础知识(2)- DDR预取
  11. 服务器重装系统进入pe找不到硬盘,U盘装系统进入PE无法找到硬盘怎么办?
  12. TCP FIN扫描探测原理
  13. Python:文本分析必备—搜狗词库
  14. 多官能度可聚会型光引发剂(图文说明)
  15. php使用常量和变量输出圆的面积,PHP常量和变量分别是什么?有什么区别?
  16. Fiddler抓包及_Fiddler过滤
  17. Jetson TX2上配置archiconda、Yolov5、tensorrtx环境问题记录
  18. 一文掌握物联网开发技能树
  19. cucumber基础测试用例
  20. 基于51单片机的篮球比赛计时器

热门文章

  1. SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
  2. 一致性问题和Raft一致性算法——一致性问题是无法彻底解决的,可以说一个分布式系统可靠性达到99.99…%,但不能说它达到了100%...
  3. angular1x初始与架构演进(一)
  4. java基础篇之理解synchronized的用法
  5. 套接字编程(VC_Win32)
  6. SQLSERVER 性能优化统计信息
  7. c/c++ 整形转字符串
  8. Storm-kafka源码分析之Config相关类
  9. Spring Hiernate整合
  10. Android系统移植与驱动开发--第四章