用Python写简单爬虫:

Python提供了许多Module,通过这些Module,可以很简单的做一些工作。比如,要获得cloga这个词在百度搜索结果页中的排名结果(排名结果+URL),这就是一个很简单的爬虫需求。

1、首先,要通过urllib2这个Module获得对应的HTML源码。(PS:在python3.3之后urllib2已经不能再用,代之以urllib)

通过上面这三句就可以将URL的源码存在content变量中,其类型为字符型。

2、接下来是要从这堆HTML源码中提取我们需要的内容。用Chrome查看一下对应的内容的代码(也可以用Firefox的Firebug)。

3、可以看到url的信息存储在span标签中,要获取其中的信息可以用正则式。

import re

urls_pat=re.compile(r'(。*?)')

siteUrls=re.findall(results_pat,content)

4、用正则式获得内容还需要进一步处理,因为其中包含html标签。类似,hi.baidu.com/cloga 2010-8-29或者hi.baidu.com/cloga 2010-8-29,同样可以用正则式的sub方法替换掉这些标签。

strip_tag_pat=re.compile(r'<.*?>')

file=open('results000.csv','w')

for i in results:

i0=re.sub(strip_tag_pat,'',i)

i0=i0.strip()

i1=i0.split(' ')

date=i1[-1]

siteUrl=''.join(i1[:-1])

rank+=1

file.write(date+','+siteUrl+','+str(rank)+'n')

file.close()

5、再来就是把对应的结果输出到文件中,比如,排名、URL、收入日期这样的形式。OK,这样就用Python实现了一个简单的爬虫需求。

python软件下载-python下载_python免费下载[编程工具]-下载之家相关推荐

  1. python pdf编辑开发_20行Python代码实现一款永久免费PDF编辑工具的实现

    PDF(Portable Document Format),中文名称便携文档格式是我们经常会接触到的一种文件格式,文献.文档...很多都是PDF格式.它以格式稳定的优势,使得我们在打印.分享.传输过程 ...

  2. python软件界面-python软件界面介绍(python软件介绍)

    python软件界面介绍 1.接口初始化 当我们使用pycharm工具时,我们将遇到的第一个问题是,在进行各种配置后界面变得混乱时,我们该怎么办?我们应该还原,那么如何还原初始设置? 尽管此工具是从e ...

  3. python软件介绍-python软件界面介绍(python软件介绍)

    python软件界面介绍 1.接口初始化 当我们使用pycharm工具时,我们将遇到的第一个问题是,在进行各种配置后界面变得混乱时,我们该怎么办?我们应该还原,那么如何还原初始设置? 尽管此工具是从e ...

  4. 推荐一个超好用的截屏软件 Windows 上最好的免费截图标注工具:Snipaste

    超好用的截屏软件 Windows 上最好的免费截图标注工具:Snipaste https://sspai.com/post/34962 官方网站:Snipaste - 截图 + 贴图截图 + 贴图,提 ...

  5. s7 200 smart编程软件是款功能强大的plc编程工具

    s7 200 smart编程软件是款功能强大的plc编程工具;它是由大家都比较熟悉的西门子官方进行研发推出,还对新款的编程软件进行支持,包括了CP243-1等;软件还可进行远程的编程.数据传输的功能也 ...

  6. python软件安装及设置_Python 基础知识及安装配置

    前言 1.Python 是一个高层次的结合了解释性.编译性.互动性和面向对象的脚本语言. 2.Python 的设计具有很强的可读性,相比其他语言经常使用英文关键字,其他语言的一些标点符号,它具有比其他 ...

  7. python软件工程师认证证书_Python软件工程师

    岗位要求: 1. 教育背景:本科及以上学历,计算机.数学.电子信息等相关专业,毕业于985/211院校优先: 2. 工作经验:3-8年开发经验: 3.专业要求: (1)熟练Python软件开发能力,能 ...

  8. SEO优化工具-免费SEO优化工具下载-SEO优化工具大全中心

    什么是SEO优化工具?SEO优化工具(Seo tools)能在搜索引擎优化过程中起到辅助的作用,如数据查询工具.网站排名工具.网站流量分析功能,站群管理工具等,用来提高每个SEO人员工作中的效率. s ...

  9. 什么是SEO流量工具-免费流量的工具下载

    seo流量工具,什么是SEO流量工具.SEO流量工具有什么用?SEO流量工具也只是给网站刷流量的一个辅助工具.更多的还是要做好网站的自然流量优化.只要好好地对待自己的网站,自己的网站才会好好对待你,今 ...

  10. antd的table遍历之后添加合计行_付费?是不可能的!20行Python代码实现一款永久免费PDF编辑工具...

    专注Python.AI.大数据 @七步编程 ​PDF(Portable Document Format),中文名称便携文档格式是我们经常会接触到的一种文件格式,文献.文档...很多都是PDF格式.它以 ...

最新文章

  1. Python Web实战:Python+Django+MySQL实现基于Web版的增删改查
  2. 沉迷游戏自学编程,创建游戏帝国,却黯然退场的“鬼才程序员”
  3. Redis作者的公开信:开源维护者的挣扎和无奈
  4. Angular self study 5 - remove ng-app
  5. java mifare_如何正确写入MifareUltralight NFC标签?
  6. Spring Boot与JWT整合实现前后端分离的用户认证
  7. 华为首次赶超苹果;拼多多遭调查;Google 计划推中国版搜索引擎 | 极客头条
  8. mysql的select复合查询语法_MySQL(九)之数据表的查询详解(SELECT语法)二
  9. Server.ScriptTimeOut,Response.IsClientConnected
  10. 软件测试的知识点总结
  11. 冯诺依曼计算机组成结构特点是什么,冯诺依曼计算机的主要特点是什么
  12. C# 如何将EMF文件转换成PNG文件
  13. jvm核心技术梳理(持续更新)
  14. 正太分布函数 oracle,Oracle随机函数
  15. 自写sort排序函数(支持重载排序规则)
  16. Quartus Prime官方下载方法
  17. 【python】pandas库pd.to_excel操作写入excel文件参数整理与实例
  18. python基于web的安装程序_python web.py安装使用
  19. 安卓Activity转场动画
  20. N2N组建虚拟局域网

热门文章

  1. 机器学习之监督学习(二)——神经网络
  2. 能被2、3、4、5、6、7、8、9、10、11、13、25整除的整数的特征是?有趣的21详解
  3. Slim下的函数介绍(一)(转)
  4. 深入学习卷积神经网络中卷积层和池化层的意义(转)
  5. 洛谷 绕钉子的长绳子
  6. 一步一步学EF系列【6、IOC 之AutoFac】
  7. WebService传输DataSet压缩与解压缩
  8. 手把手玩转win8开发系列课程(22)
  9. CSP202009-2 风险人群筛查(100分)【序列处理】
  10. Bailian2915 字符串排序【排序】