思路::

(本文没有用xpath定位,xpath需要导入第三方库   from lxml import etree)

1.首先通过urllib类获取到网页的所有内容

2.通过partition获取其中的部分内容

3.在通过指定内容放到放到一个list中1!

代码如下:

#encoding: utf-8
import urllib, os# 获取网页内容
def getContent(urlAddr):page = urllib.urlopen(urlAddr)html = page.read()return html
# 获取指定内容
def content(html):str = r'<div id="post_list">'content = html.partition(str)[2]str1 = r'<script>'content = content.partition(str1)[0]# 爬取内容太存到list中
def getTitleName(content, beg = 0):try:title_list = []while True:num1 = content.index('target="_blank">', beg)+16num2 = content.index('</a>', num1)title_list.append(content[num1:num2])beg = num2except ValueError:return title_listSourceUrl = "http://www.cnblogs.com/pick/"
contentTotal = getContent(SourceUrl)
specilContent = content(contentTotal)for i in range (1, 40):print "%d标题是:%s" % (i, getTitleName(contentTotal)[i])

显示效果为:

1标题是:架构之路(五):忘记数据库
2标题是:.NET基础拾遗(5)多线程开发基础
3标题是:你为什么不分享
4标题是:架构之路(三) 单元测试
5标题是:从中间件的历史来看移动App开发的未来
6标题是:架构之路(二):性能
7标题是:每个人都应该懂点函数式编程
8标题是:程序员读书这件事情
9标题是:前端代码异常日志收集与监控
10标题是:iOS开发系列--Swift语言
11标题是:设计-简约而不简单
12标题是:Entity Framework教程(第二版)
13标题是:搞个这样的APP要多久?
14标题是:REST简介
15标题是:探索C#之6.0语法糖剖析
16标题是:CLR 这些年有啥变化吗?
17标题是:理想的应用框架
18标题是:Web性能优化:What? Why? How?
19标题是:CSS十问——好奇心+刨根问底=CSSer
20标题是:难免的尴尬:代码依赖
21标题是:反馈或建议
22标题是:官方博客
23标题是:博客模板
24标题是:.NET招聘
25标题是:Java招聘
26标题是:C++招聘
27标题是:PHP招聘
28标题是:Web前端招聘
29标题是:<img src="http://img.cnblogs.com/friend_links/logo_aliyun.jpg" alt="阿里云" />
30标题是:沪江网
31标题是:站长之家
32标题是:天极网
33标题是:A5源码下载
34标题是:葡萄城控件
35标题是:又拍云存储
36标题是:高考查分
37标题是:听云APP
38标题是:融云IM云
39标题是:极光推送
[Finished in 0.7s]

github地址为:

转载于:https://www.cnblogs.com/ievjai/p/4943943.html

python 学习爬虫教程~相关推荐

  1. python课程开课吧怎么样-廖雪峰总结的Python商业爬虫教程,请查收!

    原标题:廖雪峰总结的Python商业爬虫教程,请查收! 2018 IEEE最热门48种编程语言榜,Python雄踞四项第一! 据介绍,IEEE Spectrum 的排序是综合 10 个精选线上数据源, ...

  2. python网络爬虫教程(四):强大便捷的请求库requests详解与编程实战

    上一章中,我们了解了urllib的基本用法,详情可浏览如下链接python网络爬虫教程(三):详解urllib库,但其中确实有不方便的地方,为此,我们可以使用更方便更简洁的HTTP请求库request ...

  3. python学习——高级教程

    Python学习 高级教程 目录 1. Python面向对象 2. Python正则表达式 3. Python多线程 4. Python GUI编程 5. Python JSON 一.Python面向 ...

  4. python网络爬虫教程-教你从零开始学会写 Python 爬虫

    原标题:教你从零开始学会写 Python 爬虫 写爬虫总是非常吸引IT学习者,毕竟光听起来就很酷炫极客,我也知道很多人学完基础知识之后,第一个项目开发就是自己写一个爬虫玩玩. 其实懂了之后,写个爬虫脚 ...

  5. python网络爬虫教程-如何入门 Python 爬虫?

    "入门"是良好的动机,但是可能作用缓慢.如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习. 另外如果说知识体系里的每一个知识点是图里的点,依 ...

  6. python网络爬虫教程-终于明了python网络爬虫从入门到实践

    Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门.以下是小编为你整理的python网络爬虫从入门到实践 环境配置:下载Pyth ...

  7. python新闻爬虫教程_python简易爬虫教程--(一)批量获取搜狐新闻

    我们先从简单的抓取文本信息开始,来写我们的第一个爬虫程序,获取搜狐新闻的内容. 我们首先来介绍一下我们需要用到的库. 爬虫程序的步骤,一般可以分为三步: 1.获取网页源码(html源码): 2.从代码 ...

  8. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

  9. python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程

    如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...

最新文章

  1. 区块链以及区块链技术总结
  2. 纠错编码基本实验matlab,纠错编码基本实验matlab实现包含源代码
  3. 简单搜索(多位自幂数)+数列网站
  4. 深度学习核心技术精讲100篇(十四)-一文带你看懂GPflow的前世今生
  5. linux 块设备驱动 (三)块设备驱动开发
  6. 如何轻松愉快的理解条件随机场(CRF)
  7. Unity3D shader Blending
  8. Kvm虚拟化性能测试与性能优化实践
  9. mac电脑的磁盘空间变得越来越小
  10. js中substr,substring,indexOf,lastIndexOf,split 的用法
  11. 5G网络将给物联网卡带来什么发展前景
  12. 如何让Java文件在虚拟机中运行_深入理解JVM--Java程序如何在虚拟机中运行
  13. 园林景观设计计算机制图,园林景观设计平面图效果图
  14. 白话空间统计之:空间自相关
  15. 如何接入银联“快速接入”产品API
  16. 电脑蓝屏按哪三个键恢复?怎么修复蓝屏问题
  17. hostapd_cli 使用手册
  18. 机载激光雷达测量技术理论与方法读书笔记(3)机载激光雷达测量数据的滤波分类
  19. python考证书-考证那些事儿:Python工程师认证的考试内容和大纲
  20. 计算机进安全模式启动修复,win7电脑故障怎么进入安全模式修复

热门文章

  1. C++基础教程之多态
  2. 开课吧Java课堂:多线程如何同步?消息如何传递?
  3. GridView 水平方向滑动
  4. LINUX下的LVM逻辑卷管理器
  5. cpu out of order, 性能优化
  6. iptables 开放端口
  7. 严版快速排序Partion方法
  8. 卷积/反卷积前后的张量尺寸计算
  9. python : os.path 相关操作
  10. WPS 提示缺字体