首先,我们确定博客园首页地址为:https://www.cnblogs.com/

我们打开可以看到有各种各样的文章在首页,如下图:

我们以上图标记的文章为例子吧!打开网页源码,搜索Docker,搜索结果如下图:

从上图后红色标记部分可以看出,我们使用正则表达式即可匹配该网址,我们匹配到该网址之后,将该网址对应的内容下载到到底进行存储。

实现代码

import urllib.request
import re
"""
爬取cnblogs首页所有的文章
"""
url = "http://www.cnblogs.com/"
headers = ("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
data = urllib.request.urlopen(url).read().decode("utf-8","ignore")
#此处的(.*?)是匹配href后所有内容,直到”结束
rule = '<h3><a class="titlelnk" href="(.*?)"'
result = re.compile(rule).findall(data)
for i in range(0,len(result)):file = "D:/source/"+str(i)+".html"urllib.request.urlretrieve(result[i],filename=file)print("第"+str(i+1)+"次成功")

运行结果:

第1次成功
第2次成功
第3次成功
第4次成功
第5次成功
第6次成功
第7次成功
第8次成功
第9次成功
第10次成功
第11次成功
第12次成功
第13次成功
第14次成功
第15次成功
第16次成功
第17次成功
第18次成功
第19次成功
第20次成功
[Finished in 9.3s]

爬取完成后,我们可以在相应路径下看到爬取后的内容

【Python3 爬虫】13_爬取博客园首页所有文章相关推荐

  1. java 使用webmagic 爬虫框架爬取博客园数据

    java 使用webmagic 爬虫框架爬取博客园数据存入数据库 学习记录   webmagic简介: WebMagic是一个简单灵活的Java爬虫框架.你可以快速开发出一个高效.易维护的爬虫. ht ...

  2. 爬取博客园首页并定时发送到微信

    应女朋友要求,为了能及时掌握技术动向,特意写了这个爬虫,每天定时爬取博客园首页并发送至微信. 环境: Python3.4 第三方库 Requests:向服务器发送请求 BeautifulSoup4:解 ...

  3. java爬虫之爬取博客园推荐文章列表

    这几天学习了一下Java爬虫的知识,分享并记录一下: 写一个可以爬取博客园十天推荐排行的文章列表 通过浏览器查看下一页点击请求,可以发现 在点击下一页的时候是执行的 post请求,请求地址为 http ...

  4. .NET Core 实现定时抓取博客园首页文章信息并发送到邮箱

    前言 大家好,我是晓晨.许久没有更新博客了,今天给大家带来一篇干货型文章,一个每隔5分钟抓取博客园首页文章信息并在第二天的上午9点发送到你的邮箱的小工具.比如我在2018年2月14日,9点来到公司我就 ...

  5. 基于webmagic实现爬取博客园的所有精品文章

    最近有一些工作上的需要,需要接触到爬虫来爬取数据.之前有使用过Python实现一个很简单的爬虫Demo,这次由于公司使用的是Java爬虫,基于webmagic框架去实现的爬虫.于是就参考了资料自己学习 ...

  6. Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)

    WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...

  7. Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  8. python教程是用什么博客写的-Python爬虫入门教程:博客园首页推荐博客排行的秘密...

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

  9. 推荐一部python教程_Python爬虫入门教程:博客园首页推荐博客排行的秘密

    1. 前言 虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客.(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高.看到首 ...

最新文章

  1. 【bzoj 1833】【codevs 1359】 [ZJOI2010]count 数字计数(数位dp)
  2. TensorFlow 制作自己的TFRecord数据集
  3. Mysql PARTITION 数据表分区技术日期
  4. 企业网站标题优化要学会运用技巧和方法
  5. SAP中PDF文件本地保存方法
  6. delphi valuelisteditor控件的使用
  7. MNIST手写数字识别
  8. 新闻系统查询思路和步骤
  9. java Concurrent包学习笔记(一):ExecutorService
  10. 狗汪汪玩转无线电 -- GPS Hacking (上)
  11. 计算机一级在线考试软件,全国计算机等级考试一级MS OFFICE练习软件
  12. iso硬盘安装 凤凰os_在Linux中安装凤凰系统(Phoenix OS)的方法
  13. 什么是ESAM安全模块
  14. mysql中 怎么插入反斜杠_MySQL中如何插入反斜杠,反斜杠被吃掉,反斜杠转义(转)...
  15. 如何将手机的网络代理给电脑 win10
  16. 超帅的C核心相关总结
  17. RGCF: Refined Graph Convolution Collaborative Filering withConcise and Expressive Embedding
  18. Windows应用程序C#创建MDI父窗体和子窗体
  19. Java实现简单的倒排索引
  20. 关于使用github布置定时任务给别人哟

热门文章

  1. python long函数_python函数
  2. java软尾山地车评测_[渣图] 骑很慢的穷屌丝软尾历程
  3. python写标准api_用python写api
  4. wxpython使用多进程_wxPython 使用总结
  5. 刀塔霸业android安装包,刀塔霸业安卓下载-刀塔霸业安卓官网版(dota2自走棋)下载v1.0...
  6. 多线程的底层原理是怎么样的?
  7. centos 安装mysql5.6.20_Linux学习15-CentOS安装mysql5.6环境
  8. 鱼骨图分析法实际案例_8D根本原因分析——5WHY与鱼骨图培训课件(PPT64完整详细)...
  9. Angular (Full App) with Angular Material, Angularfire NgRx 第3章
  10. 安装fio命令linux,fio安装和使用方法