1.打开韩寒博客列表页面

http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html

目标是获取所有文章的超级链接

2.韩寒文章列表特征

<a title target... href=....html>

3.技术要点

 ·字符串函数find

 ·列表 list[-x:-y]

 ·文件读写

#coding:utf-8
import urllib
import time
url = ['']*350
page = 1
link = 1
while page <= 7:con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+ str(page) +'.html').read()title = con.find(r'<a title')href = con.find(r'href=',title)html = con.find(r'.html',href)i = 0while title != -1 and href != -1 and html != -1 and i < 80:url[i] = con[href + 6:html +5]print link,'   ',url[i]i = i + 1title = con.find(r'<a title',html)href = con.find(r'href=',title) html = con.find(r'.html',href)link = link + 1else:print page,'find end!'page = page + 1
j = 0
while j < 350:content = urllib.urlopen(url[j]).read()open(r'blog/'+url[j][-26:],'w+').write(content)j = j + 1time.sleep(1)
else:print 'download article finished!'

 ·循环体while

4.实现步骤

·能够在浏览器打开韩寒博客文章列表首页的博客网页

·从首页网页里获得博客上的所有文章链接

·所有文章列表网页里的文章链接

·下载所有链接HTML文件

转载于:https://www.cnblogs.com/fjl-vxee/p/5693201.html

爬虫学习之下载韩寒博客相关推荐

  1. 看我如何下载韩寒博客文章笔记

    str()将整型数据转化为字符型数据 转载于:https://www.cnblogs.com/sunshinewxz/p/4461432.html

  2. Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片

    Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...

  3. 利用爬虫将Yuan先生的博客文章爬取下来

    由于一次巧遇,我阅读了Yuan先生的一篇博客文章,感觉从Yuan先生得博客学到很多东西,很喜欢他得文章.于是我就关注了他,并且想出自他手笔得博客文章,无奈,可能Yuan先生不想公开自己得博客吧,在他的 ...

  4. HTML+CSS大作业——商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作

    HTML5期末大作业:个人商城网站设计--商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 一.作品展示 二.文件目录 三.代码实现 <!doctype ...

  5. 8.一个项目实战(下载CSDN博客文章)

    专栏地址 ʅ(‾◡◝)ʃ 前言 要写一个下载器,首先要实现一个接口函数,而这个函数可以对请求的数据进行处理也就是爬虫,其次才是写图形化界面 接口的实现 其实CSDN的浏览器页面的接口很复杂,是直接通过 ...

  6. Div+CSS、鼠标滑过特效、导航栏效果——简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作

    HTML5+CSS大作业--简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作 常见网页设计作业题材有 个人. 美食. 公 ...

  7. nodejs爬虫与python爬虫_【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」

    写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...

  8. 系统入门到实战学习某项技术、有问题找“百度“、学习优秀的技术博客、找开源代码等资料

    一.系统入门到实战学习某项技术 先看视频入门到实战(B站.慕课网) 然后看书,再把知识的体系串起来 二.有问题找"百度" 1.学习各种疑惑,问搜索引擎[最大的学习资料库] ■ 搜索 ...

  9. HTML5+CSS大作业——简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作

    HTML5+CSS大作业--简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作 常见网页设计作业题材有 个人. 美食. 公 ...

  10. HTML5期末大作业:个人商城网站设计——商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作

    HTML5期末大作业:个人商城网站设计--商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作 常见网页设计作业题材有 ...

最新文章

  1. 利物浦大学comp313课程第一节课
  2. 机器学习竞赛中,为什么GBDT往往比深度学习更有效?
  3. postgresql定义访问ip与用户_Postgresql-12.1最新版本在线安装以及配置使用全流程
  4. 论高性能机房标识标签管理办法一现状篇
  5. npm设置和取消代理的方法
  6. Bailian3718 位操作练习【位运算】
  7. Firefox的缓存问题
  8. java中的命令行参数_Java中的命令行参数
  9. Atitit python3.0 3.3 3.5 3.6 新特性 Python2.7新特性1Python 3_x 新特性1python3.4新特性1python3.5新特性1值得关注的新特性1Pyth
  10. win10 linux声音,win10电脑突然没有声音的10种修复方法
  11. IPEmotion采集J1939协议信号介绍
  12. Html post易语言服务器,POST其实很简单 15 易语言模块之精易模块
  13. 前世回眸,今生结缘,滚滚红尘,谁人可依
  14. 64位系统安装32位打印机驱动
  15. android 手势放缩_Android 手势识别—缩放
  16. Mybatis的_parameter使用
  17. Vue 源码解读(11)—— render helper
  18. Chapter 2、不使用代理
  19. 马士兵qbc和qbe示例
  20. WEB页面或者H5页面如何打开高德或者百度地图APP导航(实战向)

热门文章

  1. pyaudio模块 python_python无法安装pyaudio模块
  2. 【使用Pytorch实现ResNet网络模型:ResNet50、ResNet101和ResNet152】
  3. Go-Kit实现莫斯电码转换
  4. java二路归并排序算法_java二路归并排序示例分享
  5. ul阻燃标准有几个等级_UL 阻燃标准
  6. 3个月攻破CCNA:12周教程资料盘点
  7. 微信公众号开发-公众号支付
  8. 【孟姜女日记1】网安入门——渗透基础知识了解
  9. pythonexcel怎么生成_Python自动生成Excel,python,excel
  10. mfc通过com控制AutoCAD导出jpg文件