爬虫学习之下载韩寒博客

1.打开韩寒博客列表页面

http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html

目标是获取所有文章的超级链接

2.韩寒文章列表特征

3.技术要点

　·字符串函数find

　·列表 list[-x:-y]

　·文件读写

#coding:utf-8
import urllib
import time
url = ['']*350
page = 1
link = 1
while page <= 7:con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+ str(page) +'.html').read()title = con.find(r'<a title')href = con.find(r'href=',title)html = con.find(r'.html',href)i = 0while title != -1 and href != -1 and html != -1 and i < 80:url[i] = con[href + 6:html +5]print link,'   ',url[i]i = i + 1title = con.find(r'<a title',html)href = con.find(r'href=',title) html = con.find(r'.html',href)link = link + 1else:print page,'find end!'page = page + 1
j = 0
while j < 350:content = urllib.urlopen(url[j]).read()open(r'blog/'+url[j][-26:],'w+').write(content)j = j + 1time.sleep(1)
else:print 'download article finished!'

　·循环体while

4.实现步骤

·能够在浏览器打开韩寒博客文章列表首页的博客网页

·从首页网页里获得博客上的所有文章链接

·所有文章列表网页里的文章链接

·下载所有链接HTML文件

转载于:https://www.cnblogs.com/fjl-vxee/p/5693201.html

爬虫学习之下载韩寒博客相关推荐

看我如何下载韩寒博客文章笔记
str()将整型数据转化为字符型数据转载于:https://www.cnblogs.com/sunshinewxz/p/4461432.html
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
利用爬虫将Yuan先生的博客文章爬取下来
由于一次巧遇,我阅读了Yuan先生的一篇博客文章,感觉从Yuan先生得博客学到很多东西,很喜欢他得文章.于是我就关注了他,并且想出自他手笔得博客文章,无奈,可能Yuan先生不想公开自己得博客吧,在他的 ...
HTML+CSS大作业——商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作大学生个人网站作业模板简单个人网页制作
HTML5期末大作业:个人商城网站设计--商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作一.作品展示二.文件目录三.代码实现 <!doctype ...
8.一个项目实战（下载CSDN博客文章）
专栏地址 ʅ(‾◡◝)ʃ 前言要写一个下载器,首先要实现一个接口函数,而这个函数可以对请求的数据进行处理也就是爬虫,其次才是写图形化界面接口的实现其实CSDN的浏览器页面的接口很复杂,是直接通过 ...
Div+CSS、鼠标滑过特效、导航栏效果——简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作大学生个人网站作业模板简单个人网页制作
HTML5+CSS大作业--简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作大学生个人网站作业模板简单个人网页制作常见网页设计作业题材有个人. 美食. 公 ...
nodejs爬虫与python爬虫_【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」
写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...
系统入门到实战学习某项技术、有问题找“百度“、学习优秀的技术博客、找开源代码等资料
一.系统入门到实战学习某项技术先看视频入门到实战(B站.慕课网) 然后看书,再把知识的体系串起来二.有问题找"百度" 1.学习各种疑惑,问搜索引擎[最大的学习资料库] ■ 搜索 ...
HTML5+CSS大作业——简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作大学生个人网站作业模板简单个人网页制作
HTML5+CSS大作业--简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作大学生个人网站作业模板简单个人网页制作常见网页设计作业题材有个人. 美食. 公 ...
HTML5期末大作业：个人商城网站设计——商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作大学生个人网站作业模板简单个人网页制作
HTML5期末大作业:个人商城网站设计--商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载个人主页博客网页设计制作大学生个人网站作业模板简单个人网页制作常见网页设计作业题材有 ...

爬虫学习之下载韩寒博客

爬虫学习之下载韩寒博客相关推荐

最新文章

热门文章