爬虫学习之下载韩寒博客
1.打开韩寒博客列表页面
http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
目标是获取所有文章的超级链接
2.韩寒文章列表特征
<a title target... href=....html>
3.技术要点
·字符串函数find
·列表 list[-x:-y]
·文件读写
#coding:utf-8 import urllib import time url = ['']*350 page = 1 link = 1 while page <= 7:con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+ str(page) +'.html').read()title = con.find(r'<a title')href = con.find(r'href=',title)html = con.find(r'.html',href)i = 0while title != -1 and href != -1 and html != -1 and i < 80:url[i] = con[href + 6:html +5]print link,' ',url[i]i = i + 1title = con.find(r'<a title',html)href = con.find(r'href=',title) html = con.find(r'.html',href)link = link + 1else:print page,'find end!'page = page + 1 j = 0 while j < 350:content = urllib.urlopen(url[j]).read()open(r'blog/'+url[j][-26:],'w+').write(content)j = j + 1time.sleep(1) else:print 'download article finished!'
·循环体while
4.实现步骤
·能够在浏览器打开韩寒博客文章列表首页的博客网页
·从首页网页里获得博客上的所有文章链接
·所有文章列表网页里的文章链接
·下载所有链接HTML文件
转载于:https://www.cnblogs.com/fjl-vxee/p/5693201.html
爬虫学习之下载韩寒博客相关推荐
- 看我如何下载韩寒博客文章笔记
str()将整型数据转化为字符型数据 转载于:https://www.cnblogs.com/sunshinewxz/p/4461432.html
- Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片, ...
- 利用爬虫将Yuan先生的博客文章爬取下来
由于一次巧遇,我阅读了Yuan先生的一篇博客文章,感觉从Yuan先生得博客学到很多东西,很喜欢他得文章.于是我就关注了他,并且想出自他手笔得博客文章,无奈,可能Yuan先生不想公开自己得博客吧,在他的 ...
- HTML+CSS大作业——商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作
HTML5期末大作业:个人商城网站设计--商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 一.作品展示 二.文件目录 三.代码实现 <!doctype ...
- 8.一个项目实战(下载CSDN博客文章)
专栏地址 ʅ(‾◡◝)ʃ 前言 要写一个下载器,首先要实现一个接口函数,而这个函数可以对请求的数据进行处理也就是爬虫,其次才是写图形化界面 接口的实现 其实CSDN的浏览器页面的接口很复杂,是直接通过 ...
- Div+CSS、鼠标滑过特效、导航栏效果——简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作
HTML5+CSS大作业--简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作 常见网页设计作业题材有 个人. 美食. 公 ...
- nodejs爬虫与python爬虫_【nodeJS爬虫】前端爬虫系列 -- 小爬「博客园」
写这篇 blog 其实一开始我是拒绝的,因为爬虫爬的就是cnblog博客园.搞不好编辑看到了就把我的账号给封了:). 言归正传,前端同学可能向来对爬虫不是很感冒,觉得爬虫需要用偏后端的语言,诸如 ph ...
- 系统入门到实战学习某项技术、有问题找“百度“、学习优秀的技术博客、找开源代码等资料
一.系统入门到实战学习某项技术 先看视频入门到实战(B站.慕课网) 然后看书,再把知识的体系串起来 二.有问题找"百度" 1.学习各种疑惑,问搜索引擎[最大的学习资料库] ■ 搜索 ...
- HTML5+CSS大作业——简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作
HTML5+CSS大作业--简洁的个人博客设计(7页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作 常见网页设计作业题材有 个人. 美食. 公 ...
- HTML5期末大作业:个人商城网站设计——商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作
HTML5期末大作业:个人商城网站设计--商城个人中心网站模板(56页) 学生HTML个人网页作业作品下载 个人主页博客网页设计制作 大学生个人网站作业模板 简单个人网页制作 常见网页设计作业题材有 ...
最新文章
- 利物浦大学comp313课程第一节课
- 机器学习竞赛中,为什么GBDT往往比深度学习更有效?
- postgresql定义访问ip与用户_Postgresql-12.1最新版本在线安装以及配置使用全流程
- 论高性能机房标识标签管理办法一现状篇
- npm设置和取消代理的方法
- Bailian3718 位操作练习【位运算】
- Firefox的缓存问题
- java中的命令行参数_Java中的命令行参数
- Atitit python3.0 3.3 3.5 3.6 新特性 Python2.7新特性1Python 3_x 新特性1python3.4新特性1python3.5新特性1值得关注的新特性1Pyth
- win10 linux声音,win10电脑突然没有声音的10种修复方法
- IPEmotion采集J1939协议信号介绍
- Html post易语言服务器,POST其实很简单 15 易语言模块之精易模块
- 前世回眸,今生结缘,滚滚红尘,谁人可依
- 64位系统安装32位打印机驱动
- android 手势放缩_Android 手势识别—缩放
- Mybatis的_parameter使用
- Vue 源码解读(11)—— render helper
- Chapter 2、不使用代理
- 马士兵qbc和qbe示例
- WEB页面或者H5页面如何打开高德或者百度地图APP导航(实战向)
热门文章
- pyaudio模块 python_python无法安装pyaudio模块
- 【使用Pytorch实现ResNet网络模型:ResNet50、ResNet101和ResNet152】
- Go-Kit实现莫斯电码转换
- java二路归并排序算法_java二路归并排序示例分享
- ul阻燃标准有几个等级_UL 阻燃标准
- 3个月攻破CCNA:12周教程资料盘点
- 微信公众号开发-公众号支付
- 【孟姜女日记1】网安入门——渗透基础知识了解
- pythonexcel怎么生成_Python自动生成Excel,python,excel
- mfc通过com控制AutoCAD导出jpg文件