最近。对于图形微信公众号。互联网收集和阅读一些疯狂的-depth新闻和有趣,发人深思文本注释,并选择最佳的发表论文数篇了。但看着它的感觉是一个麻烦的一人死亡。寻找一个简单的解决方案的方法,看看你是否可以把互联网上的信息自己主动收集,然后,他们使用一个统一的筛选。可惜,最近准备学习的知识网络爬虫,于是按照网上的教程要学会尝试写自己的一个小爬虫,嘻嘻,韩寒的博客是用来攀爬。

第一个完整的代码贴上来,根据假设,朋友们需要测试。请安装python相关环境,存。再按F5执行。

#导入urllib库,python訪问网页必须库
import urllib
#时间类库
import time#定义一个URL数组用来存放捕获的URL地址。也就是须要爬的文字地址路径
url = [''] * 50
#定义link变量,用来记录第几个URL地址
link = 1#循环捕获博客文件夹第一页全部的文章链接。并下载#定义con变量来存储urllib.urlopen打开韩寒博客的文件夹地址,特别注意下'+str(page)+',用来变化每一页文件夹地址的
con = urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()
#变量title用来存储con变量中找到<a title=开头元素的位置
title = con.find(r'<a title=')
#变量href用来存储con变量中找到href='开头元素的位置
href = con.find(r'href=',title)
#变量html用来存储con变量中找到.html开头元素的位置
html = con.find(r'.html',href)
#存储第一个连接地址
url[0] = con[href + 6:html + 5]
content = urllib.urlopen(url[0]).read()
open(r'hanhan/'+url[0][-26:],'w+').write(content)
print '0 have downloaded',url[0]
#循环捕获每一篇文章的地址,并存储在URL数组中
while title != -1 and href != -1 and html != -1 and link < 50:#con[href + 6:html + 5]是用来取con字符串href后6位到html倒数5位之间的字符串url[link] = con[href + 6:html + 5]#打开读取每一篇文章地址。并存储在content中content = urllib.urlopen(url[link]).read()#打开hanhan这个文件夹,假设里面没有url[link][-26:]这个字符串命名的文件。便将content里的内容写入。命名为url[link][-26:]open(r'hanhan/'+url[link][-26:],'w+').write(content)print link,'have downloaded',url[link]title = con.find(r'<a title=',html)href = con.find(r'href=',title)html = con.find(r'.html',href)#自增记数link = link +1

这个爬虫实现的功能还是非常简陋的,但作为入门我认为还是够的。它仅仅是实现了保存博客第一页文件夹全部文章的HTML文件,并没有抓取特定的内容予以保存。

还有我认为有编程基础的人,看起来应该不是非常费力。主要的思想非常easy,就是先爬地址,然后爬一个地址就下地址相应的网页,接着保存为。

我个人认为。这段代码还是有点邋遢。不够简洁明了。希望通过以后的学习能写出质量更高的代码。

有些看里面涉及的方法python文档可以发现,这是不难,几乎每一句里面我都标有注意事项。

执行:

python网络爬虫进入(一)——简单的博客爬行动物相关推荐

  1. python requests爬虫——爬取李开复博客信息(包括javascript部分信息)

    今天是国庆假期第二天,已经玩了一天了,今天整理一下前两天写的数据分析作业思路,给实验报告打一下底稿.供对爬虫有兴趣的小伙伴们参考,也希望给实验没完成的同学提供一点小小的帮助. 任务要求. 1)分析页面 ...

  2. C#,网络爬虫的原型图、博客模板图以及代码混淆与反混淆斗争的故事

    标题党而已,谨慎阅读. 图1 清华大学出版社盗图留念 精通并部署大型爬虫的时候,估计绝大多数国人都没听说过什么是爬虫. 国内的大网站都曾经被俺的爬虫搞惨,好在俺不为名不为利,劝客户及时收手,以免坏了人 ...

  3. Python网络爬虫简单教程——第一部

    Python网络爬虫简单教程--第一部 感谢,如需转载请注明文章出处:https://blog.csdn.net/weixin_44609873/article/details/103384984 P ...

  4. 利用Python网络爬虫获取分类图片,简单处理反爬教学

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 本文章来自腾讯云 作者:Python进阶者 想要学习Python?有问题得不到第一 ...

  5. 简单了解Python网络爬虫

    网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取信息的程序或者脚本. 网络爬虫是互联网上进行信息采集的通用手段,在互联网的各个专业方向上都是不可或缺的底层技术支撑.本课程从爬 ...

  6. 精通python网络爬虫-精通python网络爬虫

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多, ...

  7. 精通python网络爬虫-精通Python网络爬虫 PDF 高清版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.核心技术.框架.项目实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小108.6 MB,韦玮编写 ...

  8. python网络爬虫教程-终于明了python网络爬虫从入门到实践

    Python是一款功能强大的脚本语言,具有丰富和强大的库,重要的是,它还具有很强的可读性,易用易学,非常适合编程初学者入门.以下是小编为你整理的python网络爬虫从入门到实践 环境配置:下载Pyth ...

  9. python爬虫抓取图片-python网络爬虫源代码(可直接抓取图片)

    在开始制作爬虫前,我们应该做好前期准备工作,找到要爬的网站,然后查看它的源代码我们这次爬豆瓣美女网站,网址为:用到的工具:pycharm,这是它的图标 ...博文来自:zhang740000的博客 P ...

最新文章

  1. JavaScript创建对象的两种方法和遍历对象的属性
  2. 仅凭一部iPhone手机,打造现实版元宇宙
  3. JSTL中fmt标签详解
  4. python刷取CSDN博文访问量之一
  5. android编程读取sd卡txt文件,如何读取SD卡中的txt文件?
  6. NIOS II 烧写epcs总结
  7. linux 安装 blas,Linux下Linpack安装过程
  8. 计算机硬盘清理,怎么清理电脑磁盘释放存储空间
  9. 千山独行-一个人的创业路(连载十二)
  10. Java枚举—枚举进阶
  11. 西瓜测试软件,西瓜视频v2.0.0
  12. 21个故事的启示(来源于网络)
  13. GitLab 邮件发送不成功原因
  14. 喊苦喊累的程序员们,看看日本人是怎么加班的。
  15. linux恶意代码检查软件,Yara:恶意软件检测神器
  16. 轻轻的、淡淡的,却余味悠长
  17. 上班族如何备考中级会计师考试?
  18. Android微信智能心跳方案(转)
  19. 飞机仓位区分代表的含义
  20. python:获取摄像头照片

热门文章

  1. 65个外贸小心思,让你稳步赢得客户
  2. web前端性能优化与SEO
  3. Docker容器安装最快最简单__编程小黑马
  4. 浏览器本地存储的方式~~~~~
  5. 甘草干姜汤治疗肺虚寒
  6. Maven Scanning for projects... < org.example:MapReduceDemo > Building MapReduceDemo 1.0-SNAPSHOT BUI
  7. 基于MATLAB GUI的魔方三维动态还原仿真程序
  8. 把款软件可以测试双显卡,如何看自己的电脑是不是双显卡?双显卡有什么好处?...
  9. 一篇文章纵览阿里云移动云Apsara Mobile产品系
  10. word题注编号格式从仅数字顺序编号到包含章节号编号