# coding=utf-8

# __author__ = 'zhouyin'

import urllib

import time

'''

============================把网页下载到本地,然后通过url作为文件名=====================================================

str0 = '地震思考录'

title = str0.find(r'

print title

href = str0.find(r'href=')

print href

html = str0.find(r'.html')

print html

url = str0[href+6:html+5]

print url

filename = url[-26:]

content = urllib.urlopen(url).read()

# print content

open(filename, 'w').write(content)  #

把网页下载到本地,然后通过url作为文件名

====================================================================================================================

'''

'''

==============================================================================================

con =

urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()

# 访问韩寒博客首页博文地址

title = con.find(r'

print html

url = con[href+6:html+5]  #

因为你是从href开始搜索的,所以你不需要href=的字符,而.html则需要,所以尾要+5

# print con

print url

========================================================================================

'''

'''

=====================================把韩寒博客的某一页的50篇文章下载到本地===========================================================================

url = [''] * 50  # 存储40个url的列表

con =

urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html').read()

# 访问韩寒博客首页博文地址

print con

title = con.find(r'

url[0] = con[href + 6:html + 5]

i = 0

while title != -1 and href != -1 and html != -1 and i <

50:

url[i] = con[href +

6:html + 5]

print url[i]

title =

con.find(r'

i = i + 1

else:

print 'findall!'

j = 0

while j < 50:

content =

urllib.urlopen(url[j]).read()

open(r'hanhan/'+url[j][-26:], 'w+').write(content)

print 'downing....',

url[j]

j = j + 1

time.sleep(15)

else:

print 'download all

pages!'

========================================================================================================================

'''

'''

=======================================把韩寒的博客的7个页面的所有文章下载=================================================================================

url = [''] * 350  # 存储40个url的列表

page = 1

link = 1

while page <= 7:

con =

urllib.urlopen('http://blog.sina.com.cn/s/articlelist_1191258123_0_'+str(page)+'.html').read()

# 访问韩寒博客首页博文地址

# print con

title =

con.find(r'

url[0] = con[href +

6:html + 5]

i = 0

while title != -1 and

href != -1 and html != -1 and i < 350:

url[i] = con[href + 6:html + 5]

print url[i]

title = con.find(r'

i = i + 1

else:

print 'findall!'

page = page + 1

link = link + 1

j = 0

while j < 50:

content =

urllib.urlopen(url[j]).read()

open(r'hanhan/'+url[j][-26:], 'w+').write(content)

print 'downing....',

url[j]

j = j + 1

time.sleep(15)

else:

print 'download all

pages!'

========================================================================================================================

'''

python爬取新浪博客_python爬取韩寒博客的实例相关推荐

  1. python爬取新浪新闻首页_Python爬虫学习:微信、知乎、新浪等主流网站的模拟登陆爬取方法...

    微信.知乎.新浪等主流网站的模拟登陆爬取方法 摘要:微信.知乎.新浪等主流网站的模拟登陆爬取方法. 网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样.从是否需要登陆这方面来说,一些 ...

  2. python爬取新浪新闻意义_爬取新浪新闻

    [Python] 纯文本查看 复制代码import requests import os from bs4 import BeautifulSoup import re # 爬取具体每个新闻内容 de ...

  3. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  4. 使用python网络爬虫爬取新浪新闻(一)

    使用python网络爬虫爬取新浪新闻 第一次写博客,感觉有点不太习惯!不知道怎么突然就想学学爬虫了,然后就用了一天的时间,跟着教程写了这个爬虫,!不说废话了,我将我从教程上学习的东西整个写下来吧,从头 ...

  5. python爬取新浪新闻

    最近公司项目比较少,楼主闲了好长时间了,作为一个刚毕业几个月的新人,心里很烦躁,只能自己找点新东西去学了.看到周围好多人都接触了爬虫,再加上楼主最近沉迷吴宣仪不可自拔,每天投票投票,投票的同时需要监控 ...

  6. 网络爬虫-----python爬取新浪新闻

    思路:先爬取首页,然后通过正则筛选出所有文章url,然后通过循环分别爬取这些url到本地 #python新闻爬虫实战 import urllib.request import re url = 'ht ...

  7. python爬虫-使用BeautifulSoup爬取新浪新闻标题

    ** python爬虫-使用BeautifulSoup爬取新浪新闻标题 ** 最近在学习爬虫的技巧,首先学习的是较为简单的BeautifulSoup,应用于新浪新闻上. import requests ...

  8. (python爬虫)新浪新闻数据爬取与清洗+新浪新闻数据管理系统+MySQL

    新浪新闻数据爬取与清洗+新浪新闻数据管理系统 设计要求 新浪新闻数据爬取与清洗 基本要求:完成新浪新闻排行中文章的数据爬取,包括标题.媒体.时间.内容. 进阶要求:对最近一周出现次数最多的关键字排名并 ...

  9. python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

    一.爬取新浪新闻思路 1.创建scrapy项目 2.分析新浪新闻网站静态页面代码 3.编写对应的xpath公式 4.写代码 二.项目代码 步骤1.创建scrapy项目 scrapy startproj ...

  10. [Python爬虫]爬取新浪理财师股票问答

    本文将与大家分享如何爬取新浪理财师股票问答. 一.背景介绍 1)爬取顺序: 在这里,根据已有的股票id列表,按照顺序,依次爬取每只股票下面的股票问答. 股票id格式: lines = ['300592 ...

最新文章

  1. [转]css选择器优先级深入理解
  2. spring_了解Spring Web应用程序体系结构:经典方法
  3. 青海高考成绩查询日期2021,2021年青海高考成绩什么时候出来 公布时间
  4. 47. 全排列 II(回溯算法)
  5. Oracl数据库管理方面的资料(查询sga,查看oracle数据库名称sid,查看oracle数据库名称,查看表空间,修改表空间名称,数据库管理,sqlPlus数据显示)
  6. Basic INFO - InstallScript脚本编程的限制
  7. input file的默认value清空与赋值方法
  8. 用php写一个可以抽取随机数的工具一次只抽四个怎么实现?_面试了一个32岁的程序员,场面一度很尴尬。...
  9. lol游戏挂机软件_北大软件工程学子玩lol一年,挂三科被停学,告诫青少年,切勿沉溺游戏...
  10. Loadrunner中web_reg_save_param的使用详解
  11. 【poker】WASD变成上下左右键(方向键)的解决方法
  12. [Mac]『Grid』(格子) 免费又实用的分屏软件
  13. Visual studio的中英文切换
  14. 公司网络慢如何解决,怎样诊断网络卡的原因
  15. 尚硅谷YYDS (课件资料)
  16. 有时候,当我们要进入某个外网时,很慢很慢,等很久才进得去
  17. 云效应用交付平台 AppStack 之发布流水线
  18. Home Assistant 开发指南
  19. 手机蓝牙连接小票机/打印机,输入PIN码后确定键不亮的解决办法
  20. Cesium中笛卡尔坐标系到底是什么鬼

热门文章

  1. 初探OSG+OpenCascade(简称:OCC)在QT上的实践
  2. 百亿级微信红包的高并发资金交易系统设计方案
  3. 神经网络中激励函数的作用
  4. Json Editor命令行版
  5. 摩斯电码php源码,PHP实现基于文本的莫斯电码生成器
  6. 前后端分离的微信小程序--校园二手交易平台
  7. 吴怀宇 第三版 自动控制原理课后习题答案 武汉科技大学814
  8. C语言printf()输出格式大全
  9. ansoft maxwell破解版下载v16 中文版 32bit 64bit 百度云盘分享下载链接目录点击下方链接下载即可获得
  10. 统计分类分为描述性统计_了解描述性统计