Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到很多有用的信息,觉得很厉害,突然对想学Python爬虫,虽然自己没学过Python,但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频,共三集,第一节讲爬取一篇博客,第二节讲爬取一页博客,第三集讲爬取全部博客。
看了视频,也留下了代码。
爬虫第一步:查看网页源代码:
第一篇博客的代码为蓝底的部分<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>
对比其他博客的代码,找出公共部分“< title=‘’ ‘href=’,'.html'
代码为:
# -*- coding : -utf-8 -*-
import urllib
str0 ='<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html">《论电影的七个元素》——关于我对电…</a>'
title = str0.find(r'<a title')
#print title
href = str0.find(r'href=')
#print href
html = str0.find(r'.html')
#print htmlurl = str0[href + 6:html + 5]
print urlcontent = urllib.urlopen(url).read()
#print contentfilename = url[-26:]
print filename
open(filename+'.html','w').write(content)
print '下载成功!'
运行结果:
保存的文件:
Python爬虫爬取一篇韩寒新浪博客相关推荐
- python爬取新浪博客_python网络爬虫 新浪博客篇
上次写了一个爬世纪佳缘的爬虫之后,今天再接再厉又写了一个新浪博客的爬虫.写完之后,我想了一会儿,要不要在博客园里面写个帖子记录一下,因为我觉得这份代码的含金量确实太低,有点炒冷饭的嫌疑,就是把上次的代 ...
- python爬虫爬取网易云音乐歌曲_Python网易云音乐爬虫进阶篇
image.png 年前写过一篇爬网易云音乐评论的文章,爬不了多久又回被封,所以爬下来那么点根本做不了什么分析,后面就再改了下,加入了多线程,一次性爬一个歌手最热门50首歌曲的评论,算是进阶版了- 思 ...
- Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...
- php抓取微博评论,python爬虫爬取微博评论案例详解
前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中,我负责的是数据爬取这块,我主要是把对于杨超越 的每一条评论的相关信息. 数据格式:{"name" ...
- Python爬虫爬取疫情数据并可视化展示
这篇文章主要介绍了Python利用爬虫爬取疫情数据并进行可视化的展示,文中的示例代码讲解清晰,对工作或学习有一定的价值,需要的朋友可以参考一下.编程资料点击领取 目录 知识点 开发环境 爬虫完整代码 ...
- python爬虫爬取知网
python爬虫爬取知网 话不多说,直接上代码! import requests import re import time import xlrd from xlrd import open_wor ...
- python爬虫代码实例-Python爬虫爬取百度搜索内容代码实例
这篇文章主要介绍了Python爬虫爬取百度搜索内容代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 搜索引擎用的很频繁,现在利用Python爬 ...
- python爬虫数据分析可以做什么-python爬虫爬取的数据可以做什么
在Python中连接到多播服务器问题,怎么解决你把redirect关闭就可以了.在send时,加上参数allow_redirects=False 通常每个浏览器都会设置redirect的次数.如果re ...
- Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频 喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
最新文章
- 《软件设计精要与模式》第二版源代码
- 构建高可用LVS + keepalived+httpd和双主模型的keepalived方案
- 用户自定义的标识符的一些注意事项
- python好多模块和c相识_快速实现python c扩展模块
- 在清华听演讲系列音频下载地址收集
- EfficientNet论文阅读笔记
- jQuery.extend()方法
- Python __call__()方法
- 12v小型电机型号大全_鄂破碎机型号大全图,小型鄂破碎机价格
- python实战讲解_Python数据可视化实战讲解
- 典型电商网站的站点导航的布局结构实现,及运用三种方式实现下拉效果
- word正在等候其他应用程序完成OLE操作
- 【软件工程导论】软件工程学概述
- 如何发现隐藏的Webshell后门
- 小程序实现扫描二维码带着参数跳转到另外一个页面,实现对mysql数据库访问,并通过表格形式实现
- 1月22日更新-近期200+热门微信小程序demo源码下载汇总
- QString 中文编码转换
- Gartner2021年网络技术成熟度曲线
- oracle 12c 归档模式,Oracle 12c 归档模式更改
- python3 迭代器(自定义迭代器)