python爬取新浪博客_python爬虫-韩寒新浪博客博文
原标题:python爬虫-韩寒新浪博客博文
欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!
对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。
博客地址:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
爬第一页博文
#-*-coding:utf-
8
-*-
import re#导入正则表达式模块
import urllib#导入urllib库 url=
'
http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
'#第一页博文地址
response =
urllib.urlopen(url)#通过urllib库中的urlopen()函数来访问这个url#这里省略了构建request请求这一步
html = response.read()
#读取出来存在html这个变量当中,到这里也就完成了html的爬取
#print(html)
#这里可以将爬取到的html输出到终端 pattern = re.compile(
'
(.*?)
'
,re.S)#通过正则表达式来匹配 blog_address =
re.findall(pattern,html)#通过findall函数从爬取到的html中找出所要的内容
for i
in
blog_address: print(i[
0
])#输出第一个分组的内容即博客博文地址 print(i[
1
])#输出第二个分组的内容即博文标题
部分结果如下:
所遇到的问题:1爬取的结果多了两个,第一个和最后一个不是所要的内容?
2 输出结果的时候用print(i[0],i[1])出现乱码,这是为什么?
通过while循环来解决多页的问题
#-*
-coding:utf-
8
-*-
import re
import urllib
page=
1
while
page<=
7
:
url=
'
http://blog.sina.com.cn/s/articlelist_1191258123_0_
'
+str(page)+
'
.html
'
#url=
'
http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
'
response =
urllib.urlopen(url)
html = response.read().decode(
'
utf-8
'
)
#print(html)
pattern = re.compile(
'
(.*?)
'
,re.S)
blog_address =
re.findall(pattern,html)
print(i[
0
])
print(i[
1
])
page = page +
1
结果最后部分如下图:
天善学院svip包含Excel BI、Python爬虫案例、Python机器学习、Python数据科学家、大数据、数据分析报告、数据分析师体系、深度学习、R语言案例10套课程火爆报名中,欢迎大家关注 www.hellobi.com/svip
转载请保留以下内容:
本文来源自天善社区邬家栋老师的博客(公众号)。
原文链接:https://ask.hellobi.com/blog/wujiadong/9392返回搜狐,查看更多
责任编辑:
python爬取新浪博客_python爬虫-韩寒新浪博客博文相关推荐
- python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据
python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...
- python爬取知网论文关键词_Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】...
搜索出来的结果和知网上的结果几乎一样,另外以后面试找Python工作,项目经验展示是核心,如果你缺项目练习,去小编的Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面很多新 ...
- python 爬取贝壳网小区名称_Python爬虫实战:爬取贝壳网二手房40000条数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...
- python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据
1 网络爬虫 引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫 如何实现爬虫? 简单的讲,一共 ...
- python爬取58同城租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息(示例代码)...
#!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...
- python爬取b站搜索结果_Python爬虫实例:爬取猫眼电影——破解字体反爬,Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取,Python爬虫实例:爬取豆瓣Top250...
字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
- python爬取豆瓣电影信息可行性分析_Python爬虫实现的根据分类爬取豆瓣电影信息功能示例...
本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口:if __name__ == '__main__': main()#! /usr/bin ...
- python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
- python爬取饿了么订单_python爬虫:爬取某图外卖数据有这篇文章就够了
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...
- python爬取京东商品价格教科书中文版_Python爬虫,京东商品详情爬取!
最近因需求需要,需要到京东爬取一些类别的商品信息.记录下过程中踩过的坑,最后奉献上全部代码.仅供互相学习,如有错误请指正~~京东网页翻页. 京东的页面是打开时先加载前30个商品,浏览到下面时再加载另3 ...
最新文章
- MindSpore数据集mindspore::dataset
- Qt5开发及实例学习之文件系统浏览
- 标量子查询产生的SQL性能瓶颈,该怎么合理优化?
- html 整个页面变灰
- 基于struts2,hibernate的小javaweb项目
- GPS Essentials
- k52zip shell band 流氓软件总是显示~
- 天津铁路警方打击倒票专项行动破案19起 抓获19人
- LabView学习笔记(五):数据类型综合实验
- html 图片的缩略图,纯CSS制作缩略图片
- 深度报告 | 4G应用启示录与5G应用展望
- 自动更新程序源码下载(C#.Net)
- 基于SpringBoot的毕业设计题目
- 罗永浩微博发声,锤子或再出新一代坚果手机?
- windowsmobile 综合 注册表修改 CSDN 推荐tag:mp3 storage gprs 注册表 文件
- Eclipse下更新项目出现.settings/org.eclipse.wst.common.component冲突
- 如何将图片放大不改变清晰度?
- HTML/CSS中如何保留页面中的空格?
- TIA Portal 博图 博途 安装问题汇总
- 【转】BIOS刷新工具使用手册
热门文章
- 【计算机视觉】数字图像处理(五)—— 图像的退化与复原
- linux查看 网卡信息
- 均匀试验设计表格的问题
- 大势至监控服务器共享文件系统,大势至局域网共享文件监控NAS文件设置的方法...
- SQL查询中笛卡尔积的巧妙使用(文末福利)
- hashmap自定义排序java,如何在Java中对HashMap进行排序
- 五年级上册用计算机探索规律思维导图,五年级上册数学第一单元思维导图 包括小数乘整数小数乘小数积的...
- Python怎么安装jieba库?
- AODV的设计思路和现有的各种解决方案的优缺点
- QCC频率校准工具定频