原标题:python爬虫-韩寒新浪博客博文

欢迎关注天善智能 hellobi.com,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习、问答、求职,一站式搞定!

对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴趣的同学加微信:tstoutiao,邀请你进入数据爱好者交流群,数据爱好者们都在这儿。

博客地址:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html

爬第一页博文

#-*-coding:utf-

8

-*-

import re#导入正则表达式模块

import urllib#导入urllib库 url=

'

http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html

'#第一页博文地址

response =

urllib.urlopen(url)#通过urllib库中的urlopen()函数来访问这个url#这里省略了构建request请求这一步

html = response.read()

#读取出来存在html这个变量当中,到这里也就完成了html的爬取

#print(html)

#这里可以将爬取到的html输出到终端 pattern = re.compile(

'

(.*?)

'

,re.S)#通过正则表达式来匹配 blog_address =

re.findall(pattern,html)#通过findall函数从爬取到的html中找出所要的内容

for i

in

blog_address: print(i[

0

])#输出第一个分组的内容即博客博文地址 print(i[

1

])#输出第二个分组的内容即博文标题

部分结果如下:

所遇到的问题:1爬取的结果多了两个,第一个和最后一个不是所要的内容?

2 输出结果的时候用print(i[0],i[1])出现乱码,这是为什么?

通过while循环来解决多页的问题

#-*

-coding:utf-

8

-*-

import re

import urllib

page=

1

while

page<=

7

:

url=

'

http://blog.sina.com.cn/s/articlelist_1191258123_0_

'

+str(page)+

'

.html

'

#url=

'

http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html

'

response =

urllib.urlopen(url)

html = response.read().decode(

'

utf-8

'

)

#print(html)

pattern = re.compile(

'

(.*?)

'

,re.S)

blog_address =

re.findall(pattern,html)

print(i[

0

])

print(i[

1

])

page = page +

1

结果最后部分如下图:

天善学院svip包含Excel BI、Python爬虫案例、Python机器学习、Python数据科学家、大数据、数据分析报告、数据分析师体系、深度学习、R语言案例10套课程火爆报名中,欢迎大家关注 www.hellobi.com/svip

转载请保留以下内容:

本文来源自天善社区邬家栋老师的博客(公众号)。

原文链接:https://ask.hellobi.com/blog/wujiadong/9392返回搜狐,查看更多

责任编辑:

python爬取新浪博客_python爬虫-韩寒新浪博客博文相关推荐

  1. python爬取微博评论点赞数_python 爬虫 爬微博 分析 数据

    python 爬虫 爬微博分析 数据 最近刚看完爱情公寓5,里面的大力也太好看了吧... 打开成果的微博,小作文一样的微博看着也太爽了吧... 来 用python分析分析 狗哥这几年微博的干了些啥. ...

  2. python爬取知网论文关键词_Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】...

    搜索出来的结果和知网上的结果几乎一样,另外以后面试找Python工作,项目经验展示是核心,如果你缺项目练习,去小编的Python交流.裙 :一久武其而而流一思(数字的谐音)转换下可以找到了,里面很多新 ...

  3. python 爬取贝壳网小区名称_Python爬虫实战:爬取贝壳网二手房40000条数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于啤酒就辣条 ,作者啤酒就辣条 一.网页分析 爬取贝壳网石家庄二 ...

  4. python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据

    1 网络爬虫 引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 简单的说,就是有一个程序可以自动去访问网页. 2 Python爬虫 如何实现爬虫? 简单的讲,一共 ...

  5. python爬取58同城租房信息_python爬虫:找房助手V1.0-爬取58同城租房信息(示例代码)...

    #!/usr/bin/python # -*- encoding:utf-8 -*-importrequests frombs4 importBeautifulSoup frommultiproces ...

  6. python爬取b站搜索结果_Python爬虫实例:爬取猫眼电影——破解字体反爬,Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取,Python爬虫实例:爬取豆瓣Top250...

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  7. python爬取豆瓣电影信息可行性分析_Python爬虫实现的根据分类爬取豆瓣电影信息功能示例...

    本文实例讲述了Python爬虫实现的根据分类爬取豆瓣电影信息功能.分享给大家供大家参考,具体如下: 代码的入口:if __name__ == '__main__': main()#! /usr/bin ...

  8. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  9. python爬取饿了么订单_python爬虫:爬取某图外卖数据有这篇文章就够了

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进阶者 ( 想要学习Python?Pyth ...

  10. python爬取京东商品价格教科书中文版_Python爬虫,京东商品详情爬取!

    最近因需求需要,需要到京东爬取一些类别的商品信息.记录下过程中踩过的坑,最后奉献上全部代码.仅供互相学习,如有错误请指正~~京东网页翻页. 京东的页面是打开时先加载前30个商品,浏览到下面时再加载另3 ...

最新文章

  1. MindSpore数据集mindspore::dataset
  2. Qt5开发及实例学习之文件系统浏览
  3. 标量子查询产生的SQL性能瓶颈,该怎么合理优化?
  4. html 整个页面变灰
  5. 基于struts2,hibernate的小javaweb项目
  6. GPS Essentials
  7. k52zip shell band 流氓软件总是显示~
  8. 天津铁路警方打击倒票专项行动破案19起 抓获19人
  9. LabView学习笔记(五):数据类型综合实验
  10. html 图片的缩略图,纯CSS制作缩略图片
  11. 深度报告 | 4G应用启示录与5G应用展望
  12. 自动更新程序源码下载(C#.Net)
  13. 基于SpringBoot的毕业设计题目
  14. 罗永浩微博发声,锤子或再出新一代坚果手机?
  15. windowsmobile 综合 注册表修改 CSDN 推荐tag:mp3 storage gprs 注册表 文件
  16. Eclipse下更新项目出现.settings/org.eclipse.wst.common.component冲突
  17. 如何将图片放大不改变清晰度?
  18. HTML/CSS中如何保留页面中的空格?
  19. TIA Portal 博图 博途 安装问题汇总
  20. 【转】BIOS刷新工具使用手册

热门文章

  1. 【计算机视觉】数字图像处理(五)—— 图像的退化与复原
  2. linux查看 网卡信息
  3. 均匀试验设计表格的问题
  4. 大势至监控服务器共享文件系统,大势至局域网共享文件监控NAS文件设置的方法...
  5. SQL查询中笛卡尔积的巧妙使用(文末福利)
  6. hashmap自定义排序java,如何在Java中对HashMap进行排序
  7. 五年级上册用计算机探索规律思维导图,五年级上册数学第一单元思维导图 包括小数乘整数小数乘小数积的...
  8. Python怎么安装jieba库?
  9. AODV的设计思路和现有的各种解决方案的优缺点
  10. QCC频率校准工具定频