这几天一直在学用python爬网页 , 现在是用urllib2,cookie等模块获取了csdn的博客源码,然后打算把所有博客都保存到本地;这就涉及到了解析html, 由于对正则的理解不太深。。。就用了第三方工具模块:美丽的汤---BeautifulSoup  ,可以自己百度安装,使用教程,很容易上手: 代码不健壮。。主要是容易出现乱码。。 有时候遇到全角的时候也会出bug,以后再完善吧。

先贴张保存到本地的图:

源码如下:希望那里写的不好,多多指正。。一块学习。PS:后来才知道,这可以刷访问量(非本意。。。)

# -*- coding: utf-8 -*-

import urllib,urllib2,cookielib,re,socket

import os,sys,time

from bs4 import BeautifulSoup

#防止编码乱码#

reload(sys)

sys.setdefaultencoding('utf-8')

####

url='http://blog.csdn.net/shomy_liu'# csdn的账号

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0'

}

#读取htmml

def login(url=url):

#socket.setdefaulttim #单位为秒

time.sleep(0.5)# 防止封IP

req= urllib2.Request(url=url,headers=headers)

return urllib2.urlopen(req).read()

state=True

html=login()

while state:

soup=BeautifulSoup(html)

articals=soup.findAll('div',{'class' : 'list_item article_item'})

for artical in articals:

title=artical.find('a')

artical_url='http://blog.csdn.net/'+title['href']

s=title.text.replace('\r\n',' ')#去掉回车符

print s

s=s.lstrip()#去掉首空格

s=s.rstrip()#去掉尾空格

f=file("D:\\study\\python\\py\\csdn_blog\\shomy_liu\\"+s+'.htm', 'w')#保存的目录

f.write(login(artical_url))

f.close()

#print artical_url

##换页转换

pagelist= soup.find(name='div',id='papelist')

next=pagelist.findAll('a')

state=False

for i in next :

if i.text.encode('utf-8')==str('下一页') :

url='http://blog.csdn.net/'+i['href']

html=login(url)

state=True

break;

苹果笔记本python爬取网页后怎么存下来_python 爬取csdn网页并保存博客到本地相关推荐

  1. python爬取网页上的特定链接_python 用bs4解析网页后,如何循环打开爬取出来的网址链接?...

    请问,用beautiful soup爬取特定网页后提取tag 'a',抓取里面的网址,打开特定的网址,循环特定次数,最后打印出想要的网址,如何操作? 详细的要求如下图: 我的代码如下: import ...

  2. 将csdn的博客爬取到本地并输出为jekyll可解析的markdown格式,同时保存博客的图片到本地

    前言 在Github Pages搭建个人博客时利用 Jekyll 生成站点,Jekyll是一个静态站点生成器,可以根据Markdown文件自动生成静态的html文件.且Github Pages 支持托 ...

  3. python自动输入账号密码_Python如何基于selenium实现自动登录博客园

    这篇文章主要介绍了Python如何基于selenium实现自动登录博客园,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 需要做的准备: 本文章是使用 ...

  4. python爬虫小说下载到txt文档_python 爬取网络小说 清洗 并下载至txt文件

    什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引.网络爬虫可以 ...

  5. python爬携程上出境游数据_python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  6. python好用的库存尾货女装_Python抓取淘宝女装信息(一)

    本次实战案例以抓取淘宝上连衣裙信息为切入点,共抓取4356件连衣裙产品信息.在此基础上进行初步分析.这里首先感谢@大宇,后期的数据处理与图表制作全靠大神帮助.下面我们进入正式介绍环节. 淘宝.京东.链 ...

  7. python博客下载本地文件_解决django无法访问本地static文件(js,css,img)网页里js,cs都加载不了...

    1.今天网上下载一个博客项目,发现本地访问,js,css加载不了. 我想应该是项目上线的安全措施,但是我想调试项目.找到方法如下 在settings.py里面编辑 添加 STATICFILES_DIR ...

  8. python博客下载本地文件_Linux CentOS6安装Git、Node.js及Hexo静态博客安装和使用方法...

    有些时候,我们有听到或者看到某个技术很希望自己也能尝试一下,即便我们没有项目需求,但接触过后以后还可以跟别人吹嘘这个技术我玩过,具体能否玩的精通都无所谓,至少我们可以体验到其中的乐趣.这不,这几天有接 ...

  9. 网页视频播放器代码大全 + 21个为您的站点和博客提供的免费视频播放器

    推荐 使用 极酷 Web在线播放器. 网页中嵌入视频代码综合全然版 1.avi格式 代码片断例如以下: 程序代码 <objectid="video"width="4 ...

  10. 学生网页设计与制作成品 HTML5+CSS大作业——黑色主题个人博客(5页) 网页设计期末作业个人主页

    HTML5+CSS大作业--黑色主题个人博客(5页) 网页设计期末作业个人主页 常见网页设计作业题材有 个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. 茶叶. 家居. 酒店. 舞蹈. ...

最新文章

  1. 关于网站URL转码的问题
  2. 如何将本地代码上传到GitHub
  3. 使用windbg排查一个内存溢出的问题
  4. 变量声明和函数声明的意义详解
  5. OpenCV文档阅读笔记-brief Creates a window官方解析及实例
  6. 如何在 Laravel 中使用锁
  7. 面试了二十多个人,终于定下来一个
  8. Kotlin 的优点
  9. linux 查看网卡名字
  10. mmsi是代表船舶什么_船舶常见的一些缩写
  11. 数据分析项目实战——链家深圳二手房房源数据分析
  12. 【dedecms】DedeCms的搜索引擎优化方法小结
  13. 南开计算机考研难么,我的一点考研心得
  14. webrtc 快速搭建 视频通话 视频会议
  15. 服务器登陆之后一直转无法显示桌面,如何解决远程登录Windows服务器无法显示桌面的问题?...
  16. Android 集成QQ登录,获取头像与昵称
  17. 软件测试岗位考核指标,(最新整理)测试人员考核标准
  18. 攻防世界crypto高手题之best_rsa
  19. java扰码器_扰码器的实现(一)
  20. 尼甘布 小渔村的惬意生活

热门文章

  1. 随手记_论文读写策略
  2. 重磅!泰晤士发布重量级学科排名,90所中国大陆高校上榜!
  3. git rebase -i之我见
  4. [NOIP2015] 运输计划
  5. Linux 安装MongoDB 并设置防火墙,使用远程客户端访问
  6. [Leetcode] Climbing Stairs
  7. 版本控制工具比较-CVS,SVN,GIT
  8. Oracle11gR1中细粒度访问网络服务(转)
  9. 智能优化算法(源码)-生物地理学算法(Biogeography-Based Optimization,BBO)
  10. Pointer Networks简介及其应用(格式化)