苹果笔记本python爬取网页后怎么存下来_python 爬取csdn网页并保存博客到本地

这几天一直在学用python爬网页，现在是用urllib2，cookie等模块获取了csdn的博客源码，然后打算把所有博客都保存到本地；这就涉及到了解析html，由于对正则的理解不太深。。。就用了第三方工具模块：美丽的汤---BeautifulSoup ，可以自己百度安装，使用教程，很容易上手：代码不健壮。。主要是容易出现乱码。。有时候遇到全角的时候也会出bug，以后再完善吧。

先贴张保存到本地的图：

源码如下：希望那里写的不好，多多指正。。一块学习。PS：后来才知道，这可以刷访问量(非本意。。。)

# -*- coding: utf-8 -*-

import urllib,urllib2,cookielib,re,socket

import os,sys,time

from bs4 import BeautifulSoup

#防止编码乱码#

reload(sys)

sys.setdefaultencoding('utf-8')

####

url='http://blog.csdn.net/shomy_liu'# csdn的账号

headers={

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0'

}

#读取htmml

def login(url=url):

#socket.setdefaulttim #单位为秒

time.sleep(0.5)# 防止封IP

req= urllib2.Request(url=url,headers=headers)

return urllib2.urlopen(req).read()

state=True

html=login()

while state:

soup=BeautifulSoup(html)

articals=soup.findAll('div',{'class' : 'list_item article_item'})

for artical in articals:

title=artical.find('a')

artical_url='http://blog.csdn.net/'+title['href']

s=title.text.replace('\r\n',' ')#去掉回车符

print s

s=s.lstrip()#去掉首空格

s=s.rstrip()#去掉尾空格

f=file("D:\\study\\python\\py\\csdn_blog\\shomy_liu\\"+s+'.htm', 'w')#保存的目录

f.write(login(artical_url))

f.close()

#print artical_url

##换页转换

pagelist= soup.find(name='div',id='papelist')

next=pagelist.findAll('a')

state=False

for i in next :

if i.text.encode('utf-8')==str('下一页') :

url='http://blog.csdn.net/'+i['href']

html=login(url)

state=True

break;

苹果笔记本python爬取网页后怎么存下来_python 爬取csdn网页并保存博客到本地相关推荐

python爬取网页上的特定链接_python 用bs4解析网页后，如何循环打开爬取出来的网址链接？...
请问,用beautiful soup爬取特定网页后提取tag 'a',抓取里面的网址,打开特定的网址,循环特定次数,最后打印出想要的网址,如何操作? 详细的要求如下图: 我的代码如下: import ...
将csdn的博客爬取到本地并输出为jekyll可解析的markdown格式，同时保存博客的图片到本地
前言在Github Pages搭建个人博客时利用 Jekyll 生成站点,Jekyll是一个静态站点生成器,可以根据Markdown文件自动生成静态的html文件.且Github Pages 支持托 ...
python自动输入账号密码_Python如何基于selenium实现自动登录博客园
这篇文章主要介绍了Python如何基于selenium实现自动登录博客园,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下需要做的准备: 本文章是使用 ...
python爬虫小说下载到txt文档_python 爬取网络小说清洗并下载至txt文件
什么是爬虫网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引.网络爬虫可以 ...
python爬携程上出境游数据_python爬取携程旅游评价信息词云图分析
python爬取携程旅游评价信息词云图分析前言前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫一键爬取携程旅游团数据这一篇呢,咱 ...
python好用的库存尾货女装_Python抓取淘宝女装信息（一）
本次实战案例以抓取淘宝上连衣裙信息为切入点,共抓取4356件连衣裙产品信息.在此基础上进行初步分析.这里首先感谢@大宇,后期的数据处理与图表制作全靠大神帮助.下面我们进入正式介绍环节. 淘宝.京东.链 ...
python博客下载本地文件_解决django无法访问本地static文件(js,css,img)网页里js,cs都加载不了...
1.今天网上下载一个博客项目,发现本地访问,js,css加载不了. 我想应该是项目上线的安全措施,但是我想调试项目.找到方法如下在settings.py里面编辑添加 STATICFILES_DIR ...
python博客下载本地文件_Linux CentOS6安装Git、Node.js及Hexo静态博客安装和使用方法...
有些时候,我们有听到或者看到某个技术很希望自己也能尝试一下,即便我们没有项目需求,但接触过后以后还可以跟别人吹嘘这个技术我玩过,具体能否玩的精通都无所谓,至少我们可以体验到其中的乐趣.这不,这几天有接 ...
网页视频播放器代码大全 + 21个为您的站点和博客提供的免费视频播放器
推荐使用极酷 Web在线播放器. 网页中嵌入视频代码综合全然版 1.avi格式代码片断例如以下: 程序代码 <objectid="video"width="4 ...
学生网页设计与制作成品 HTML5+CSS大作业——黑色主题个人博客(5页) 网页设计期末作业个人主页
HTML5+CSS大作业--黑色主题个人博客(5页) 网页设计期末作业个人主页常见网页设计作业题材有个人. 美食. 公司. 学校. 旅游. 电商. 宠物. 电器. 茶叶. 家居. 酒店. 舞蹈. ...

苹果笔记本python爬取网页后怎么存下来_python 爬取csdn网页并保存博客到本地

苹果笔记本python爬取网页后怎么存下来_python 爬取csdn网页并保存博客到本地相关推荐

最新文章

热门文章