[Python]简单抓取百度blog
#coding=utf8
#graptest1.py python2.7 2013.4.5
'''
单页里的列表匹配,单线程下载,html文件格式 完成一个原型 regex写的很烂。。
'''
import urllib,urllib2
import re,codecsurl =r'http://hi.baidu.com'
user = r'/lzz847915049'
page = urllib2.urlopen(url+user)
print url+user
pagecontent = page.read().decode('utf8')
r = r'<a href="([/a-zA-Z0-9]*?)" class="a-incontent a-title cs-contentblock-hoverlink"\starget=_blank>(.*?)</a>'
res = re.findall(r,pagecontent) #匹配到当前页的所有的文章的url
for i in res:print i[0],i[1] onepage = urllib2.urlopen(url+i[0])onepagecont = onepage.read().decode('utf8')filename=i[1]+'.html'f = codecs.open(filename,'w','utf-8') #默认当前路径了,使用codecs模块解决编码问题f.write(onepagecont)f.close()print i[1],u'下载完成'
研究了下别人的代码,写了一个最简单的模型,记录下
[Python]简单抓取百度blog相关推荐
- python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片
成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...
- Python爬虫抓取百度搜索图片
最近玩机器学习,想搞一个关于识别动漫图片的训练集,苦于没有太多的动漫图片,后来忽然想到百度图片可以拿来用,于是乎写了个简单的爬虫,用来抓取百度图片(关于某个关键字的图片) 第一步,找到搜索图片的url ...
- Python + PySpider 抓取百度图片搜索的图片
说明 1.PySpider 是一个方便并且功能强大的Python爬虫框架 2.PySpider 依赖于PhantomJS 3.windows平台,PySpider 与64位的Python兼容不太好,需 ...
- python爬取知乎live_Python爬虫 - 简单抓取百度指数
前言有点忙,没空写东西,这是之前写的,加了些配图而已 这次要爬的网站是百度指数 正文 一.分析 打开网站(百度指数),呈现出来是这样的 如果搜索的话就需要登陆了,如果没有什么特别频繁的请求的话,直接登 ...
- python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...
原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...
- python语言翻译-教你用Python抓取百度翻译
最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...
- python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享
这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...
- 教你用Python抓取百度翻译
最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...
- python爬取小说写入txt_零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版...
百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu. ...
最新文章
- CS0122 “AbstractUnpooledSlicedByteBuffer”不可访问,因为它具有一定的保护级别
- motan yar php,motan学习笔记 六 opentracing Brave+zipkin实现-Go语言中文社区
- ES6 模块化的基本语法——默认导出 与 默认导入、按需导出 与 按需导入、直接导入并执行模块代码
- 图像分割综述【深度学习方法】
- mysql查询活跃连接,mysql – 使用大量可能的连接进行查询的最佳方法
- android商店账号密码错误,安卓:我失去了我的安卓密钥商店,我该怎么办?
- idle显示出错信息 python_Life is short,you need Python——Python入门
- java 调度器怎么调用_OpenSymphony的Quartz里的作业、调度器使用举例
- 浅析error LNK2001: unresolved external symbol public: __thisc...
- K3CLOUD表关联
- xmlspy xsd生成java_利用XMLSPY根据XSD自动生成XML..doc
- Linux下的离线词典,Linux下星际译王离线词库
- 如何理性的从经济学角度看待“互联网寒冬”?
- decay_rate, decay_steps ,batchsize,iteration,epoch
- 易点易动助力达达-京东到家打通全集团固定资产数字化管理全链条
- 小乌龟提交本地的文件夹下多个项目
- 东邪西毒新编 (转)
- 聊一聊DNS劫持那些事
- 2.前端性能优化-web性能指标
- 一加android8稳定版,一加3更新最新资讯