#coding=utf8
#graptest1.py  python2.7 2013.4.5
'''
单页里的列表匹配,单线程下载,html文件格式  完成一个原型 regex写的很烂。。
'''
import urllib,urllib2
import re,codecsurl =r'http://hi.baidu.com'
user = r'/lzz847915049'
page = urllib2.urlopen(url+user)
print url+user
pagecontent = page.read().decode('utf8')
r = r'<a href="([/a-zA-Z0-9]*?)" class="a-incontent a-title cs-contentblock-hoverlink"\starget=_blank>(.*?)</a>'
res = re.findall(r,pagecontent)  #匹配到当前页的所有的文章的url
for i in res:print i[0],i[1] onepage = urllib2.urlopen(url+i[0])onepagecont = onepage.read().decode('utf8')filename=i[1]+'.html'f = codecs.open(filename,'w','utf-8') #默认当前路径了,使用codecs模块解决编码问题f.write(onepagecont)f.close()print i[1],u'下载完成'
研究了下别人的代码,写了一个最简单的模型,记录下

[Python]简单抓取百度blog相关推荐

  1. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  2. Python爬虫抓取百度搜索图片

    最近玩机器学习,想搞一个关于识别动漫图片的训练集,苦于没有太多的动漫图片,后来忽然想到百度图片可以拿来用,于是乎写了个简单的爬虫,用来抓取百度图片(关于某个关键字的图片) 第一步,找到搜索图片的url ...

  3. Python + PySpider 抓取百度图片搜索的图片

    说明 1.PySpider 是一个方便并且功能强大的Python爬虫框架 2.PySpider 依赖于PhantomJS 3.windows平台,PySpider 与64位的Python兼容不太好,需 ...

  4. python爬取知乎live_Python爬虫 - 简单抓取百度指数

    前言有点忙,没空写东西,这是之前写的,加了些配图而已 这次要爬的网站是百度指数 正文 一.分析 打开网站(百度指数),呈现出来是这样的 如果搜索的话就需要登陆了,如果没有什么特别频繁的请求的话,直接登 ...

  5. python爬取百度贴吧中的所有邮箱_使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号...

    原标题:使用 Python 编写多线程爬虫抓取百度贴吧邮箱与手机号 不知道大家过年都是怎么过的,反正栏主是在家睡了一天,醒来的时候登QQ发现有人找我要一份贴吧爬虫的源代码,想起之前练手的时候写过一个抓 ...

  6. python语言翻译-教你用Python抓取百度翻译

    最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...

  7. python爬虫百度贴吧代码大全_零基础写python爬虫之抓取百度贴吧代码分享

    这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! # -*- coding: utf-8 -*- #------------------------- ...

  8. 教你用Python抓取百度翻译

    最近一直在一个平台学习Python,所以分享下课程里面抓取百度翻译的操作.原理其实也很简单,就是将浏览器请求的操作我们用python进行模拟,从而获取到返回的数据,我们将返回的数据进行提取,从而得到我 ...

  9. python爬取小说写入txt_零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版...

    百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu. ...

最新文章

  1. CS0122 “AbstractUnpooledSlicedByteBuffer”不可访问,因为它具有一定的保护级别
  2. motan yar php,motan学习笔记 六 opentracing Brave+zipkin实现-Go语言中文社区
  3. ES6 模块化的基本语法——默认导出 与 默认导入、按需导出 与 按需导入、直接导入并执行模块代码
  4. 图像分割综述【深度学习方法】
  5. mysql查询活跃连接,mysql – 使用大量可能的连接进行查询的最佳方法
  6. android商店账号密码错误,安卓:我失去了我的安卓密钥商店,我该怎么办?
  7. idle显示出错信息 python_Life is short,you need Python——Python入门
  8. java 调度器怎么调用_OpenSymphony的Quartz里的作业、调度器使用举例
  9. 浅析error LNK2001: unresolved external symbol public: __thisc...
  10. K3CLOUD表关联
  11. xmlspy xsd生成java_利用XMLSPY根据XSD自动生成XML..doc
  12. Linux下的离线词典,Linux下星际译王离线词库
  13. 如何理性的从经济学角度看待“互联网寒冬”?
  14. decay_rate, decay_steps ,batchsize,iteration,epoch
  15. 易点易动助力达达-京东到家打通全集团固定资产数字化管理全链条
  16. 小乌龟提交本地的文件夹下多个项目
  17. 东邪西毒新编 (转)
  18. 聊一聊DNS劫持那些事
  19. 2.前端性能优化-web性能指标
  20. 一加android8稳定版,一加3更新最新资讯

热门文章

  1. 读书感受 之 《冰与火之歌》
  2. tomcat报错405
  3. 医院微信系统服务器故障,80%的医院微信都有问题
  4. WEBRTC + vue 建立连接 本地测试
  5. 仁者乐山,智者乐水,吃货乐在北海道~
  6. 《出师表 》-英文版 苟全性命于乱世,不求闻达于诸侯
  7. python抓取视频_python实现超简单的视频对象提取功能
  8. 【C语言】数组知识点总结
  9. 鼠标右键编辑html文档,鼠标右键菜单编辑方法
  10. aardio - 写注册表改鼠标右键Kate菜单项信息