[python] view plaincopy
  1. # -*- coding: utf-8 -*-
  2. #---------------------------------------
  3. #   程序:百度贴吧爬虫
  4. #   版本:0.1
  5. #   作者:why
  6. #   日期:2013-05-14
  7. #   语言:Python 2.7
  8. #   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
  9. #   功能:下载对应页码内的所有页面并存储为html文件。
  10. #---------------------------------------
  11. import string, urllib2
  12. #定义百度函数
  13. def baidu_tieba(url,begin_page,end_page):
  14. for i in range(begin_page, end_page+1):
  15. sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
  16. print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'
  17. f = open(sName,'w+')
  18. m = urllib2.urlopen(url + str(i)).read()
  19. f.write(m)
  20. f.close()
  21. #-------- 在这里输入参数 ------------------
  22. # 这个是山东大学的百度贴吧中某一个帖子的地址
  23. #bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
  24. #iPostBegin = 1
  25. #iPostEnd = 10
  26. bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
  27. begin_page = int(raw_input(u'请输入开始的页数:\n'))
  28. end_page = int(raw_input(u'请输入终点的页数:\n'))
  29. #-------- 在这里输入参数 ------------------
  30. #调用
  31. baidu_tieba(bdurl,begin_page,end_page)

[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫相关推荐

  1. 一个简单的百度爬虫实例

    一个简单的百度爬虫实例 最近在百度aistdio自学课程,看到一个基础课程的作业是爬取百度上<青春有你>选手信息,索性就跟着爬了一下,复习一下自己去年自学的已经忘得差不多的爬虫. 直接上代 ...

  2. Python编写一个简单的百度搜索应用

    由于天气因素,无法外出,在家闲来无事,使用Python编写一个简单的百度搜索应用. 功能:打开默认浏览器,使用百度进行搜索 Python:2.7.13 第三方库:pyinstaller(打包软件) 工 ...

  3. python程序30行_30行Python代码,打造一个简单的微信群聊助手,简单方便

    大家都知道,最近代码君迷上了Python,一直在研究这门语言,还是那句话,人生苦短,我学Python,今天代码君要教大家一个黑科技,30行代码实现自己定制的微信群聊助手,这个助手有什么用呐,就是用来活 ...

  4. 【Python】潜水小白,分享一个简单基础的tkinter的猜拳小游戏

    潜水小白,分享一个简单基础的tkinter的猜拳小游戏 没什么技巧,代码如下,喜欢的可以试验一下. 图片是我自己的,可一手动换成你想要的(tkinter默认好像支持gif格式的,其它好像要转换一下,另 ...

  5. 数字信号 fft c源码_如何制作一个简单的人体动态识别微信小程序(附源码)

    知乎小白第一次写专栏,还请多指教. 先放成果. GitHub源码: lrioxh/HAR-applet-of-Wechat​github.com b站演示视频: 居然不需要服务器?!如何制作一个简单的 ...

  6. 【Python爬虫】一个简单的网络爬虫

    网页结构的相似性 爬虫的目的,是从网站中 自动化 的 批量 提取数据. 首先尝试完成以下操作: 从以下链接中提取电影的标题和标题后的年份: https://movie.douban.com/subje ...

  7. 多线程爬虫python_一个简单的多线程Python爬虫

    最近想要抓取拉勾网的数据,最开始是使用Scrapy的,但是遇到了下面两个问题: 前端页面是用JS模板引擎生成的 接口主要是用POST提交参数的 目前不会处理使用JS模板引擎生成的HTML页面,用POS ...

  8. python ip动态代理_给自己的爬虫做一个简单的动态代理池

    使用代理服务器一直是爬虫防BAN最有效的手段,但网上的免费代理往往质量很低,大部分代理完全不能使用,剩下能用的代理很多也只有几分钟的寿命,没法直接用到爬虫项目中. 下面简单记录一下我用scrapy+r ...

  9. Python【小游戏合集】之自己做一个简单又好玩的推箱子小游戏

    导语:哈喽铁汁们~今日游戏之旅开始! 想领取完整源码跟python学习资料可私信我或点击这行字体 这期就是带大家使用当前主流且易用的Python语言做一个简单的推箱子小游戏 现在小编的快乐源泉就是玩自 ...

最新文章

  1. python 多线程及线程间通信
  2. 读书笔记《Hadoop开源云计算平台》
  3. 【迁移学习(Transfer L)全面指南】元学习
  4. 零基础python入门书籍-零基础学Python,不容错过的入门书籍
  5. 左手菲尔兹右手突破奖,这个中国女婿其实是英国贵族?拿到300万奖金后他这样说……...
  6. 感知器 机器学习_机器学习感知器实现
  7. MS CRM 2011 Field Security Profile
  8. HyperLedger/Fabric JAVA-SDK with 1.1
  9. maven的安装配置超详细教程【含nexus】
  10. vos3000怎样使用 IVR 语音流程跟踪分析
  11. 驱动上下游高效协同,跨境B2B电商平台如何释放LED产业供应链核心价值
  12. 点云配准(四) 四元数与旋转变换
  13. 异常:java.lang.IllegalArgumentException: Result Maps collection already contains
  14. spark出现crossJoin笛卡尔积报错异常解决use the CROSS JOIN syntax to allow cartesian products between these
  15. Mac电脑Finder侧边栏不显示iCloud云盘怎么办?
  16. 玩转AR,让电商营销锦上添花
  17. 【论文阅读】自然语言生成(NLG)——基于plan思想的Data2Text任务实现
  18. 夜来风雨声,对象知多少。
  19. 百度文字转语音Api,文字长度限制问题
  20. python三国演义人物 统计分析_python统计三国演义人物出场次数

热门文章

  1. excel营销数据分析宝典 pdf_你见过最漂亮的 Excel 表格什么样?
  2. 监督学习 | CART 分类回归树原理
  3. mac hosts文件已锁定无法修改怎么办?hosts修改权限设置教程
  4. linux启动大叶机制,DPDK-Suricata应用部署
  5. jmeter mysql驱动jar包_用 Jmeter 做 Web 接口测试
  6. 第十三届蓝桥杯青少年STEMA(2021.08-2021.03)C++
  7. 信息学奥赛一本通 提高篇 第一部分 基础算法 第2章 二分与三分
  8. oracle 中此处列不允许,oracle-序列 ora-02287 此处不允许序号
  9. STM32H743+CubeMX-ADC+DMA采样四路AD
  10. 隐藏的iscroll元素显示后不能滚动问题