[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- # -*- coding: utf-8 -*-
- #---------------------------------------
- # 程序:百度贴吧爬虫
- # 版本:0.1
- # 作者:why
- # 日期:2013-05-14
- # 语言:Python 2.7
- # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数。
- # 功能:下载对应页码内的所有页面并存储为html文件。
- #---------------------------------------
- import string, urllib2
- #定义百度函数
- def baidu_tieba(url,begin_page,end_page):
- for i in range(begin_page, end_page+1):
- sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名
- print '正在下载第' + str(i) + '个网页,并将其存储为' + sName + '......'
- f = open(sName,'w+')
- m = urllib2.urlopen(url + str(i)).read()
- f.write(m)
- f.close()
- #-------- 在这里输入参数 ------------------
- # 这个是山东大学的百度贴吧中某一个帖子的地址
- #bdurl = 'http://tieba.baidu.com/p/2296017831?pn='
- #iPostBegin = 1
- #iPostEnd = 10
- bdurl = str(raw_input(u'请输入贴吧的地址,去掉pn=后面的数字:\n'))
- begin_page = int(raw_input(u'请输入开始的页数:\n'))
- end_page = int(raw_input(u'请输入终点的页数:\n'))
- #-------- 在这里输入参数 ------------------
- #调用
- baidu_tieba(bdurl,begin_page,end_page)
[Python]网络爬虫(六):一个简单的百度贴吧的小爬虫相关推荐
- 一个简单的百度爬虫实例
一个简单的百度爬虫实例 最近在百度aistdio自学课程,看到一个基础课程的作业是爬取百度上<青春有你>选手信息,索性就跟着爬了一下,复习一下自己去年自学的已经忘得差不多的爬虫. 直接上代 ...
- Python编写一个简单的百度搜索应用
由于天气因素,无法外出,在家闲来无事,使用Python编写一个简单的百度搜索应用. 功能:打开默认浏览器,使用百度进行搜索 Python:2.7.13 第三方库:pyinstaller(打包软件) 工 ...
- python程序30行_30行Python代码,打造一个简单的微信群聊助手,简单方便
大家都知道,最近代码君迷上了Python,一直在研究这门语言,还是那句话,人生苦短,我学Python,今天代码君要教大家一个黑科技,30行代码实现自己定制的微信群聊助手,这个助手有什么用呐,就是用来活 ...
- 【Python】潜水小白,分享一个简单基础的tkinter的猜拳小游戏
潜水小白,分享一个简单基础的tkinter的猜拳小游戏 没什么技巧,代码如下,喜欢的可以试验一下. 图片是我自己的,可一手动换成你想要的(tkinter默认好像支持gif格式的,其它好像要转换一下,另 ...
- 数字信号 fft c源码_如何制作一个简单的人体动态识别微信小程序(附源码)
知乎小白第一次写专栏,还请多指教. 先放成果. GitHub源码: lrioxh/HAR-applet-of-Wechatgithub.com b站演示视频: 居然不需要服务器?!如何制作一个简单的 ...
- 【Python爬虫】一个简单的网络爬虫
网页结构的相似性 爬虫的目的,是从网站中 自动化 的 批量 提取数据. 首先尝试完成以下操作: 从以下链接中提取电影的标题和标题后的年份: https://movie.douban.com/subje ...
- 多线程爬虫python_一个简单的多线程Python爬虫
最近想要抓取拉勾网的数据,最开始是使用Scrapy的,但是遇到了下面两个问题: 前端页面是用JS模板引擎生成的 接口主要是用POST提交参数的 目前不会处理使用JS模板引擎生成的HTML页面,用POS ...
- python ip动态代理_给自己的爬虫做一个简单的动态代理池
使用代理服务器一直是爬虫防BAN最有效的手段,但网上的免费代理往往质量很低,大部分代理完全不能使用,剩下能用的代理很多也只有几分钟的寿命,没法直接用到爬虫项目中. 下面简单记录一下我用scrapy+r ...
- Python【小游戏合集】之自己做一个简单又好玩的推箱子小游戏
导语:哈喽铁汁们~今日游戏之旅开始! 想领取完整源码跟python学习资料可私信我或点击这行字体 这期就是带大家使用当前主流且易用的Python语言做一个简单的推箱子小游戏 现在小编的快乐源泉就是玩自 ...
最新文章
- python 多线程及线程间通信
- 读书笔记《Hadoop开源云计算平台》
- 【迁移学习(Transfer L)全面指南】元学习
- 零基础python入门书籍-零基础学Python,不容错过的入门书籍
- 左手菲尔兹右手突破奖,这个中国女婿其实是英国贵族?拿到300万奖金后他这样说……...
- 感知器 机器学习_机器学习感知器实现
- MS CRM 2011 Field Security Profile
- HyperLedger/Fabric JAVA-SDK with 1.1
- maven的安装配置超详细教程【含nexus】
- vos3000怎样使用 IVR 语音流程跟踪分析
- 驱动上下游高效协同,跨境B2B电商平台如何释放LED产业供应链核心价值
- 点云配准(四) 四元数与旋转变换
- 异常:java.lang.IllegalArgumentException: Result Maps collection already contains
- spark出现crossJoin笛卡尔积报错异常解决use the CROSS JOIN syntax to allow cartesian products between these
- Mac电脑Finder侧边栏不显示iCloud云盘怎么办?
- 玩转AR,让电商营销锦上添花
- 【论文阅读】自然语言生成(NLG)——基于plan思想的Data2Text任务实现
- 夜来风雨声,对象知多少。
- 百度文字转语音Api,文字长度限制问题
- python三国演义人物 统计分析_python统计三国演义人物出场次数
热门文章
- excel营销数据分析宝典 pdf_你见过最漂亮的 Excel 表格什么样?
- 监督学习 | CART 分类回归树原理
- mac hosts文件已锁定无法修改怎么办?hosts修改权限设置教程
- linux启动大叶机制,DPDK-Suricata应用部署
- jmeter mysql驱动jar包_用 Jmeter 做 Web 接口测试
- 第十三届蓝桥杯青少年STEMA(2021.08-2021.03)C++
- 信息学奥赛一本通 提高篇 第一部分 基础算法 第2章 二分与三分
- oracle 中此处列不允许,oracle-序列 ora-02287 此处不允许序号
- STM32H743+CubeMX-ADC+DMA采样四路AD
- 隐藏的iscroll元素显示后不能滚动问题