python爬虫吧-python爬虫-贴吧
#!/usr/bin/python
# coding=utf-8
# 作者 :Y0010026
# 创建时间 :2018/12/16 15:33
# 文件 :spider_03.py
# IDE :PyCharm
import urllib2 # 用于进行中文编码
import urllib # 用于进行爬虫核心处理
def load_url(url, file_name):
'''
作用:针对指定的url地址,进行数据的获取
:param url: 需要爬取的具体url地址
:param file_name: 要保存的文件名称;在当前函数中,只做提示使用
:return: 爬取的数据
'''
print ('开始爬取%s的内容' % file_name)
# 爬取程序
my_headers = {
'User-Agent': 'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'
}
requset = urllib2.Request(url, headers=my_headers)
content = urllib2.urlopen(requset).read()
print ('爬取%s的内容完成!' % file_name)
return content
def save_data(data, file_name):
'''
作用:主要用于进行数据存储
:param data: 要存储的数据
:param file_name: 要存储的文件名称
:return: 无
'''
print ('开始保存%s的内容' % file_name)
with open(file_name, 'w') as f:
f.write(data)
print ('保存%s的内容完成!' % file_name)
# 定义函数,进行爬虫的核心处理功能
def spider(url, kw, begin, end):
'''
作用:用于进行核心爬虫功能的调度
:param url: 要爬取的地址
:param kw: 贴吧名称
:param begin: 起始页码
:param end: 结束页码
:return: 无
'''
for page in range(begin, end + 1):
# 计算需要的页码
pn = (page - 1) * 50
# 进行kw参数的编码
kw = urllib.urlencode({'kw': kw})
# 拼接url地址
full_url = url + kw + '&pn=' + str(pn)
# 定义一个保存文件的名称
file_name = '网页' + str(page) + '.html'
# 开始爬取数据
html = load_url(full_url, file_name)
# 保存数据到文件
save_data(html, file_name)
# 主程序运行入口
if __name__ == '__main__':
# 用户数据相关数据
url = "http://tieba.baidu.com/f?"
kw = raw_input('请输入要爬取的贴吧名称:')
begin = int(raw_input('请输入开始页码:'))
end = int(raw_input('请输入结束页码:'))
# 调用爬虫开始执行
spider(url, kw, begin, end)
python爬虫吧-python爬虫-贴吧相关推荐
- python 获取用户ip_Python爬虫教程:你还在苦苦拉票吗?刷票小程序案例原理剖析!...
你还在苦苦拉票吗? 前言 剖析投票原理 处理思路 具体实战 主要流程 具体细节python 代码实例python 具体细节java 代码实现java 总结 点击此处,获取海量Python学习资料! 前 ...
- 零基础自学用Python 3开发网络爬虫(一)
原文出处: Jecvay Notes (@Jecvay) 由于本学期好多神都选了Cisco网络课, 而我这等弱渣没选, 去蹭了一节发现讲的内容虽然我不懂但是还是无爱. 我想既然都本科就出来工作还是按照 ...
- 【python教程入门学习】Python零基础入门爬虫项目
Python入门爬虫项目 这是我的第一个python项目,分享给大家. 需求 我们目前正在开发一款产品其功能大致是:用户收到短信如:购买了电影票或者火车票机票之类的事件.然后app读取短信,解析短信, ...
- 起薪2万的爬虫工程师, Python需要学到什么程度才可以就业?
做爬虫工程师的的薪资为20K起,当然,因为大数据,薪资也将一路上扬.那么,Python需要学到什么程度呢?今天我们来看看3位前辈的回答. 1.前段时间快要毕业,而我又不想找自己的老本行Java开发了, ...
- python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...
- 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型
Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...
- 大佬带你详解Python反爬虫措施以及爬虫编写注意事项
Python爬虫开发:反爬虫措施以及爬虫编写注意事项 反爬虫的几重措施 1.IP限制 如果是个人编写的爬虫,IP可能是固定的,那么发现某个IP请求过于频繁并且短时间内访问大量的页面,有爬虫的嫌疑,作为 ...
- 洗礼灵魂,修炼python(70)--爬虫篇—补充知识:json模块
在前面的某一篇中,说完了pickle,但我相信好多朋友都不懂到底有什么用,那么到了爬虫篇,它就大有用处了,而和pickle很相似的就是JSON模块 JSON 1.简介 1)JSON(JavaScrip ...
- 2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会
2019独角兽企业重金招聘Python工程师标准>>> 阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算.大数据技能. 在第一批上线的课程中,有一个Python爬虫的 ...
- python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...
廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...
最新文章
- pandas使用dropna函数计算返回dataframe中不包含缺失值的行索引列表list(index of rows without missing values in dataframe)
- oracle完全删除实例
- .Net软件测试化之道 [James D.MCCaffrey]
- 深度学习NCHW和NHWC数据格式(由三维数据转换成一维数据的遍历方式)
- 学习OpenStack之 (4): Linux 磁盘、分区、挂载、逻辑卷管理 (Logical Volume Manager)
- Android-入门学习笔记-图片和外观改善
- VBA中 各种数据类型的使用(自定义数据类型Type,数组,数据字典)、读写文件
- FFmpeg源代码简单分析:configure
- Javascript:运行机制与原理
- 《Visual C# 从零开始学》
- 数组模拟栈解决括号匹配
- 三种1:4传输线变压器巴伦的分析
- mysql mpm_Zabbix和MPM监控MySQL
- eclipse安装程序没反应
- Chrome快捷键,电脑高手都这样用
- android 字体倒影,Android实现图片的倒影效果
- 读书笔记 《拆掉思维里的墙》
- 俞渝手撕李国庆:他是同性恋,李回应:变态精神病患者!大量细节惊呆网友...
- windows server2012安装web服务以及运行asp
- php 自动下载apk,Android 下载apk 自动 安装