python爬虫吧-python爬虫-贴吧

#!/usr/bin/python

# coding=utf-8

# 作者 :Y0010026

# 创建时间 :2018/12/16 15:33

# 文件 :spider_03.py

# IDE :PyCharm

import urllib2 # 用于进行中文编码

import urllib # 用于进行爬虫核心处理

def load_url(url, file_name):

'''

作用：针对指定的url地址，进行数据的获取

:param url: 需要爬取的具体url地址

:param file_name: 要保存的文件名称；在当前函数中，只做提示使用

:return: 爬取的数据

'''

print ('开始爬取%s的内容' % file_name)

# 爬取程序

my_headers = {

'User-Agent': 'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'

}

requset = urllib2.Request(url, headers=my_headers)

content = urllib2.urlopen(requset).read()

print ('爬取%s的内容完成！' % file_name)

return content

def save_data(data, file_name):

'''

作用：主要用于进行数据存储

:param data: 要存储的数据

:param file_name: 要存储的文件名称

:return: 无

'''

print ('开始保存%s的内容' % file_name)

with open(file_name, 'w') as f:

f.write(data)

print ('保存%s的内容完成！' % file_name)

# 定义函数，进行爬虫的核心处理功能

def spider(url, kw, begin, end):

'''

作用：用于进行核心爬虫功能的调度

:param url: 要爬取的地址

:param kw: 贴吧名称

:param begin: 起始页码

:param end: 结束页码

:return: 无

'''

for page in range(begin, end + 1):

# 计算需要的页码

pn = (page - 1) * 50

# 进行kw参数的编码

kw = urllib.urlencode({'kw': kw})

# 拼接url地址

full_url = url + kw + '&pn=' + str(pn)

# 定义一个保存文件的名称

file_name = '网页' + str(page) + '.html'

# 开始爬取数据

html = load_url(full_url, file_name)

# 保存数据到文件

save_data(html, file_name)

# 主程序运行入口

if __name__ == '__main__':

# 用户数据相关数据

url = "http://tieba.baidu.com/f?"

kw = raw_input('请输入要爬取的贴吧名称：')

begin = int(raw_input('请输入开始页码：'))

end = int(raw_input('请输入结束页码：'))

# 调用爬虫开始执行

spider(url, kw, begin, end)

python爬虫吧-python爬虫-贴吧相关推荐

python 获取用户ip_Python爬虫教程：你还在苦苦拉票吗？刷票小程序案例原理剖析！...
你还在苦苦拉票吗? 前言剖析投票原理处理思路具体实战主要流程具体细节python 代码实例python 具体细节java 代码实现java 总结点击此处,获取海量Python学习资料! 前 ...
零基础自学用Python 3开发网络爬虫(一)
原文出处: Jecvay Notes (@Jecvay) 由于本学期好多神都选了Cisco网络课, 而我这等弱渣没选, 去蹭了一节发现讲的内容虽然我不懂但是还是无爱. 我想既然都本科就出来工作还是按照 ...
【python教程入门学习】Python零基础入门爬虫项目
Python入门爬虫项目这是我的第一个python项目,分享给大家. 需求我们目前正在开发一款产品其功能大致是:用户收到短信如:购买了电影票或者火车票机票之类的事件.然后app读取短信,解析短信, ...
起薪2万的爬虫工程师, Python需要学到什么程度才可以就业?
做爬虫工程师的的薪资为20K起,当然,因为大数据,薪资也将一路上扬.那么,Python需要学到什么程度呢?今天我们来看看3位前辈的回答. 1.前段时间快要毕业,而我又不想找自己的老本行Java开发了, ...
python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了常见爬虫框 ...
爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型
Python网络爬虫权威指南编辑推荐适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...
大佬带你详解Python反爬虫措施以及爬虫编写注意事项
Python爬虫开发:反爬虫措施以及爬虫编写注意事项反爬虫的几重措施 1.IP限制如果是个人编写的爬虫,IP可能是固定的,那么发现某个IP请求过于频繁并且短时间内访问大量的页面,有爬虫的嫌疑,作为 ...
洗礼灵魂，修炼python（70）--爬虫篇—补充知识：json模块
在前面的某一篇中,说完了pickle,但我相信好多朋友都不懂到底有什么用,那么到了爬虫篇,它就大有用处了,而和pickle很相似的就是JSON模块 JSON 1.简介 1)JSON(JavaScrip ...
2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫，包教包会
2019独角兽企业重金招聘Python工程师标准>>> 阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算.大数据技能. 在第一批上线的课程中,有一个Python爬虫的 ...
python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程体会不一样的Python爬虫课程...
廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

python爬虫吧-python爬虫-贴吧

python爬虫吧-python爬虫-贴吧相关推荐

最新文章

热门文章