#!/usr/bin/python

# coding=utf-8

# 作者 :Y0010026

# 创建时间 :2018/12/16 15:33

# 文件 :spider_03.py

# IDE :PyCharm

import urllib2 # 用于进行中文编码

import urllib # 用于进行爬虫核心处理

def load_url(url, file_name):

'''

作用:针对指定的url地址,进行数据的获取

:param url: 需要爬取的具体url地址

:param file_name: 要保存的文件名称;在当前函数中,只做提示使用

:return: 爬取的数据

'''

print ('开始爬取%s的内容' % file_name)

# 爬取程序

my_headers = {

'User-Agent': 'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1'

}

requset = urllib2.Request(url, headers=my_headers)

content = urllib2.urlopen(requset).read()

print ('爬取%s的内容完成!' % file_name)

return content

def save_data(data, file_name):

'''

作用:主要用于进行数据存储

:param data: 要存储的数据

:param file_name: 要存储的文件名称

:return: 无

'''

print ('开始保存%s的内容' % file_name)

with open(file_name, 'w') as f:

f.write(data)

print ('保存%s的内容完成!' % file_name)

# 定义函数,进行爬虫的核心处理功能

def spider(url, kw, begin, end):

'''

作用:用于进行核心爬虫功能的调度

:param url: 要爬取的地址

:param kw: 贴吧名称

:param begin: 起始页码

:param end: 结束页码

:return: 无

'''

for page in range(begin, end + 1):

# 计算需要的页码

pn = (page - 1) * 50

# 进行kw参数的编码

kw = urllib.urlencode({'kw': kw})

# 拼接url地址

full_url = url + kw + '&pn=' + str(pn)

# 定义一个保存文件的名称

file_name = '网页' + str(page) + '.html'

# 开始爬取数据

html = load_url(full_url, file_name)

# 保存数据到文件

save_data(html, file_name)

# 主程序运行入口

if __name__ == '__main__':

# 用户数据相关数据

url = "http://tieba.baidu.com/f?"

kw = raw_input('请输入要爬取的贴吧名称:')

begin = int(raw_input('请输入开始页码:'))

end = int(raw_input('请输入结束页码:'))

# 调用爬虫开始执行

spider(url, kw, begin, end)

python爬虫吧-python爬虫-贴吧相关推荐

  1. python 获取用户ip_Python爬虫教程:你还在苦苦拉票吗?刷票小程序案例原理剖析!...

    你还在苦苦拉票吗? 前言 剖析投票原理 处理思路 具体实战 主要流程 具体细节python 代码实例python 具体细节java 代码实现java 总结 点击此处,获取海量Python学习资料! 前 ...

  2. 零基础自学用Python 3开发网络爬虫(一)

    原文出处: Jecvay Notes (@Jecvay) 由于本学期好多神都选了Cisco网络课, 而我这等弱渣没选, 去蹭了一节发现讲的内容虽然我不懂但是还是无爱. 我想既然都本科就出来工作还是按照 ...

  3. 【python教程入门学习】Python零基础入门爬虫项目

    Python入门爬虫项目 这是我的第一个python项目,分享给大家. 需求 我们目前正在开发一款产品其功能大致是:用户收到短信如:购买了电影票或者火车票机票之类的事件.然后app读取短信,解析短信, ...

  4. 起薪2万的爬虫工程师, Python需要学到什么程度才可以就业?

    做爬虫工程师的的薪资为20K起,当然,因为大数据,薪资也将一路上扬.那么,Python需要学到什么程度呢?今天我们来看看3位前辈的回答. 1.前段时间快要毕业,而我又不想找自己的老本行Java开发了, ...

  5. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  6. 爬虫书籍-Python网络爬虫权威指南OCR库 NLTK 数据清洗 BeautifulSoup Lambda表达式 Scrapy 马尔可夫模型

    Python网络爬虫权威指南 编辑推荐 适读人群 :需要抓取Web 数据的相关软件开发人员和研究人员 作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要.而编写简单的自动化程序(网络爬 ...

  7. 大佬带你详解Python反爬虫措施以及爬虫编写注意事项

    Python爬虫开发:反爬虫措施以及爬虫编写注意事项 反爬虫的几重措施 1.IP限制 如果是个人编写的爬虫,IP可能是固定的,那么发现某个IP请求过于频繁并且短时间内访问大量的页面,有爬虫的嫌疑,作为 ...

  8. 洗礼灵魂,修炼python(70)--爬虫篇—补充知识:json模块

    在前面的某一篇中,说完了pickle,但我相信好多朋友都不懂到底有什么用,那么到了爬虫篇,它就大有用处了,而和pickle很相似的就是JSON模块 JSON 1.简介 1)JSON(JavaScrip ...

  9. 2个月精通Python爬虫——3大爬虫框架+6场实战+分布式爬虫,包教包会

    2019独角兽企业重金招聘Python工程师标准>>> 阿里云大学在线工作坊上线,原理精讲+实操演练,让你真正掌握云计算.大数据技能. 在第一批上线的课程中,有一个Python爬虫的 ...

  10. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

最新文章

  1. pandas使用dropna函数计算返回dataframe中不包含缺失值的行索引列表list(index of rows without missing values in dataframe)
  2. oracle完全删除实例
  3. .Net软件测试化之道 [James D.MCCaffrey]
  4. 深度学习NCHW和NHWC数据格式(由三维数据转换成一维数据的遍历方式)
  5. 学习OpenStack之 (4): Linux 磁盘、分区、挂载、逻辑卷管理 (Logical Volume Manager)
  6. Android-入门学习笔记-图片和外观改善
  7. VBA中 各种数据类型的使用(自定义数据类型Type,数组,数据字典)、读写文件
  8. FFmpeg源代码简单分析:configure
  9. Javascript:运行机制与原理
  10. 《Visual C# 从零开始学》
  11. 数组模拟栈解决括号匹配
  12. 三种1:4传输线变压器巴伦的分析
  13. mysql mpm_Zabbix和MPM监控MySQL
  14. eclipse安装程序没反应
  15. Chrome快捷键,电脑高手都这样用
  16. android 字体倒影,Android实现图片的倒影效果
  17. 读书笔记 《拆掉思维里的墙》
  18. 俞渝手撕李国庆:他是同性恋,李回应:变态精神病患者!大量细节惊呆网友...
  19. windows server2012安装web服务以及运行asp
  20. php 自动下载apk,Android 下载apk 自动 安装

热门文章

  1. Android Studio如何用真机调试
  2. IE6、IE7、IE8、Firefox兼容性CSS
  3. 【收集】Web开发工具
  4. 谁的bug? 正则 拷贝和粘贴 regulator工具
  5. Flask 系列之 构建 Swagger UI 风格的 WebAPI
  6. Java知识系统回顾整理01基础01第一个程序01JDK 安装
  7. 关于 use-default-filters 属性的说明
  8. opencv学习之路(25)、轮廓查找与绘制(四)——正外接矩形
  9. Javascript实现整站黑白效果(兼容IE/FF等浏览器)
  10. Jquery高亮显示文本中重要的关键字