python爬虫贴吧_Python爬虫—

对珊瑚老哥保证了自己会尽量补档动画MTV吧的资源，有空应该研究下爬虫了。

不要在意头图，我不会假借各位对某个动漫的爱好然后坑人的。无论是电磁炮吧主那种拿电磁铁糊弄人的奸商，还是逸站靠小林做幌子卖收费破烂乐色教程的那个"PYTHON大佬"

https://www.cnblogs.com/farewell-farewell/p/6055775.html

https://blog.csdn.net/wisedoge/article/details/51100290

抓取百度贴吧帖子

按照这个学习教程，一步一步写出来，中间遇到很多的问题，一一列举

首先，获得标题和贴子总数

# -*- coding:utf-8 -*-#!/user/bin/pythonimport urllibimport urllib2import reclass BDTB: #初始化，传入基地址，是否只看楼主的参数

def __init__(self, baseUrl, seeLZ):

self.baseURL = baseUrl

self.seeLZ = '?see_lz=' + str(seeLZ) #传入页码，获取该页帖子的代码

def getPage(self, pageNum): try:

url = self.baseURL + self.seeLZ + '&pn=' + str(pageNum)

request = urllib2.Request(url)

response = urllib2.urlopen(request) return response.read() except urllib2.URLError, e: if hasattr(e, "reason"): print u"连接百度贴吧失败,错误原因", e.reason return None def getTitle(self):

page = self.getPage(1)

pattern = re.compile('

(.*?)',re.S)

result = re.search(pattern, page) if result: print "回复个数："

print result.group(1) return result.group(1).strip() else: return None

baseURL = 'http://tieba.baidu.com/p/3138733512'bdtb = BDTB(baseURL, 1)

bdtb.getTitle()

bdtb.getPageNum()

PS：我用的火狐浏览器，查看网页源代码，鼠标右击查看获得快捷键 Ctrl-U

接下来抓取楼层的内容，写好的程序如下

import urllibimport urllib2import reclass BDTB: #初始化，传入基地址，是否只看楼主的参数

def __init__(self, baseUrl, seeLZ):

self.baseURL = baseUrl

self.seeLZ = '?see_lz=' + str(seeLZ) #传入页码，获取该页帖子的代码

def getPage(self, pageNum): try:

url = self.baseURL + self.seeLZ + '&pn=' + str(pageNum)

request = urllib2.Request(url)

response = urllib2.urlopen(request) return response.read() except urllib2.URLError, e: if hasattr(e, "reason"): print u"连接百度贴吧失败,错误原因", e.reason return None def getTitle(self):

page = self.getPage(1)

pattern = re.compile('

(.*?)',re.S)

result = re.search(pattern, page) if result: print "回复个数："

print result.group(1) return result.group(1).strip() else: return None def getContent(self,page):

pattern = re.compile('

(.*?)

',re.S)

items = re.findall(pattern,page) for item in items: print item

baseURL = 'http://tieba.baidu.com/p/3138733512'bdtb = BDTB(baseURL, 1)

bdtb.getTitle()

bdtb.getPageNum()

bdtb.getContent(1)

但是运行之后一直报错，如下图：

检查代码无数次后，终于.....发现 getContent中没有获取页码 T_T 在这个函数首句加上

page = self.getPage(1)

即可！！！

终于得到了内容部分，用一下工具类可将乱七八糟的图片什么的代码去掉

#处理页面标签类class Tool: #去除img标签,7位长空格

removeImg = re.compile('| {7}|') #删除超链接标签

removeAddr = re.compile('|') #把换行的标签换为\n

replaceLine = re.compile('

|') #将表格制表替换为\t

replaceTD= re.compile('

') #把段落开头换为\n加空两格

replacePara = re.compile('

') #将换行符或双换行符替换为\n

replaceBR = re.compile('

|
') #将其余标签剔除

removeExtraTag = re.compile('<.*?>') def replace(self,x):

x = re.sub(self.removeImg,"",x)

x = re.sub(self.removeAddr,"",x)

x = re.sub(self.replaceLine,"\n",x)

x = re.sub(self.replaceTD,"\t",x)

x = re.sub(self.replacePara,"\n ",x)

x = re.sub(self.replaceBR,"\n",x)

x = re.sub(self.removeExtraTag,"",x) #strip()将前后多余内容删除

return x.strip()

最后最后，就是这样的了..

# -*- coding:utf-8 -*-#!/user/bin/pythonimport urllibimport urllib2import re#处理页面标签类class Tool: #去除img标签,7位长空格

removeImg = re.compile('| {7}|') #删除超链接标签

removeAddr = re.compile('|') #把换行的标签换为\n

replaceLine = re.compile('

|') #将表格制表替换为\t

replaceTD= re.compile('

') #把段落开头换为\n加空两格

replacePara = re.compile('

') #将换行符或双换行符替换为\n

replaceBR = re.compile('

|
') #将其余标签剔除

removeExtraTag = re.compile('<.*?>') def replace(self,x):

x = re.sub(self.removeImg,"",x)

x = re.sub(self.removeAddr,"",x)

x = re.sub(self.replaceLine,"\n",x)

x = re.sub(self.replaceTD,"\t",x)

x = re.sub(self.replacePara,"\n ",x)

x = re.sub(self.replaceBR,"\n",x)

x = re.sub(self.removeExtraTag,"",x) #strip()将前后多余内容删除

return x.strip() class BDTB: #初始化，传入基地址，是否只看楼主的参数

def __init__(self, baseUrl, seeLZ, floorTag):

self.baseURL = baseUrl

self.seeLZ = '?see_lz=' + str(seeLZ)

self.tool = Tool() #全局file变量，文件写入操作对象

self.file = None #楼层标号，初始化为1

self.floor = 1 #默认标题

self.defaultTitle = u"百度某某贴吧"

#是否写入楼层分隔符标记

self.floorTag = floorTag #传入页码，获取该页帖子的代码

def getPage(self, pageNum): try:

url = self.baseURL + self.seeLZ + '&pn=' + str(pageNum)

request = urllib2.Request(url)

response = urllib2.urlopen(request) return response.read().decode('utf-8') except urllib2.URLError, e: if hasattr(e, "reason"): print u"连接百度贴吧失败,错误原因", e.reason return None #获得帖子标题

def getTitle(self,page):

page = self.getPage(1)

pattern = re.compile('

(.*?)',re.S)

result = re.search(pattern, page) if result: #print "回复个数："

#print result.group(1)

return result.group(1).strip() else: return None #获得帖子的内容

def getContent(self,page):

page = self.getPage(1)

pattern = re.compile('

contents.append(content.encode('utf-8')) #print self.tool.replace(item)

#floor += 1

return contents

def setFileTitle(self,title): if title is not None:

self.file = open(title + ".txt", "w+") else:

self.file = open(self.defaultTitle + ".txt", "w+") def writeData(self,contents): for item in contents: if self.floorTag == '1':

floorline = "\n" + str(self.floor) + u"-------------------------------------\n"

self.file.write(floorline)

self.file.write(item)

self.floor += 1 def start(self):

indexPage = self.getPage(1)

page*********f.getPageNum(indexPage)

title = self.getTitle(indexPage)

self.setFileTitle(title) if pageNum == None: print "URL已失效，请重试"

return

try: print "该帖子共有" + str(pageNum) + "页"

for i in range(1,int(pageNum) + 1): print "正在写入第" + str(i) + "页数据"

page = self.getPage(i)

contents = self.getContent(page)

self.writeData(contents) except IOError,e: print "写入异常，原因" + e.message finally: print "Succeed~"

print u"请输入帖子代码"baseURL = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))

seeLZ = raw_input("是否只看楼主，是输入1，否输入0\\n")

floorTag = raw_input("是否写入楼层信息，是输入1，否输入0\\n")

bdtb = BDTB(baseURL, seeLZ,floorTag)

bdtb.start()

关于decode和encode知识，查看这个

decode的作用是将其他编码的字符串转换成unicode编码。str1.decode('gb2312')#表示将gb2312编码的字符串转换成unicode编码

encode的作用是将unicode编码转换成其他编码的字符串。str2.encode('gb2312')#表示将unicode编码的字符串转换成gb2312编码

PS：字符串在Python内部的表示是unicode编码。

因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

关于raw_input, 查看这个

python中raw_input()与input()raw_input([prompt])

input([prompt])# prompt：如果参数存在，直接输出到屏幕上，不会再另起一行

raw_input 如其字面意思一样，返回输入字符的字符串形式，不做任何变换运算

input 本质上是使用raw_input()来实现的，即调用完raw_input()之后再调用eval()函数，调用如下：def input(prompt): return (eval(raw_input(prompt)))

eg. 输入纯数字字符串，返回数字类型；对合法的 python 数字表达式进行运算，返回运算后的结果....

PS:在python3.x中，已经删除raw_input()，取而代之的是input()，当然这仅仅是重命名，用法还是一样。因此在这里介绍的是 python2.x中的raw_input()和input()，在python3.x中只要按raw_input()的使用方式就行

上一篇详解前缀、中缀、后缀表达式

下一篇中缀表达式转换成前缀和后缀表达式这类题目的超实用解题技巧