bs4爬虫:获取百度贴吧的内容

一、环境
(1) windws 10
(2) python 2.7
(3) pycharm

二、详细代码

(1)日志分析类

import logging
import getpass
import sys#### 定义MyLog类
class MyLog(object):
#### 类MyLog的构造函数def __init__(self):self.user = getpass.getuser()self.logger = logging.getLogger(self.user)self.logger.setLevel(logging.DEBUG)####  日志文件名self.logFile = sys.argv[0][0:-3] + '.log'self.formatter = logging.Formatter('%(asctime)-12s %(levelname)-8s %(name)-10s %(message)-12s\r\n')####  日志显示到屏幕上并输出到日志文件内self.logHand = logging.FileHandler(self.logFile, encoding='utf8')self.logHand.setFormatter(self.formatter)self.logHand.setLevel(logging.DEBUG)self.logHandSt = logging.StreamHandler()self.logHandSt.setFormatter(self.formatter)self.logHandSt.setLevel(logging.DEBUG)self.logger.addHandler(self.logHand)self.logger.addHandler(self.logHandSt)####  日志的5个级别对应以下的5个函数def debug(self,msg):self.logger.debug(msg)def info(self,msg):self.logger.info(msg)def warn(self,msg):self.logger.warn(msg)def error(self,msg):self.logger.error(msg)def critical(self,msg):self.logger.critical(msg)if __name__ == '__main__':mylog = MyLog()mylog.debug(u"I'm debug 测试中文")mylog.info("I'm info")mylog.warn("I'm warn")mylog.error(u"I'm error 测试中文")mylog.critical("I'm critical")

(2)爬取的主类

import urllib2
from bs4 import BeautifulSoup
from mylog import MyLog as mylogclass Item(object):title = None    #帖子标题firstAuthor = None  #帖子创建者firstTime = None   #帖子创建时间reNum = None    #总回复数content = None  #最后回复内容lastAuthor = None   #最后回复者lastTime = None #最后回复时间class GetTiebaInfo(object):def __init__(self,url):self.url = urlself.log = mylog()self.pageSum = 5self.urls = self.getUrls(self.pageSum)self.items = self.spider(self.urls)self.pipelines(self.items)def getUrls(self,pageSum):urls = []pns = [str(i*50) for i in range(pageSum)]ul = self.url.split('=')for pn in pns:ul[-1] = pnurl = '='.join(ul)urls.append(url)self.log.info(u'获取URLS成功')return urlsdef spider(self, urls):items = []for url in urls:htmlContent = self.getResponseContent(url)soup = BeautifulSoup(htmlContent, 'lxml')tagsli = soup.find_all('li',attrs={'class':' j_thread_list clearfix'})for tag in tagsli:item = Item()item.title = tag.find('a', attrs={'class':'j_th_tit'}).get_text().strip()item.firstAuthor = tag.find('span', attrs={'class':'frs-author-name-wrap'}).a.get_text().strip()item.firstTime = tag.find('span', attrs={'title':u'创建时间'.encode('utf8')}).get_text().strip()item.reNum = tag.find('span', attrs={'title':u'回复'.encode('utf8')}).get_text().strip()item.content = tag.find('div', attrs={'class':'threadlist_abs threadlist_abs_onlyline '}).get_text().strip()item.lastAuthor = tag.find('span', attrs={'class':'tb_icon_author_rely j_replyer'}).a.get_text().strip()item.lastTime = tag.find('span', attrs={'title':u'最后回复时间'.encode('utf8')}).get_text().strip()items.append(item)self.log.info(u'获取标题为<<%s>>的项成功 ...' %item.title)return itemsdef pipelines(self, items):fileName = u'百度贴吧_权利的游戏.txt'.encode('GBK')with open(fileName, 'w') as fp:for item in items:fp.write('title:%s \t author:%s \t firstTime:%s \n content:%s \n return:%s \n lastAuthor:%s \t lastTime:%s \n\n\n\n' %(item.title.encode('utf8'),item.firstAuthor.encode('utf8'),item.firstTime.encode('utf8'),item.content.encode('utf8'),item.reNum.encode('utf8'),item.lastAuthor.encode('utf8'),item.lastTime.encode('utf8')))self.log.info(u'标题为<<%s>>的项输入到"%s"成功' %(item.title, fileName.decode('GBK')))def getResponseContent(self, url):'''这里单独使用一个函数返回页面返回值，是为了后期方便的加入proxy和headers等'''try:response = urllib2.urlopen(url.encode('utf8'))except:self.log.error(u'Python 返回URL:%s  数据失败' %url)else:self.log.info(u'Python 返回URUL:%s  数据成功' %url)return response.read()if __name__ == '__main__':url = u'http://tieba.baidu.com/f?kw=权利的游戏&ie=utf-8&pn=50'GTI = GetTiebaInfo(url)

三、结果显示

bs4爬虫:获取百度贴吧的内容相关推荐

python爬虫获取百度贴吧内容
python爬虫获取百度贴吧内容 python爬虫获取百度贴吧内容 *声明:本文仅供学习交流使用,请勿用于商业用途,违者后果自负.* python爬虫获取百度贴吧内容博主是一个比较懒的人,不会按时更 ...
Python 爬虫 - 获取百度关键字搜索内容
Python 爬虫获取百度关键字搜索内容 https://www.cnblogs.com/w0000/p/bd_search_page.html Github headers内的参数,仅有UA时,返 ...
python爬去百度搜索结果_python爬虫获取百度搜索结果的简单示例
编程之家收集整理的这篇文章主要介绍了python爬虫获取百度搜索结果的简单示例,编程之家小编觉得挺不错的,现在分享给大家,也给大家做个参考. 感兴趣python爬虫获取百度搜索结果的简单示例的小伙伴, ...
HtmlAgilityPack.dll爬虫获取百度音乐批量下载地址(C#源码)
关于分析的过程和思路参考原来的一篇文章 <HtmlAgilityPack 爬虫批量获取百度音乐下载地址一> http://blog.csdn.net/witch_soya/article/ ...
手把手教你使用Python网络爬虫获取B站视频选集内容（附源码）
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤位卑未敢忘忧国,事定犹须待阖棺. ...
用Python爬虫获取百度企业信用中企业基本信息！太厉害了！
一.背景希望根据企业名称查询其经纬度,所在的省份.城市等信息.直接将企业名称传给百度地图提供的API,得到的经纬度是非常不准确的,因此希望获取企业完整的地理位置,这样传给API后结果会更加准确.百度 ...
(Scrapy框架)爬虫获取百度新冠疫情数据 | 爬虫案例
目录前言环境部署插件推荐爬虫目标项目创建 webdriver部署项目代码 Item定义中间件定义定义爬虫 pipeline输出结果文本配置文件改动验证结果总结前言闲来无聊,写 ...
bs4爬虫:获取双色球中奖信息
一.开发环境 (1)win10 (2)python 2.7 (3)pycharm 二.保存数据到excel的类 import xlwtclass SavaBallDate(object):def __ ...
PYTHON 2.7爬虫获取百度音乐文件（按歌手名或歌曲名均可）
2018.8.3 有点小错误正在修改!!!! 2018.8.6 修正完毕,存在小问题(歌手有多个,会创建多个文件夹) 最近学习了关于python的一点点知识,做出一点点小小程序来帮助自己加深 ...

bs4爬虫:获取百度贴吧的内容

bs4爬虫:获取百度贴吧的内容相关推荐

最新文章

热门文章