爬虫内涵段子贴吧内容

直接上代码

#-*- coding:utf-8 -*-
import urllib2
import reclass Spider:'''这是一个内涵段子吧的一个爬虫类'''def __init__(self):self.enable = Trueself.page = 1 #当前要爬去的页数 def load_page(self, page):'''发送内涵段子url请求，得到html源码'''url = "http://www.neihan8.com/article/list_5_"+str(page)+".html" user_agent = "Mozilla/5.0 (X11; Ubuntu; Linux x86_64;rv:21.0) Geco/20130331 Firefox/21.0"headers = {"User-Agent":user_agent}req = urllib2.Request(url, headers = headers)response = urllib2.urlopen(req)html = response.read()new_html = html.decode("gbk").encode("utf-8")#用正则表达式进行过滤，得到所有的段子#所有段子在<div class="f18 mb20">--------------- </div>#创建正则表达式对象pattern = re.compile(r'<div.*?class="f18 mb20">(.*?)</div>',re.S) item_list = pattern.findall(new_html)return item_list#gbk_html = html.decode('gbk').encode('utf-8')#这个意识是现将网站的源码根据gbk进行解析，然后根据utf-8进行解析def deal_one_page(self, item_list, page):print "正在储存第%d页的段子。。" %(page)for item in item_list:print item.replace("<p>","").replace("</p>","").replace("<br />","").replace("&ldquo;","").replace("&rdquo;","").replace("&hellip","") self.write_to_file(item)print " 第 %d 页的段子存储完毕。。" %(page)def write_to_file(self, txt):f = open('./myStory.txt', 'a')f.write(txt)f.write('-------------------------------------')f.close()def do_work(self):'''提供跟用户交互的过程让爬虫 去工作'''while self.enable:print "按回车继续"print "输出quit退出"command = raw_input()if(command == "quit"):self.enable = Falsebreak;
#           self.load_page(self.page)item_list = self.load_page(self.page)self.deal_one_page(item_list, self.page)self.page += 1#main
if __name__ == "__main__":#   begin_page = int(raw_input("起始页码："))
#   end_page = int(raw_input("终止页码："))
#创建一个spider对象mySpider = Spider()mySpider.do_work()#   for i in range(begin_page, end_page):
#       n = i + 1#   item_list = mySpider.load_page(1)#   printem.replace("<p>","").replace("</p>","").replace("<b    r />","").replace("&ldquo;","").replace("&rdquo;","").replace("&hellip","")#   print item

爬虫内涵段子贴吧内容相关推荐

今日头条“偷偷复活”内涵段子，那快播是不是也能重生了？
无家可归三个多月后,段友们终于找到了新家~ 近日,一款名叫皮皮虾的 App,在苹果和安卓各大应用商店上线.这是内涵段子借尸还魂了!? 听这名字就很皮,就是不知道,有没有得到皮皮虾创始人--省港澳第一金 ...
python爬虫经典段子_Python爬虫实战：爬取内涵段子
啊啊啊啊啊话不多说直接上代码 #coding=utf-8 import urllib2 import re class Spider: """ 内涵段子爬虫类 &quo ...
python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子
人生苦短,我用Python,今天来一起爬取一下内涵段子. 话不啰嗦直接代码,gogogog! #coding=utf-8 import urllib2 import re class Spider: ...
30 爬虫 - 爬取内涵段子网站案例
现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...
python多线程爬取段子_Python爬虫实例-多线程爬虫糗事百科搞笑内涵段子
学习爬虫,其乐无穷! 今天给大家带来一个爬虫案例,爬取糗事百科搞笑内涵段子. 爬取糗事百科段⼦,假设⻚⾯的 URL 是:http://www.qiushibaike.com/8hr/page/1 一. ...
Python爬虫爬取静态网页实例一：爬取内涵段子吧上的段子
最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...
python函数的内涵_python内涵段子文章爬取
全文简介使用python中简单的爬虫知识,对内涵段子的文章进行爬取. 需要用到的模块:requests模块和time模块. 需要的程序编辑软件:Pycharm 程序流程 1> 获取URL:进入 ...
内涵段子爬取及re匹配
案例:使用正则表达式的爬虫现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...
对内涵段子正则的提取
内涵段子正则爬取: """ 内涵段子爬虫 https://www.neihan8.com/article/index.html""" fro ...

爬虫内涵段子贴吧内容

爬虫内涵段子贴吧内容相关推荐

最新文章

热门文章