继续改进版臭事百科爬虫20160921

本爬虫最初始原地址：http://blog.csdn.net/pleasecallmewhy/article/details/8932310

基于的上一个改进版：第二个http://blog.csdn.net/u011350541/article/details/52264073

改动：

优化了显示，去掉<span></br>等标签；

输入一次enter加载一页而不是不停加载

# -*- coding: utf-8 -*-    import urllib2
import urllib
import re
import thread
import time
import json#----------- 加载处理糗事百科 -----------
class Spider_Model:    #声明self:含有page pages enabled def __init__(self):    self.page = 1    self.pages = []    self.enable = False    # 将所有的段子都扣出来，添加到列表中并且返回列表    def GetPage(self,page):    myUrl = "http://m.qiushibaike.com/hot/page/" + page    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   headers = { 'User-Agent' : user_agent }   req = urllib2.Request(myUrl, headers = headers)   myResponse = urllib2.urlopen(req)  myPage = myResponse.read()# print myPageunicodePage = myPage.decode("utf-8")# 找出所有class="content"的div标记    #re.S是任意匹配模式，也就是.可以匹配换行符myItems = re.findall('<div.*?class="content">\n\n+<span>(.*?)</span>\n\n+</div>',unicodePage,re.S)items = []# print myItems# print str(myItems).decode('string_escape')# print json.dumps(myItems, encoding="UTF-8", ensure_ascii=False)# for item in myItems:#     # item 中第一个是div的标题，也就是时间#     # item 中第二个是div的内容，也就是内容#     items.append([item[0].replace("\n",""),item[1].replace("\n","")])# print myItems# print str(myItems).decode('string_escape')# print str(myItems).encode("UTF-8")# print myItems[0]return myItems# 用于加载新的段子    def LoadPage(self):    # 如果用户未输入quit则一直运行    while self.enable:    # 如果pages数组中的内容小于2个# print len(self.pages)if len(self.pages) < 2:try:    # 获取新的页面中的段子们    myPage = self.GetPage(str(self.page))self.page += 1    self.pages.append(myPage)except:    print '无法链接糗事百科！'    else:    time.sleep(5)              # def ShowPage(self,nowPage,page):#     print u'第%d页' % page,json.dumps(nowPage, encoding="UTF-8", ensure_ascii=False)def ShowPage(self,nowPage,page):i = 0# print len(nowPage)for i in range(0,len(nowPage)):if i < len(nowPage):oneStory="\n\n"+nowPage[i].replace("\n\n","").replace("<br/>","\n")+"\n\n"print u'第%d页,第%d个故事' %(page,i) ,oneStoryi += 1else:breakmyInput = str(raw_input(u'回车键看下一页,按quit退出：\n'))
if myInput == "quit":
self.enable = Falsedef Start(self):    self.enable = True    page = self.pageprint u'正在加载中请稍候......'# 新建一个线程在后台加载段子并存储    thread.start_new_thread(self.LoadPage,())#----------- 加载处理糗事百科 -----------    while self.enable:    # 如果self的page数组中存有元素    if self.pages:    nowPage = self.pages[0]del self.pages[0]self.ShowPage(nowPage,page)    page += 1    #----------- 程序的入口处 -----------
print u"""
---------------------------------------  程序：糗百爬虫  版本：0.3  作者：why  日期：2014-06-03改进1：周二也被占用改进2：allenwithallen  20160931语言：Python 2.7  操作：输入quit退出阅读糗事百科  功能：按下回车依次浏览今日的糗百热点
---------------------------------------
"""  print u'请按下回车浏览今日的糗百内容：'
raw_input(' ')
myModel = Spider_Model()
myModel.Start()

继续改进版臭事百科爬虫20160921相关推荐

python实现数据爬取——糗事百科爬虫项目
python实现数据爬取--糗事百科爬虫项目 # urllib.request 请求模块 import urllib.request # re 模块使 Python 语言拥有全部的正则表达式功能. i ...
Scrapy糗事百科爬虫实战代码分析
Scrapy糗事百科爬虫实战代码分析视频教学网址:[python爬虫_从入门到精通(高级篇)]scrapy框架.反爬.分布式爬虫一.Scrapy糗事百科之爬取单页数据并保存具体的创建方法可以参照 ...
糗事百科爬虫用户统计
糗事百科爬虫用户统计以前爬了糗事百科,一些数据还是挺有意思的: 工作搬砖汉应该是调侃自己的,不过人数比较多的手艺汪,学生汪,家里蹲应该有一些共同点,那就是时间比较自由故乡基本上人口基数大的地方 ...
Python爬虫基于Beautiful Soup的糗事百科爬虫
python爬虫 ---- 糗事百科爬虫首先进入糗事百科官网首页 -> 糗事百科本次爬虫的目标是翻页爬取糗事百科的信息,包括标题, 链接, 作者名, 好笑数&评论数之后右键检查, ...
[python3]糗事百科爬虫
最近开始学习爬虫和机器学习,网上好多资料都是python2的,学习爬虫可见汪海大哥的专题[python爬虫入门教程] 这里将第八讲[糗事百科的网络爬虫(v0.3)源码及解析(简化更新) ]中的源码修正 ...
Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
Python爬虫实战（1）：爬取糗事百科段子
Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...
python爬虫之糗事百科
历经1个星期的实践,终于把python爬虫的第一个实践项目完成了,此时此刻,心里有的只能用兴奋来形容,后续将继续加工,把这个做成一个小文件,发给同学,能够在cmd中运行的文件.简化版程序,即单单爬取页 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...

继续改进版臭事百科爬虫20160921

继续改进版臭事百科爬虫20160921相关推荐

最新文章

热门文章