直接上代码

#-*- coding:utf-8 -*-
import urllib2
import reclass Spider:'''这是一个内涵段子吧的一个爬虫类'''def __init__(self):self.enable = Trueself.page = 1 #当前要爬去的页数 def load_page(self, page):'''发送内涵段子url请求,得到html源码'''url = "http://www.neihan8.com/article/list_5_"+str(page)+".html" user_agent = "Mozilla/5.0 (X11; Ubuntu; Linux x86_64;rv:21.0) Geco/20130331 Firefox/21.0"headers = {"User-Agent":user_agent}req = urllib2.Request(url, headers = headers)response = urllib2.urlopen(req)html = response.read()new_html = html.decode("gbk").encode("utf-8")#用正则表达式进行过滤,得到所有的段子#所有段子在<div class="f18 mb20">--------------- </div>#创建正则表达式对象pattern = re.compile(r'<div.*?class="f18 mb20">(.*?)</div>',re.S) item_list = pattern.findall(new_html)return item_list#gbk_html = html.decode('gbk').encode('utf-8')#这个意识是现将网站的源码根据gbk进行解析,然后根据utf-8进行解析def deal_one_page(self, item_list, page):print "正在储存第%d页的段子。。" %(page)for item in item_list:print item.replace("<p>","").replace("</p>","").replace("<br />","").replace("&ldquo;","").replace("&rdquo;","").replace("&hellip","") self.write_to_file(item)print " 第 %d 页的段子存储完毕。。" %(page)def write_to_file(self, txt):f = open('./myStory.txt', 'a')f.write(txt)f.write('-------------------------------------')f.close()def do_work(self):'''提供跟用户交互的过程让爬虫 去工作'''while self.enable:print "按回车继续"print "输出quit退出"command = raw_input()if(command == "quit"):self.enable = Falsebreak;
#           self.load_page(self.page)item_list = self.load_page(self.page)self.deal_one_page(item_list, self.page)self.page += 1#main
if __name__ == "__main__":#   begin_page = int(raw_input("起始页码:"))
#   end_page = int(raw_input("终止页码:"))
#创建一个spider对象mySpider = Spider()mySpider.do_work()#   for i in range(begin_page, end_page):
#       n = i + 1#   item_list = mySpider.load_page(1)#   printem.replace("<p>","").replace("</p>","").replace("<b    r />","").replace("&ldquo;","").replace("&rdquo;","").replace("&hellip","")#   print item

爬虫内涵段子贴吧内容相关推荐

  1. 今日头条“偷偷复活”内涵段子,那快播是不是也能重生了?

    无家可归三个多月后,段友们终于找到了新家~ 近日,一款名叫皮皮虾的 App,在苹果和安卓各大应用商店上线.这是内涵段子借尸还魂了!? 听这名字就很皮,就是不知道,有没有得到皮皮虾创始人--省港澳第一金 ...

  2. python爬虫经典段子_Python爬虫实战:爬取内涵段子

    啊啊啊啊啊 话不多说直接上代码 #coding=utf-8 import urllib2 import re class Spider: """ 内涵段子爬虫类 &quo ...

  3. python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子

    人生苦短,我用Python,今天来一起爬取一下内涵段子. 话不啰嗦直接代码,gogogog! #coding=utf-8 import urllib2 import re class Spider: ...

  4. 30 爬虫 - 爬取内涵段子网站案例

    现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...

  5. python多线程爬取段子_Python爬虫实例-多线程爬虫糗事百科搞笑内涵段子

    学习爬虫,其乐无穷! 今天给大家带来一个爬虫案例,爬取糗事百科搞笑内涵段子. 爬取糗事百科段⼦,假设⻚⾯的 URL 是:http://www.qiushibaike.com/8hr/page/1 一. ...

  6. Python爬虫爬取静态网页实例一:爬取内涵段子吧上的段子

    最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...

  7. python函数的内涵_python内涵段子文章爬取

    全文简介 使用python中简单的爬虫知识,对内涵段子的文章进行爬取. 需要用到的模块:requests模块和time模块. 需要的程序编辑软件:Pycharm 程序流程 1> 获取URL:进入 ...

  8. 内涵段子爬取及re匹配

    案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...

  9. 对内涵段子正则的提取

    内涵段子正则爬取: """ 内涵段子爬虫 https://www.neihan8.com/article/index.html""" fro ...

最新文章

  1. 赠票 | 面见AI大神贾扬清!阿里云峰会船票抢先送~(上海站)
  2. 使用iso文件安装双系统linux,Win7下使用EasyBcd安装Ubuntu(iso文件)双系统
  3. 关于java的对象数组
  4. [C++][线程安全]单例模式下双检查锁和线程
  5. 小米mysql安装教程_小米 SOAR 开源SQL优化工具安装
  6. 大屏监控系统实战(14)-24小时得票数量统计曲线制作
  7. 资源放送丨《MGR原理介绍与案例分享》PPT视频
  8. android java静态库,Android make 中变量记录
  9. sentinel 时间窗口_Sentinel 实战-规则持久化
  10. 20155320 2016-2017-2 《Java程序设计》第五周学习总结
  11. 联想高校AI精英挑战赛移师冰城,哈工大上演人工智能创业大秀
  12. 3个关于HR的OKR的优秀案例
  13. Excel数据透视表教程小结
  14. 第 11 章 Harddisk
  15. 项目保密协议书(范本)
  16. 头歌-自己动手画CPU(第六关)-MIPS RAM设计-Logisim
  17. android 临时文件存储,缓存和临时文件/文件夹删除android
  18. 【Qt】Qt运行时Cannot retrieve debugging output错误
  19. 从“中国宙斯盾”亮相想到的
  20. play框架2.5.6教程——使用play控制台

热门文章

  1. CIO40知识星球—IT人之兄弟连
  2. 查mysql结构_Mysql查询架构信息
  3. python爬取拉勾网给定关键词职位信息存入数据库_Python 爬取拉勾网python职位信息...
  4. select UNION ALL 合并两张表数据
  5. Java(老白再次入门) - 语言概述
  6. 8岁 YouTube博主年收入1.8亿,成最赚钱博主!
  7. 2019 年度个人深度总结
  8. proguard 不混淆方法名_Proguard 常用规则
  9. Multi-way PCA——多维主成分分析
  10. Angular Live Development Server is listening on 0.0.0.0:4200, open your browser on url