爬虫内涵段子贴吧内容
直接上代码
#-*- coding:utf-8 -*-
import urllib2
import reclass Spider:'''这是一个内涵段子吧的一个爬虫类'''def __init__(self):self.enable = Trueself.page = 1 #当前要爬去的页数 def load_page(self, page):'''发送内涵段子url请求,得到html源码'''url = "http://www.neihan8.com/article/list_5_"+str(page)+".html" user_agent = "Mozilla/5.0 (X11; Ubuntu; Linux x86_64;rv:21.0) Geco/20130331 Firefox/21.0"headers = {"User-Agent":user_agent}req = urllib2.Request(url, headers = headers)response = urllib2.urlopen(req)html = response.read()new_html = html.decode("gbk").encode("utf-8")#用正则表达式进行过滤,得到所有的段子#所有段子在<div class="f18 mb20">--------------- </div>#创建正则表达式对象pattern = re.compile(r'<div.*?class="f18 mb20">(.*?)</div>',re.S) item_list = pattern.findall(new_html)return item_list#gbk_html = html.decode('gbk').encode('utf-8')#这个意识是现将网站的源码根据gbk进行解析,然后根据utf-8进行解析def deal_one_page(self, item_list, page):print "正在储存第%d页的段子。。" %(page)for item in item_list:print item.replace("<p>","").replace("</p>","").replace("<br />","").replace("“","").replace("”","").replace("&hellip","") self.write_to_file(item)print " 第 %d 页的段子存储完毕。。" %(page)def write_to_file(self, txt):f = open('./myStory.txt', 'a')f.write(txt)f.write('-------------------------------------')f.close()def do_work(self):'''提供跟用户交互的过程让爬虫 去工作'''while self.enable:print "按回车继续"print "输出quit退出"command = raw_input()if(command == "quit"):self.enable = Falsebreak;
# self.load_page(self.page)item_list = self.load_page(self.page)self.deal_one_page(item_list, self.page)self.page += 1#main
if __name__ == "__main__":# begin_page = int(raw_input("起始页码:"))
# end_page = int(raw_input("终止页码:"))
#创建一个spider对象mySpider = Spider()mySpider.do_work()# for i in range(begin_page, end_page):
# n = i + 1# item_list = mySpider.load_page(1)# printem.replace("<p>","").replace("</p>","").replace("<b r />","").replace("“","").replace("”","").replace("&hellip","")# print item
爬虫内涵段子贴吧内容相关推荐
- 今日头条“偷偷复活”内涵段子,那快播是不是也能重生了?
无家可归三个多月后,段友们终于找到了新家~ 近日,一款名叫皮皮虾的 App,在苹果和安卓各大应用商店上线.这是内涵段子借尸还魂了!? 听这名字就很皮,就是不知道,有没有得到皮皮虾创始人--省港澳第一金 ...
- python爬虫经典段子_Python爬虫实战:爬取内涵段子
啊啊啊啊啊 话不多说直接上代码 #coding=utf-8 import urllib2 import re class Spider: """ 内涵段子爬虫类 &quo ...
- python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子
人生苦短,我用Python,今天来一起爬取一下内涵段子. 话不啰嗦直接代码,gogogog! #coding=utf-8 import urllib2 import re class Spider: ...
- 30 爬虫 - 爬取内涵段子网站案例
现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...
- python多线程爬取段子_Python爬虫实例-多线程爬虫糗事百科搞笑内涵段子
学习爬虫,其乐无穷! 今天给大家带来一个爬虫案例,爬取糗事百科搞笑内涵段子. 爬取糗事百科段⼦,假设⻚⾯的 URL 是:http://www.qiushibaike.com/8hr/page/1 一. ...
- Python爬虫爬取静态网页实例一:爬取内涵段子吧上的段子
最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...
- python函数的内涵_python内涵段子文章爬取
全文简介 使用python中简单的爬虫知识,对内涵段子的文章进行爬取. 需要用到的模块:requests模块和time模块. 需要的程序编辑软件:Pycharm 程序流程 1> 获取URL:进入 ...
- 内涵段子爬取及re匹配
案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/ ...
- 对内涵段子正则的提取
内涵段子正则爬取: """ 内涵段子爬虫 https://www.neihan8.com/article/index.html""" fro ...
最新文章
- 赠票 | 面见AI大神贾扬清!阿里云峰会船票抢先送~(上海站)
- 使用iso文件安装双系统linux,Win7下使用EasyBcd安装Ubuntu(iso文件)双系统
- 关于java的对象数组
- [C++][线程安全]单例模式下双检查锁和线程
- 小米mysql安装教程_小米 SOAR 开源SQL优化工具安装
- 大屏监控系统实战(14)-24小时得票数量统计曲线制作
- 资源放送丨《MGR原理介绍与案例分享》PPT视频
- android java静态库,Android make 中变量记录
- sentinel 时间窗口_Sentinel 实战-规则持久化
- 20155320 2016-2017-2 《Java程序设计》第五周学习总结
- 联想高校AI精英挑战赛移师冰城,哈工大上演人工智能创业大秀
- 3个关于HR的OKR的优秀案例
- Excel数据透视表教程小结
- 第 11 章 Harddisk
- 项目保密协议书(范本)
- 头歌-自己动手画CPU(第六关)-MIPS RAM设计-Logisim
- android 临时文件存储,缓存和临时文件/文件夹删除android
- 【Qt】Qt运行时Cannot retrieve debugging output错误
- 从“中国宙斯盾”亮相想到的
- play框架2.5.6教程——使用play控制台
热门文章
- CIO40知识星球—IT人之兄弟连
- 查mysql结构_Mysql查询架构信息
- python爬取拉勾网给定关键词职位信息存入数据库_Python 爬取拉勾网python职位信息...
- select UNION ALL 合并两张表数据
- Java(老白再次入门) - 语言概述
- 8岁 YouTube博主年收入1.8亿,成最赚钱博主!
- 2019 年度个人深度总结
- proguard 不混淆方法名_Proguard 常用规则
- Multi-way PCA——多维主成分分析
- Angular Live Development Server is listening on 0.0.0.0:4200, open your browser on url