人生苦短,我用Python,今天来一起爬取一下内涵段子。

话不啰嗦直接代码,gogogog!

#coding=utf-8

import urllib2

import re

class Spider:

"""

内涵段子爬虫类

"""

def __init__(self, page, enable):

self.page = page

self.enable = enable

def loadPage(self, page):

url = 'http://www.neihan8.com/article/list_5_' + str(page) + '.html'

#User-Agent头

user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0'

headers = {'User-Agent': user_agent}

req = urllib2.Request(url, headers = headers)

response = urllib2.urlopen(req)

html = response.read()

gbk_html = html.decode('gbk').encode('utf-8')

# 找到所有的段子内容

# re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配

# 如果加上re.S 则是将所有的字符串将一个整体进行匹配

pattern = re.compile(r'

(.*?)

', re.S)

python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子相关推荐

  1. python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解

    这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...

  2. python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧

    Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...

  3. python爬虫经典段子_Python爬虫实战一之爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  4. python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)

    前言: 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1 ...

  5. python爬网易新闻_Python爬虫实战教程:爬取网易新闻

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...

  6. python秒杀神器苏宁_Python爬虫——实战三:爬取苏宁易购的商品价格

    苏宁易购的商品价格请求URL为 https://pas.suning.com/nspcsale_0_000000000152709847_000000000152709847_0000000000_1 ...

  7. python爬虫经典段子_Python爬虫实战(1):爬取糗事百科段子

    大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...

  8. python爬虫经典段子_Python爬虫实战之爬取糗事百科段子

    首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...

  9. python爬虫经典段子_Python爬虫实战:爬取内涵段子

    啊啊啊啊啊 话不多说直接上代码 #coding=utf-8 import urllib2 import re class Spider: """ 内涵段子爬虫类 &quo ...

最新文章

  1. 【物联网】NB-IoT简介
  2. php团队规范,简单的PHP团队编程规范与习惯
  3. android 自定义安全键盘,android 实现自定义安全键盘 且每次数字随机变换位置
  4. 阿里巴巴虾米的机器学习与深度学习进阶记
  5. 深度学习入门笔记系列(三)——感知器模型和 tensorboard 的使用方法
  6. Altium Designer 铺地
  7. Delphi XE7的Splash 功能
  8. ajax定时器怎么写,js定时器怎么写?就是在特定时间执行某段程序
  9. Android Mac下反编译apk
  10. Redis中数据结构和编码详细图解(应用场景及优缺点)
  11. 控制文件夹递归深度_TensorFlow、Pytorch和Keras的样例资源(深度学习初学者必须收藏)...
  12. Netty工作笔记0036---单Reactor单线程模式
  13. 谷歌最强NLP模型BERT如约开源,12小时GitHub标星破1500,即将支持中文
  14. 软件技术方案模板_携手跨越,法本信息数字化解决方案赋能企业,共建数字未来...
  15. java过滤器验证app用户token_SpringCloud笔记之Zuul过滤器PreFilter实现token校验(简单样例)...
  16. STM32CubeMX配置DCMI+DMA之OV2640
  17. iOS系统录屏如何增加雷达波纹效果(从一个点向周围扩散)的简单实现
  18. C#实现贝塞尔曲线的算法
  19. 浅谈Feature Scaling
  20. 3.《The Shawshank Redemption》

热门文章

  1. NoSql之Redis系列一: Redis的数据类型和基本使用
  2. 密码和Java中的加解密之MD5加点盐
  3. 基准测试神器 - JMH [ Java Microbenchmark Harness ]
  4. 毕设记录1||不要守株待兔
  5. Python Selenium.WebDriver 最强详解页面加载策略
  6. TokenInsight 与 BitUniverse 达成战略合作,用数据提高收益降低风险
  7. win7有线无线可以联网,但是显示图标打红叉
  8. 群晖7.0 mailplus 提示用户权限不足
  9. centos 7.6 ——远程访问及控制——(ssh密钥登录、ssh客户端、TCP Wrappers)
  10. 奥运了,愿明天会更好