python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子
人生苦短,我用Python,今天来一起爬取一下内涵段子。
话不啰嗦直接代码,gogogog!
#coding=utf-8
import urllib2
import re
class Spider:
"""
内涵段子爬虫类
"""
def __init__(self, page, enable):
self.page = page
self.enable = enable
def loadPage(self, page):
url = 'http://www.neihan8.com/article/list_5_' + str(page) + '.html'
#User-Agent头
user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0'
headers = {'User-Agent': user_agent}
req = urllib2.Request(url, headers = headers)
response = urllib2.urlopen(req)
html = response.read()
gbk_html = html.decode('gbk').encode('utf-8')
# 找到所有的段子内容
# re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配
# 如果加上re.S 则是将所有的字符串将一个整体进行匹配
pattern = re.compile(r'
(.*?)
', re.S)
python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子相关推荐
- python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解
这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...
- python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧
Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...
- python爬虫经典段子_Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
- python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)
前言: 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1 ...
- python爬网易新闻_Python爬虫实战教程:爬取网易新闻
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
- python秒杀神器苏宁_Python爬虫——实战三:爬取苏宁易购的商品价格
苏宁易购的商品价格请求URL为 https://pas.suning.com/nspcsale_0_000000000152709847_000000000152709847_0000000000_1 ...
- python爬虫经典段子_Python爬虫实战(1):爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
- python爬虫经典段子_Python爬虫实战之爬取糗事百科段子
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致之前的代码没法用了,会导致无法输出和CPU占用过高的 ...
- python爬虫经典段子_Python爬虫实战:爬取内涵段子
啊啊啊啊啊 话不多说直接上代码 #coding=utf-8 import urllib2 import re class Spider: """ 内涵段子爬虫类 &quo ...
最新文章
- 【物联网】NB-IoT简介
- php团队规范,简单的PHP团队编程规范与习惯
- android 自定义安全键盘,android 实现自定义安全键盘 且每次数字随机变换位置
- 阿里巴巴虾米的机器学习与深度学习进阶记
- 深度学习入门笔记系列(三)——感知器模型和 tensorboard 的使用方法
- Altium Designer 铺地
- Delphi XE7的Splash 功能
- ajax定时器怎么写,js定时器怎么写?就是在特定时间执行某段程序
- Android Mac下反编译apk
- Redis中数据结构和编码详细图解(应用场景及优缺点)
- 控制文件夹递归深度_TensorFlow、Pytorch和Keras的样例资源(深度学习初学者必须收藏)...
- Netty工作笔记0036---单Reactor单线程模式
- 谷歌最强NLP模型BERT如约开源,12小时GitHub标星破1500,即将支持中文
- 软件技术方案模板_携手跨越,法本信息数字化解决方案赋能企业,共建数字未来...
- java过滤器验证app用户token_SpringCloud笔记之Zuul过滤器PreFilter实现token校验(简单样例)...
- STM32CubeMX配置DCMI+DMA之OV2640
- iOS系统录屏如何增加雷达波纹效果(从一个点向周围扩散)的简单实现
- C#实现贝塞尔曲线的算法
- 浅谈Feature Scaling
- 3.《The Shawshank Redemption》
热门文章
- NoSql之Redis系列一: Redis的数据类型和基本使用
- 密码和Java中的加解密之MD5加点盐
- 基准测试神器 - JMH [ Java Microbenchmark Harness ]
- 毕设记录1||不要守株待兔
- Python Selenium.WebDriver 最强详解页面加载策略
- TokenInsight 与 BitUniverse 达成战略合作,用数据提高收益降低风险
- win7有线无线可以联网,但是显示图标打红叉
- 群晖7.0 mailplus 提示用户权限不足
- centos 7.6 ——远程访问及控制——(ssh密钥登录、ssh客户端、TCP Wrappers)
- 奥运了,愿明天会更好