啊啊啊啊啊 话不多说直接上代码

#coding=utf-8

import urllib2

import re

class Spider:

"""

内涵段子爬虫类

"""

def __init__(self, page, enable):

self.page = page

self.enable = enable

def loadPage(self, page):

url = 'http://www.neihan8.com/article/list_5_' + str(page) + '.html'

#User-Agent头

user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0'

headers = {'User-Agent': user_agent}

req = urllib2.Request(url, headers = headers)

response = urllib2.urlopen(req)

html = response.read()

gbk_html = html.decode('gbk').encode('utf-8')

# 找到所有的段子内容

# re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配

# 如果加上re.S 则是将所有的字符串将一个整体进行匹配

pattern = re.compile(r'

(.*?)

', re.S)

python爬虫经典段子_Python爬虫实战:爬取内涵段子相关推荐

  1. python3利用正则表达式爬取内涵段子

    似乎正则在爬虫中用的不是很广泛,但是也是基本功需要我们去掌握. 先将内涵段子网页爬取下来,之后利用正则进行匹配,匹配完成后将匹配的段子写入文本文档内.代码如下: # -*- coding:utf-8 ...

  2. 正则例子---爬取内涵段子

    正则例子,爬取内涵段子 # coding=utf-8 import requests import re import jsonclass Neihan:def __init__(self):self ...

  3. 30 爬虫 - 爬取内涵段子网站案例

    现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...

  4. python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子

    人生苦短,我用Python,今天来一起爬取一下内涵段子. 话不啰嗦直接代码,gogogog! #coding=utf-8 import urllib2 import re class Spider: ...

  5. Python爬虫爬取静态网页实例一:爬取内涵段子吧上的段子

    最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...

  6. python利用正则爬取内涵段子内容

    首页导入模块: 创建一个Spider类: 初始化方法: 爬取页面的函数: 处理页面的函数: 写入文件的函数: 测试和调度器: 结果: 参考:https://blog.csdn.net/qq_35723 ...

  7. Python2爬取内涵段子

    我的公众号:帕森与加瓦 代码git地址:https://github.com/DemonYan/spider_study  后续爬虫相关代码都会在git上进行更新,请持续关注 本文分享自己学爬虫的一个 ...

  8. 关于python搞笑段子_Python爬取内涵段子里的段子

    环境:Python3.6 #!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛' import req ...

  9. python段子_Python爬取内涵段子里的段子

    环境:Python3.6 #!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛' import req ...

最新文章

  1. Linux平台Qt creator报错:Circular all - first dependency dropped
  2. html的div的儿子,当父母的身高是动态时,孩子div为100% HTML / CSS
  3. elk,logstash -elastcisearch 429
  4. Mac中安装git后,终端运行git出错,提示安装Xcode
  5. Linux安装Gradle
  6. 【weex开发】环境配置流程
  7. 伤钱伤感情 10件不能和亲戚一起干的事儿
  8. 总奖池25万!百度AI Studio人工智能竞赛火热报名中
  9. UNIX-LINUX编程实践教程-第三章-实例代码注解-ls2
  10. smarty中英文多编码字符截取乱码问题
  11. android系统优化(19)--系统性能优化第6季
  12. 【FLink】Flink 1.9 升级到 1.12.4 无配置页面 无日志
  13. 2021-01-26数据治理具备哪些优势
  14. knockoutjs介绍
  15. 安卓Autojs逆向破解必备基础smail基础语法
  16. 考研数据结构之栈(2.5)——练习题之求解二次方根A的迭代函数,写出相应的递归算法和非递归算法(C表示)
  17. css定位(二)---css中粘性定位(sticky)---C3新增属性
  18. python调用so库
  19. 字体加粗造成文字抖动
  20. LA4043 KM算法

热门文章

  1. 2021 年最新的个人录制的前后端真正的免费编程学习视频
  2. 数据类型和运算符答案
  3. 【220】【3】滑动窗口(双指针)的应用,另有序的容器应用
  4. DeepbrainChain2021年末週报
  5. SSM集成支付宝(沙箱环境)
  6. 我的网安之路——2020年总结
  7. 三星新硬盘 旧硬盘_我应该如何存放旧硬盘和电子组件?
  8. 万众瞩目!ICF5国产开源飞控推出,为国内无人系统发力
  9. python爬虫实战笔记---以轮子哥为起点Scrapy爬取知乎用户信息
  10. CSS 文字装饰 text-decoration amp; text-emphasis