python爬虫经典段子_Python爬虫实战:爬取内涵段子
啊啊啊啊啊 话不多说直接上代码
#coding=utf-8
import urllib2
import re
class Spider:
"""
内涵段子爬虫类
"""
def __init__(self, page, enable):
self.page = page
self.enable = enable
def loadPage(self, page):
url = 'http://www.neihan8.com/article/list_5_' + str(page) + '.html'
#User-Agent头
user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0'
headers = {'User-Agent': user_agent}
req = urllib2.Request(url, headers = headers)
response = urllib2.urlopen(req)
html = response.read()
gbk_html = html.decode('gbk').encode('utf-8')
# 找到所有的段子内容
# re.S 如果没有re.S 则是只匹配一行有没有符合规则的字符串,如果没有则下一行重新匹配
# 如果加上re.S 则是将所有的字符串将一个整体进行匹配
pattern = re.compile(r'
(.*?)
', re.S)
python爬虫经典段子_Python爬虫实战:爬取内涵段子相关推荐
- python3利用正则表达式爬取内涵段子
似乎正则在爬虫中用的不是很广泛,但是也是基本功需要我们去掌握. 先将内涵段子网页爬取下来,之后利用正则进行匹配,匹配完成后将匹配的段子写入文本文档内.代码如下: # -*- coding:utf-8 ...
- 正则例子---爬取内涵段子
正则例子,爬取内涵段子 # coding=utf-8 import requests import re import jsonclass Neihan:def __init__(self):self ...
- 30 爬虫 - 爬取内涵段子网站案例
现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...
- python多线程爬取段子_Python爬虫实战之一秒爬取内涵段子
人生苦短,我用Python,今天来一起爬取一下内涵段子. 话不啰嗦直接代码,gogogog! #coding=utf-8 import urllib2 import re class Spider: ...
- Python爬虫爬取静态网页实例一:爬取内涵段子吧上的段子
最近在学爬虫,这里用实例来与大家分享一下我学习的经验. 这里讲一个爬取静态网页内容的实例,Python一般利用正则表达式爬取静态静态网页的内容,而且因为静态网页源代码固定,不会发生变化,所以比较简单, ...
- python利用正则爬取内涵段子内容
首页导入模块: 创建一个Spider类: 初始化方法: 爬取页面的函数: 处理页面的函数: 写入文件的函数: 测试和调度器: 结果: 参考:https://blog.csdn.net/qq_35723 ...
- Python2爬取内涵段子
我的公众号:帕森与加瓦 代码git地址:https://github.com/DemonYan/spider_study 后续爬虫相关代码都会在git上进行更新,请持续关注 本文分享自己学爬虫的一个 ...
- 关于python搞笑段子_Python爬取内涵段子里的段子
环境:Python3.6 #!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛' import req ...
- python段子_Python爬取内涵段子里的段子
环境:Python3.6 #!/usr/bin/env python3 #-*-coding:utf-8-*- #version:3.6.4 __author__ = '杜文涛' import req ...
最新文章
- Linux平台Qt creator报错:Circular all - first dependency dropped
- html的div的儿子,当父母的身高是动态时,孩子div为100% HTML / CSS
- elk,logstash -elastcisearch 429
- Mac中安装git后,终端运行git出错,提示安装Xcode
- Linux安装Gradle
- 【weex开发】环境配置流程
- 伤钱伤感情 10件不能和亲戚一起干的事儿
- 总奖池25万!百度AI Studio人工智能竞赛火热报名中
- UNIX-LINUX编程实践教程-第三章-实例代码注解-ls2
- smarty中英文多编码字符截取乱码问题
- android系统优化(19)--系统性能优化第6季
- 【FLink】Flink 1.9 升级到 1.12.4 无配置页面 无日志
- 2021-01-26数据治理具备哪些优势
- knockoutjs介绍
- 安卓Autojs逆向破解必备基础smail基础语法
- 考研数据结构之栈(2.5)——练习题之求解二次方根A的迭代函数,写出相应的递归算法和非递归算法(C表示)
- css定位(二)---css中粘性定位(sticky)---C3新增属性
- python调用so库
- 字体加粗造成文字抖动
- LA4043 KM算法