Python 一个抓取糗百的段子的小程序
import requests import re #糗事百科爬虫类 class QSBK:#初始化方法,定义一些变量def __init__(self):self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"}#存放段子的变量,每一个元素是每一页的段子们self.stories=[]#存放程序是否继续运行的变量self.enable =Falsedef getPage(self,page):try:url = 'http://www.qiushibaike.com/hot/page/' + str(page)print(url)response = requests.get(url,headers=self.headers)html_content = response.content.decode('UTF-8')#print(html_content)# regex=re.compile('<div class="article block untagged mb15\s\S+" id="\S+">.*?</div>')regex = re.compile('<h2>(.*?)</h2>.*?<div class="content">\W+<span>(.*?)</span>', re.S)#regex = re.compile('<h2>', re.S)regex_content = re.findall(regex, html_content)print(regex_content)for i in regex_content:self.stories.append(i[0].replace('\n', ''),i[1].replace('\n', ''))return self.storiesexcept Exception as e:print('异常:%s' % e)js = QSBK()for i in range(100):lists = js.getPage(i)print('============================================ 第 '+str(i)+' 页 =============================================')print(lists)
如果发现不能用,那就是糗百又改规则了
Python 一个抓取糗百的段子的小程序相关推荐
- 简单粗暴的抓取糗百的段子——1
首先我们用到的软件是工具是pycharm,py3.6版本,工具包是 requests 和 bs4,没下载的抓紧时间哈~~~ 接着看下效果图吧~ 空行没有消除,跟题目很相仿~~~简单粗暴,这里只说方法 ...
- html访问微信云数据库,node.js 抓取网页内容(针对微信小程序云开发)
最近在研究微信小程序的云开发功能.云开发最大的好处就是不需要前端搭建服务器,可以使用云端能力,从零开始写出来一个能上线的微信小程序,避免了买服务器的开销,对于个人来尝试练手微信小程序从前端到后台的开发 ...
- php网页抓取浏览者手机号码_微信小程序开发之获取用户手机号码(php接口解密)...
后边要做一个微信小程序,并要能获取用户微信绑定的手机号码.而小程序开发文档上边提供的获取手机号码的接口(getPhoneNumber())返回的是密文,需要服务器端进行解密,但是官方提供的开发文档一如 ...
- 用python抓取糗事百科的小程序
直接上代码和运行结果 #by suwenhao #QQ 2487872782 import urllib import urllib2 import repage = 1 url = 'http:// ...
- fiddler抓取夜神模拟中 微信小程序和app的https数据包
1.下载并安装fiddler 2. 配置fiddler 3.手机端设置 3.1 设置wifi网段 3.2 安装证书 3.3 设置证书为信任证书 4. 查看抓包 1.下载并安装fiddler 下载地址 ...
- 小程序素材抓取软件_生鲜微信小程序软件
生鲜微信小程序开发,咨询找[韦经理:173-4068-9879可微可电],生鲜微信小程序app,生鲜微信小程序模式.生鲜微信小程序软件,生鲜微信小程序源码,生鲜微信小程序公众号,随着社会经济快速发展, ...
- python查天气预报_一个用Python编写抓取天气预报的代码示例
Python代码抓取获取天气预报信息源码讲解.这是一个用Python编写抓取天气预报的代码示例,用python写天气查询软件程序很简单.这段代码可以获取当地的天气和.任意城市的天气预报,原理是根据ur ...
- Python之网络爬虫(验证码、代理IP、防反爬策略、封装一个抓取页面的函数)
文章目录 一.使用tesseract做OCR验证码识别 二.代理服务器设置 三.反爬与防反爬 四.封装一个抓取页面的函数 一.使用tesseract做OCR验证码识别 1.cookie, sessio ...
- Python 多线程抓取网页 牛人 use raw socket implement http request great
Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...
最新文章
- 资源 | 一文掌握机器学习所有值得看的视频、课程、工具
- python并发编程之多进程理论部分
- 记录不认识的英文单词
- netflix 模式创新_创新设计模式:单例模式
- Nginx 日志配置实践
- flume学习(七):自定义source
- MATLAB模糊控制算法,驾驶员制动意图识别
- springmvc如何进行json格式转换及 json化日期格式
- 三因素三水平正交表l9_正交试验在减水剂中的应用
- Django下载安装及创建项目
- 201671030123+词频统计软件项目报告
- java发微信字体颜色_java微信公众号发送消息模板
- 页面添加蒙版,但是不影响页面其他事件响应
- 位(bit), 字节(byte), 字(word),双字(dword or Qword)释义
- 回复差评经典话术模板
- 【校招Verilog快速入门】基础语法篇:VL1、四选一多路器
- 【洛谷P4233】— 射命丸文的笔记(竞赛图+多项式求逆)
- 回溯法 backtrack
- 安装了vmware tools还是不能复制粘贴,使用了很多种方法都不可以
- 企业IT管理员IE11升级指南【17】—— F12 开发者工具
热门文章
- 华为鸿蒙 HarmonyOS 2.0 手机开发者 Beta 来了,对开发者意味着什么?
- Nginx 启动报错 directive is not allowed here in
- 10qbt超导量子计算机,南京大学于扬、朱诗亮团队在超导量子比特中实现参数空间的新型磁单极...
- n9 android rom,三星N935L官方安卓9固件rom系统线刷包:LUC-N935LKLU4CSI1
- 从SOD到OOD(C++风格程序设计)
- 关于应用版本号的更迭
- CodeMirror使用小结
- arm-none-eabi-gcc编译、链接选项详解
- java遍历树(深度遍历和广度遍历)
- 所谓的内存释放工具——原理