import requests
import re
#糗事百科爬虫类
class QSBK:#初始化方法,定义一些变量def __init__(self):self.headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"}#存放段子的变量,每一个元素是每一页的段子们self.stories=[]#存放程序是否继续运行的变量self.enable =Falsedef getPage(self,page):try:url = 'http://www.qiushibaike.com/hot/page/' + str(page)print(url)response = requests.get(url,headers=self.headers)html_content = response.content.decode('UTF-8')#print(html_content)# regex=re.compile('<div class="article block untagged mb15\s\S+" id="\S+">.*?</div>')regex = re.compile('<h2>(.*?)</h2>.*?<div class="content">\W+<span>(.*?)</span>', re.S)#regex = re.compile('<h2>', re.S)regex_content = re.findall(regex, html_content)print(regex_content)for i in regex_content:self.stories.append(i[0].replace('\n', ''),i[1].replace('\n', ''))return self.storiesexcept Exception as e:print('异常:%s' % e)js = QSBK()for i in range(100):lists = js.getPage(i)print('============================================ 第 '+str(i)+' 页 =============================================')print(lists)

如果发现不能用,那就是糗百又改规则了

Python 一个抓取糗百的段子的小程序相关推荐

  1. 简单粗暴的抓取糗百的段子——1

    首先我们用到的软件是工具是pycharm,py3.6版本,工具包是 requests 和 bs4,没下载的抓紧时间哈~~~ 接着看下效果图吧~ 空行没有消除,跟题目很相仿~~~简单粗暴,这里只说方法 ...

  2. html访问微信云数据库,node.js 抓取网页内容(针对微信小程序云开发)

    最近在研究微信小程序的云开发功能.云开发最大的好处就是不需要前端搭建服务器,可以使用云端能力,从零开始写出来一个能上线的微信小程序,避免了买服务器的开销,对于个人来尝试练手微信小程序从前端到后台的开发 ...

  3. php网页抓取浏览者手机号码_微信小程序开发之获取用户手机号码(php接口解密)...

    后边要做一个微信小程序,并要能获取用户微信绑定的手机号码.而小程序开发文档上边提供的获取手机号码的接口(getPhoneNumber())返回的是密文,需要服务器端进行解密,但是官方提供的开发文档一如 ...

  4. 用python抓取糗事百科的小程序

    直接上代码和运行结果 #by suwenhao #QQ 2487872782 import urllib import urllib2 import repage = 1 url = 'http:// ...

  5. fiddler抓取夜神模拟中 微信小程序和app的https数据包

    1.下载并安装fiddler 2. 配置fiddler 3.手机端设置 3.1 设置wifi网段 3.2 安装证书 3.3 设置证书为信任证书 4. 查看抓包 1.下载并安装fiddler 下载地址 ...

  6. 小程序素材抓取软件_生鲜微信小程序软件

    生鲜微信小程序开发,咨询找[韦经理:173-4068-9879可微可电],生鲜微信小程序app,生鲜微信小程序模式.生鲜微信小程序软件,生鲜微信小程序源码,生鲜微信小程序公众号,随着社会经济快速发展, ...

  7. python查天气预报_一个用Python编写抓取天气预报的代码示例

    Python代码抓取获取天气预报信息源码讲解.这是一个用Python编写抓取天气预报的代码示例,用python写天气查询软件程序很简单.这段代码可以获取当地的天气和.任意城市的天气预报,原理是根据ur ...

  8. Python之网络爬虫(验证码、代理IP、防反爬策略、封装一个抓取页面的函数)

    文章目录 一.使用tesseract做OCR验证码识别 二.代理服务器设置 三.反爬与防反爬 四.封装一个抓取页面的函数 一.使用tesseract做OCR验证码识别 1.cookie, sessio ...

  9. Python 多线程抓取网页 牛人 use raw socket implement http request great

    Python 多线程抓取网页 - 糖拌咸鱼 - 博客园 Python 多线程抓取网页 最近,一直在做网络爬虫相关的东西. 看了一下开源C++写的larbin爬虫,仔细阅读了里面的设计思想和一些关键技术 ...

最新文章

  1. 资源 | 一文掌握机器学习所有值得看的视频、课程、工具
  2. python并发编程之多进程理论部分
  3. 记录不认识的英文单词
  4. netflix 模式创新_创新设计模式:单例模式
  5. Nginx 日志配置实践
  6. flume学习(七):自定义source
  7. MATLAB模糊控制算法,驾驶员制动意图识别
  8. springmvc如何进行json格式转换及 json化日期格式
  9. 三因素三水平正交表l9_正交试验在减水剂中的应用
  10. Django下载安装及创建项目
  11. 201671030123+词频统计软件项目报告
  12. java发微信字体颜色_java微信公众号发送消息模板
  13. 页面添加蒙版,但是不影响页面其他事件响应
  14. 位(bit), 字节(byte), 字(word),双字(dword or Qword)释义
  15. 回复差评经典话术模板
  16. 【校招Verilog快速入门】基础语法篇:VL1、四选一多路器
  17. 【洛谷P4233】— 射命丸文的笔记(竞赛图+多项式求逆)
  18. 回溯法 backtrack
  19. 安装了vmware tools还是不能复制粘贴,使用了很多种方法都不可以
  20. 企业IT管理员IE11升级指南【17】—— F12 开发者工具

热门文章

  1. 华为鸿蒙 HarmonyOS 2.0 手机开发者 Beta 来了,对开发者意味着什么?
  2. Nginx 启动报错 directive is not allowed here in
  3. 10qbt超导量子计算机,南京大学于扬、朱诗亮团队在超导量子比特中实现参数空间的新型磁单极...
  4. n9 android rom,三星N935L官方安卓9固件rom系统线刷包:LUC-N935LKLU4CSI1
  5. 从SOD到OOD(C++风格程序设计)
  6. 关于应用版本号的更迭
  7. CodeMirror使用小结
  8. arm-none-eabi-gcc编译、链接选项详解
  9. java遍历树(深度遍历和广度遍历)
  10. 所谓的内存释放工具——原理