#-*-coding:utf-8

import requests

import os

from bs4 import BeautifulSoup

import lxml

import sys

#改变系统的默认编码

reload(sys)

sys.setdefaultencoding('utf-8')

class DZ():

def __init__(self,url,pageIndex):

self.url=url+str(pageIndex)

self.headers={'User_Agent':'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'}

#得到一页的源码

def get_one_page_html(self):

re=requests.get(self.url,self.headers)

html=re.text

return html

#得到所有的段子的url

def get_one_text_url(self):

all_a=[] #这里用来记录每一条段子的链接

for i in range(1,2): #这里先暂时爬取30页的段子

html=self.get_one_page_html()

soup=BeautifulSoup(html,'lxml')

all_h2=soup.find_all('h2')

for h2 in all_h2:

all_a.append(h2.find('a').get('href'))

return all_a

#下载所有的段子

def get_text(self):

all_a=self.get_one_text_url() #首先获得所有段子的url

x=0

for a in all_a:

re=requests.get(a,headers=self.headers)

html=re.text

soup=BeautifulSoup(html,'lxml')

all_p=soup.find('article',class_='article-content').find_all('p')

for p in all_p:

print p.text

if __name__=='__main__':

url='https://duanziwang.com/category/duanzi/page/'

app=DZ(url,1)

app.get_text()

希望与广大网友互动??

点此进行留言吧!

python段子_python爬虫爬取段子相关推荐

  1. python爬虫经典段子_Python爬虫-爬取糗事百科段子

    闲来无事,学学python爬虫. 在正式学爬虫前,简单学习了下HTML和CSS,了解了网页的基本结构后,更加快速入门. 1.获取糗事百科url 2.先抓取HTML页面 importurllibimpo ...

  2. 智联招聘python岗位_Python爬虫爬取智联招聘职位信息

    import urllib2 import re import xlwt '''遇到不懂的问题?Python学习交流群:821460695满足你的需求,资料都已经上传群文件,可以自行下载!''' cl ...

  3. python + selenium +pyquery 爬虫 爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩

    python + selenium +pyquery 爬虫  爬取 1688详情图片 阿里巴巴详情图片 与标题 下载图片并进行压缩 用到的库和源码下载地址 需要用到chromedriver  包含wi ...

  4. python简单网站爬虫-爬取北京7天最高、最低气温

    python简单网站爬虫-爬取北京7天最高.最低气温 前置操作: 1.待爬取网站: 北京天气的网址: http://www.weather.com.cn/weather1d/101010100.sht ...

  5. Python网络爬虫与聚焦爬虫,如何用爬虫爬取段子

    一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...

  6. python爬虫提取人名_python爬虫—爬取英文名以及正则表达式的介绍

    python爬虫-爬取英文名以及正则表达式的介绍 爬取英文名: 一. 爬虫模块详细设计 (1)整体思路 对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个csv ...

  7. python跑一亿次循环_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  8. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  9. python爬表格数据_python爬虫,爬取表格数据

    python爬虫,爬取表格数据 python爬虫,爬取表格数据 python爬虫,爬取全国空气质量指数 编程环境:Jupyter Notebook 所要爬取的网页数据内容如下图 python爬虫代码及 ...

最新文章

  1. python笔记:深拷贝与浅拷贝
  2. boost::mp11::mp_repeat相关用法的测试程序
  3. 看苏宁易购的运营保障体系如何hold住818大促
  4. jsk Star War (线段树维护区间最小最大值 + 二分)
  5. Linux监控命令之 top
  6. 全网最新Spring Boot2.5.1整合Activiti5.22.0企业实战教程<UEL表达式篇>
  7. @MapperScan扫描包的问题
  8. 为了忘却的纪念----开始从操就业的第一个SHELL程序
  9. 如何优雅地制作精排 ePub —— 个人电子书制作规范及基本样式表
  10. STM32/STM32L151 RTC唤醒低功耗STOP(停机模式)
  11. 【编程实践】复杂网络的基本知识及实现
  12. Intel Edison 装Debian系统
  13. php获取指定日期的节假日信息
  14. 谈谈对 Database Plus 认识与畅想
  15. alt+tab突然不能切换窗口(樱桃机械键盘)
  16. 做内网穿透外网远程访问群晖NAS 2-2
  17. 2021职业院校新一代信息技术专业群1+X职业技能等级证书汇总
  18. CSS高级雪碧图插入方法
  19. 第二章.Java程序设计基础
  20. Java实现Shamir秘密共享带注释

热门文章

  1. js原型链污染(超详细)
  2. boot分区剩余空间不足
  3. OMNICONFIG安卓使用注意点
  4. 木马免杀之汇编花指令技巧
  5. 做自媒体,从0到月入10000,自媒体到底怎么赚钱?
  6. 接口测试平台167:并发报告问题解决
  7. Python爬虫理论 | (6) 进阶反反爬虫技术 --- 验证码识别
  8. Java 1.8 数组转 Set,转List,转由零自增的Map
  9. 5G概念被热炒,运营商吃相不要太难看 1
  10. 荣耀可以升级鸿蒙系统的机型,华为公布鸿蒙升级计划:覆盖上百机型,五年前的老机也能升级...