#coding:utf-8
import urllib2
import re
class Spider:def __init__(self):self.page = 1
        self.switch = True

    def loadPage(self):print "正在下载数据...."
        url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html"
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"
        }request = urllib2.Request(url, headers=headers)response = urllib2.urlopen(request)html = response.read()html = unicode(html, "gb2312").encode("utf8")pattern = re.compile('<div\sclass="f18 mb20">(.*?)</div>', re.S)content_list = pattern.findall(html)self.dealPage(content_list)def dealPage(self, content_list):for item in content_list:p = re.compile(r'\s+')item = p.sub('',item)+"\n\r"
            self.writePage(item)def writePage(self, item):print "正在写入数据..."
        with open("duanzi.txt", "a") as f:f.write(item)def startWork(self):while self.switch:self.loadPage()command = raw_input("如果继续爬取, 请按回车(退出输入quit)")if command == 'quit':self.switch = False
            self.page += 1
        print "谢谢使用"

if __name__ == '__main__':duanziSpider = Spider()duanziSpider.startWork()

python 抓取内涵段子相关推荐

  1. 30 爬虫 - 爬取内涵段子网站案例

    现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...

  2. python代码案例详解-我用Python抓取了7000 多本电子书案例详解

    安装 安装很简单,只要执行: pip install requests-html 就可以了. 分析页面结构 通过浏览器审查元素可以发现这个电子书网站是用 WordPress 搭建的,首页列表元素很简单 ...

  3. python抓取头条文章

    python抓取头条美文并存储到mongodb # Author:song from multiprocessing import Pool from urllib.parse import urle ...

  4. 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...

    微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...

  5. python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...

    大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

  6. blob的真实地址怎么获得_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址

    之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...

  7. python 抓取的网页默认是bytes的,要转码

    python 抓取的网页默认是bytes的,要转码. 查看网页源码可以看到,我本次抓取的网页的编码方式是utf-8的. req = urllib.request.Request(url=myurl,h ...

  8. python 抓取网页链接_从Python中的网页抓取链接

    python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...

  9. python抓取网站乱码_如何使用Python抓取网站

    python抓取网站乱码 by Devanshu Jain 由Devanshu Jain It is that time of the year when the air is filled with ...

最新文章

  1. 香港中文大学(深圳)韩晓光博士团队招聘博士后和工程师多名
  2. YOLO之父退出CV界表达抗议,拒绝AI算法用于军事和隐私窥探
  3. Python Tkinter 常用控件空间位置摆放
  4. 用Emesene替换Windows Live Messenger
  5. 线程的组成 java 1615387415
  6. 海园帮忙写的JQUERY功能,实现了我们想要的,我觉得有点屌哟~~
  7. 【2】Keras之激活函数
  8. [SHELL进阶] (转)最牛B的 Linux Shell 命令 (三)
  9. 青岛科技大学C语言程序设计,青岛科技大学c语言试题库
  10. 浙大pat | 浙大pat乙级 1001~1004
  11. 最快下载速度100Mbps!4G LTE技术全解析
  12. 程序员英文面试题及回答(带中文翻译)
  13. 04-Redis 数据持久化实践
  14. SW练习_POJ2007_CCW
  15. 3D游戏:八、粒子系统与流动效果
  16. 嵌入式BootLoader技术内幕(一)
  17. 升压电路(Boost)的设计原理、参数计算及MATLAB仿真
  18. 视频:说话的艺术-与斯科特·汉塞尔曼(Scott Hanselman)
  19. .NET MAUI 安卓 UI 资源设置
  20. 影视领域解说电影怎样做才会更加出彩?

热门文章

  1. 剖析一个成功的失败项目管理案例
  2. 【游戏开发实战】手把手教你从零跑一个Skynet,详细教程,含案例讲解(服务端 | Skynet | Ubuntu)
  3. Web字体(【iconfont.cn】引用在线字体)@font-face属性的使用以及字体格式详解
  4. 95后毕业生求职:不问工资,关心有无健身房下午茶
  5. 我被39岁阿姨包全天讲代码
  6. Do not be evil-不作恶的谷歌
  7. Elasticsearch目录结构简单介绍
  8. mac远程登陆iphone,和密码修改
  9. Android开发工程师
  10. 【ESP32+freeRTOS学习笔记-开篇前言】