python 抓取内涵段子
#coding:utf-8 import urllib2 import re class Spider:def __init__(self):self.page = 1 self.switch = True def loadPage(self):print "正在下载数据...." url = "http://www.neihan8.com/article/list_5_" + str(self.page) + ".html" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36" }request = urllib2.Request(url, headers=headers)response = urllib2.urlopen(request)html = response.read()html = unicode(html, "gb2312").encode("utf8")pattern = re.compile('<div\sclass="f18 mb20">(.*?)</div>', re.S)content_list = pattern.findall(html)self.dealPage(content_list)def dealPage(self, content_list):for item in content_list:p = re.compile(r'\s+')item = p.sub('',item)+"\n\r" self.writePage(item)def writePage(self, item):print "正在写入数据..." with open("duanzi.txt", "a") as f:f.write(item)def startWork(self):while self.switch:self.loadPage()command = raw_input("如果继续爬取, 请按回车(退出输入quit)")if command == 'quit':self.switch = False self.page += 1 print "谢谢使用" if __name__ == '__main__':duanziSpider = Spider()duanziSpider.startWork()
python 抓取内涵段子相关推荐
- 30 爬虫 - 爬取内涵段子网站案例
现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5 ...
- python代码案例详解-我用Python抓取了7000 多本电子书案例详解
安装 安装很简单,只要执行: pip install requests-html 就可以了. 分析页面结构 通过浏览器审查元素可以发现这个电子书网站是用 WordPress 搭建的,首页列表元素很简单 ...
- python抓取头条文章
python抓取头条美文并存储到mongodb # Author:song from multiprocessing import Pool from urllib.parse import urle ...
- 微信好友大揭秘,使用Python抓取朋友圈数据,通过人脸识别全面分析好友,一起看透你的“朋友圈”...
微信:一个提供即时通讯服务的应用程序,更是一种生活方式,超过数十亿的使用者,越来越多的人选择使用它来沟通交流. 不知从何时起,我们的生活离不开微信,每天睁开眼的第一件事就是打开微信,关注着朋友圈里好友 ...
- python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...
大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...
- blob的真实地址怎么获得_使用Python抓取m3u8加密视频 续:获得index.m3u8 地址
之前写<使用Python抓取m3u8加密视频>笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手. 今天看了回复,有同学想知道如何从视频网站上 ...
- python 抓取的网页默认是bytes的,要转码
python 抓取的网页默认是bytes的,要转码. 查看网页源码可以看到,我本次抓取的网页的编码方式是utf-8的. req = urllib.request.Request(url=myurl,h ...
- python 抓取网页链接_从Python中的网页抓取链接
python 抓取网页链接 Prerequisite: 先决条件: Urllib3: It is a powerful, sanity-friendly HTTP client for Python ...
- python抓取网站乱码_如何使用Python抓取网站
python抓取网站乱码 by Devanshu Jain 由Devanshu Jain It is that time of the year when the air is filled with ...
最新文章
- 香港中文大学(深圳)韩晓光博士团队招聘博士后和工程师多名
- YOLO之父退出CV界表达抗议,拒绝AI算法用于军事和隐私窥探
- Python Tkinter 常用控件空间位置摆放
- 用Emesene替换Windows Live Messenger
- 线程的组成 java 1615387415
- 海园帮忙写的JQUERY功能,实现了我们想要的,我觉得有点屌哟~~
- 【2】Keras之激活函数
- [SHELL进阶] (转)最牛B的 Linux Shell 命令 (三)
- 青岛科技大学C语言程序设计,青岛科技大学c语言试题库
- 浙大pat | 浙大pat乙级 1001~1004
- 最快下载速度100Mbps!4G LTE技术全解析
- 程序员英文面试题及回答(带中文翻译)
- 04-Redis 数据持久化实践
- SW练习_POJ2007_CCW
- 3D游戏:八、粒子系统与流动效果
- 嵌入式BootLoader技术内幕(一)
- 升压电路(Boost)的设计原理、参数计算及MATLAB仿真
- 视频:说话的艺术-与斯科特·汉塞尔曼(Scott Hanselman)
- .NET MAUI 安卓 UI 资源设置
- 影视领域解说电影怎样做才会更加出彩?
热门文章
- 剖析一个成功的失败项目管理案例
- 【游戏开发实战】手把手教你从零跑一个Skynet,详细教程,含案例讲解(服务端 | Skynet | Ubuntu)
- Web字体(【iconfont.cn】引用在线字体)@font-face属性的使用以及字体格式详解
- 95后毕业生求职:不问工资,关心有无健身房下午茶
- 我被39岁阿姨包全天讲代码
- Do not be evil-不作恶的谷歌
- Elasticsearch目录结构简单介绍
- mac远程登陆iphone,和密码修改
- Android开发工程师
- 【ESP32+freeRTOS学习笔记-开篇前言】