用python抓取糗事百科的小程序
直接上代码和运行结果
#by suwenhao
#QQ 2487872782
import urllib
import urllib2
import repage = 1
url = 'http://www.qiushibaike.com/hot/page/' + str(page)
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
request = urllib2.Request(url,headers = headers)
response = urllib2.urlopen(request)
content = response.read().decode('utf-8')
pattern = re.compile('<div class="content">(.*?)</div>',re.S)
items = re.findall(pattern,content)
for item in items:print item
re.s表示多行匹配,详细说明 http://www.myext.cn/other/a_29426.html
运行结果如下图所示:
用python抓取糗事百科的小程序相关推荐
- Python抓取糗事百科网页信息以及源码下载
最近学习了一段时间的python,看书觉得挺简单,但是到真正高代码实现,确实不熟,下面这个东西搞了一下午时间,在别人的基础上改的,就这样也搞了一下午.算是有点入门了吧,不过,学习新东西,最快的方法就是 ...
- Python抓取糗事百科成人版图片
最近开始学习爬虫,一开始看的是静觅的爬虫系列文章,今天看到糗事百科成人版,心里就邪恶了一下,把图片都爬下来吧,哈哈~ 虽然后来实现了,但还是存在一些问题,暂且不提,先切入正题吧,没什么好说的,直接上代 ...
- Python爬虫--抓取糗事百科段子
今天使用python爬虫实现了自动抓取糗事百科的段子,因为糗事百科不需要登录,抓取比较简单.程序每按一次回车输出一条段子,代码参考了 http://cuiqingcai.com/990.html 但该 ...
- python爬虫经典段子_Python爬虫-抓取糗事百科段子
爬虫其实很简单,只要用心,很快就就能掌握这门技术,下面通过实现抓取糗事百科段子,来分析一下为什么爬虫事实上是个非常简单的东西. 本文目标 抓取糗事百科热门段子 实现每按一次回车显示一个段子的发布时间, ...
- Python爬取糗事百科段子
Python爬取糗事百科段子 Python2.7.15 今天我们来爬取糗事百科的段子 一.获取糗事百科的网页源码 首先,打开浏览器,进入糗事百科,复制它的网址. 然后我们翻个页,可以看到,网址变成了这 ...
- Python爬取糗事百科段子+定时发送QQ邮箱
文章目录 前言 1. 库导入及介绍 2. 获取网页源码 3. 提取需要的信息 4. 优化输出数据 5. 发送邮件 6. 实现定时发送 7. 源码 前言 学习Python爬虫也有段时间了,总想着搞点事做 ...
- python 爬取糗事百科的段子
本篇目标 1.抓取糗事百科热门段子 2.过滤带有图片的段子 3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数. 糗事百科是不需要登录的,所以也没必要用到Cookie,另外糗事百科有 ...
- Python3 定向爬虫之“抓取糗事百科图片”
#--*--coding:utf-8--*-- #抓取糗事百科图片,并保存到文件夹中import re import urllib.request from urllib.error import U ...
- 利用Python爬取糗事百科段子信息
文章来源:公众号-智能化IT系统. 爬虫技术目前越来越流行,这里介绍一个爬虫的简单应用. 爬取的内容为糗事百科文字内容中的信息,如图所示: 爬取糗事百科文字35页的信息,通过手动浏览,以下为前四页的网 ...
最新文章
- Java Web技术经验总结(二)
- windows拾取像素坐标_窗口坐标获取 windows
- echart 折线图、柱状图、饼图、环形图颜色修改
- 拼多多回应被列入恶名市场:对此不能认同
- php js绝对路径,javascript将相对路径转绝对路径示例_基础知识
- 基于wxpython+MySQL--实现人脸检测识别的宿舍人脸检测系统
- AES加密算法介绍与实现
- 2021年中国银行业金融机构普惠型小微企业贷款情况分析:贷款余额不断增加,增速也不断下降[图]
- 解决Linux下adb devices找不到设备
- 【C语言】动态内存管理 [进阶篇_ 复习专用]
- 外企面试英文自我介绍【面试经验】
- originPro导出图像的关键设置
- LeetCode 1079 活字印刷
- MySQL8使用with recursive实现递归
- 手把手教你使用Python网络爬虫获取音效信息
- Linux的tar命令
- Xilinx ISE、Synplify、Modelsim之间的关系,为什么会存在比ISE更专业的FPGA开发工具?
- ROS2源码快捷下载的办法
- 记录数据 生活管家APP
- 视频教程-在Vue中使用GraphQL实现聊天室-Vue
热门文章
- 精通python网络爬虫-精通Python网络爬虫 PDF 高清版
- python语言教程-python基础教程
- python基础知识梳理-Python基础知识梳理 - 第03部分
- python安装第三方库-python第三方库的四种安装方法
- python错误-第16天:Python 错误和异常
- python读取文件名-Python获取指定文件夹下的文件名的方法
- python中常见的流程结构-常见数据结构的 Python 实现(建议收藏)
- 如何自学python基础-零基础如何自学成为Python高手?我有几点干货
- python编程基础是什么-编程学习第一步,让你20天搞定Python编程
- LeetCode Reverse Linked List II