python是一个高效率的工具,无论是做什么开发的程序员,学点python,很多时候,总会让你事半功倍,如用python换包名,用python进行搜索文件,用python进行...,今天小试python,爬取搞笑段子及网站图片。

1

爬取糗事百科段子

使用BeautifulSoup库,可以自行下载

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib2
def getContent(n):  url = 'http://www.qiushibaike.com/text/page/' + str(n) + '/'  print url  heads = {  'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36',  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',  'Connection': 'keep-alive',  'Upgrade-Insecure-Requests': '1',  'Referer': 'http://www.qiushibaike.com/',  'Accept-Language': 'zh-CN,zh;q=0.8',  'Cookie': '_xsrf=2|db27040e|6b4ed8d9536590d4ec5d2064cc2bef4f|1474364551; _qqq_uuid_="2|1:0|10:1474364551|10:_qqq_uuid_|56:MzBlNWFkOGE3MWEyMzc1MWIxMTE3MDBlZjM2M2RkZWQxYzU5YTg1Yw==|1dd2a4f4ceacad26b5da9cc295d2965226ea25ee73289855cf032629c4992698"; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1474364592; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1474364595; _ga=GA1.2.1125329542.1474364596'  }  res = urllib2.Request(url, headers=heads)  response = urllib2.urlopen(res)  html = response.read()  soup = BeautifulSoup(html, "lxml")  someData = soup.select("div.content span")  num = 0  for some in someData:  num = num + 1  print num  print some.text + '\n'
if __name__ == "__main__":  for i in range(1, 5):  getContent(i)

在cmd效果:

在Eclipse中运行:

2

爬取图片

爬取图片:(煎蛋网)

[1] 图片请上传到 新浪微博相册,在评论框里粘帖图片地址即可发图
[2] 原创图请注明来源。发布后请等待审核,未通过审核的原因可能是重复图或者敏感图

妹子图过审标准:1、非AV截图;2、身着内衣;3、不露点

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
from HttpClient import HttpClient
import sys,re,os
class JianDan(HttpClient):def __init__(self):self.__pageIndex = 1500self.__Url = "http://jandan.net/ooxx/"self.__floder = "jiandan"def __getAllPicUrl(self,pageIndex):realurl = self.__Url + "page-" + str(pageIndex) + "#comments"pageCode = self.Get(realurl)type = sys.getfilesystemencoding()pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))num = 0for item in items:num = num + 1  print "获取到图片:" + str(num) + "--->" + str("http:") + itemself.__savePics(items,self.__floder)def __savePics(self,img_addr,folder):for item in img_addr:filename = item.split('/')[-1]print "正在保存图片:" + filenamewith open(filename,'wb') as file:img = self.Get(str("http:") + item)file.write(img)def __getNewPage(self):pageCode = self.Get(self.__Url)type = sys.getfilesystemencoding()pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">\[(.*?)\]</span>',re.S)newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))print pageCode.decode("UTF-8").encode(type)if newPage != None:return newPage.group(1)return 1500def start(self):isExists=os.path.exists(self.__floder)#检测是否存在目录print isExistsif not isExists:os.mkdir(self.__floder)os.chdir(self.__floder)page = int(self.__getNewPage())for i in range(self.__pageIndex,page):self.__getAllPicUrl(i)
if __name__ == '__main__':jd = JianDan()jd.start()
JianDan

中间运行过程:

最后效果:

爬去内容和图片,肯定不是最终极目的,这些都是好玩的,最后爬点不同的音频、视频封装格式,才是重点。这个原理也是一样的,分析到对应标签地址,进行下载,有这方面爱好者,可以用自己动手,实践下。python上手应该非常快。

第一时间获得不止个人原创 android/音视频技术干货,问题深度总结,FrameWork源码解析,插件化研究,FFmpeg研究,直播技术,最新开源项目推荐,还有更多职场思考,欢迎关注我的微信公众号,扫一扫下方二维码或者长按识别二维码

用python爬取图片和搞笑段子相关推荐

  1. python爬取图片然后保存在文件夹中

    python爬取图片然后保存在文件夹中 直接上代码: import os import requests import redef getimg(soup,i):print('http:'+ soup ...

  2. python爬取图片并保存到本地

    Python爬取图片(你懂得) requests与Bs4 这两个模块是本文使用的主要模块,requests可以获取连接,bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来 ...

  3. Python爬取图片、视频以及将数据写入excel的方法小摘要

    Python爬取图片.视频以及将数据写入excel的方法小摘要 1.爬取图片 2.爬取视频 3.将获取的数据存入excel 4.备注 1.爬取图片 import requests #导入request ...

  4. Python——爬取图片

    大家好,我是@xiaomeng 小孟 您好 欢迎大家阅读今天的文章----Python爬取图片(爬虫) 最近爬虫挺火的,所以我今天也来一个爬虫! 正文: 首先,我们先下载模块,pip install ...

  5. python爬取图片链接标签的src属性值_python爬取图片遇见src乱码: data:image/png;base64...

    python爬取图片遇见src乱码: data:image/png;base64 向爬取自己喜欢的图片,但是在爬取下来的代码当中图片的src会出现乱码的情况:data:image/png;base64 ...

  6. Python爬取图片实例

    网络爬虫又叫网络蜘蛛.网络机器人等名词.网络爬虫就是自动化的去抓取网络数据,可以在网络中获取满足自己需求的相关信息和资料.通过网络爬虫可以获取大量的数据并且集中在一起,然后就可以进行数据的批量分析和处 ...

  7. python爬取图片并写入excel

    目标: 1)python爬取图片并下载到本地文件夹 2)python爬取图片并写入到excel文件 Ⅰ.python程序 # 导入库 import requests import parsel imp ...

  8. php直播源码,python爬取图片

    php直播源码,python爬取图片的相关代码 import requests import osfrom bs4 import BeautifulSoupheaders = {'user-agent ...

  9. python爬取图片并以二进制方式保存到本地

    本篇主要介绍python 爬取图片并以二进制形式保存到本地 这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真 写真图片网站链接 明确目标,爬取每一页的20张图片,循环生成没一页的url ...

  10. python爬取图片并且保存到本地指定文件夹内

    python爬取图片 先上代码: from urllib.request import Request, urlopen, urlretrieve from fake_useragent import ...

最新文章

  1. 英国上议院AI报告:没中美有钱,但我可以主导道德游戏规则设定
  2. 《统一沟通-微软-技巧》-14-Exchange 2010 With SP1 OWA Integration
  3. Matlab中基本统计量的函数
  4. php中怎么过滤器_PHP 过滤器
  5. postgresql如何实现group_concat功能
  6. 【TensorFlow-windows】学习笔记五——自编码器
  7. springboot+jsp+mybatis项目实例(后台成功,但是无法跳转jsp页面,没有实体类的注解,看springboot+jsp第二弹相关配置,即可成功配置jsp)...
  8. 什么是RAID(独立磁盘冗余阵列)?
  9. 高盛 CEO:没背景的孩子,请与有野心的人为伍!
  10. Windows下部署安装Docker
  11. java字符串的各种编码转换
  12. android控制灯编程,远程控制智能灯(android)
  13. 罗技 logic C930c 摄像头 驱动 win7 64位 家庭中文版 无法使用
  14. Idea中使用maven命令
  15. python dateutil_安装python dateutil
  16. 【公基】口算提速,java 自动生成:加、减、乘、除、混合运算题目
  17. 【网页特效】12 个炫酷背景特效库
  18. Java版漏斗计时器_新学期新气象 教你在《我的世界》做出特别铃声
  19. Velocity+IText+Flying-saucer生成pdf文件
  20. 使用 @Transactional 时常犯的N种错误

热门文章

  1. java中随机数彩票练习_跪求下面的题目答案
  2. 文本推理_基于事理图谱的文本推理
  3. ArcGIS 10.5 及 ArcGIS Server下载安装破解环境配置
  4. 深度学习DeBug小笔记(一)——visdom服务启动时提示Downloading scripts, this may take a little while解决办法
  5. Hadoop学习笔记(二):MapReduce的进度和状态
  6. 「3D手指血管扫描」一套无法复制的生物识别系统
  7. tensorflow中的优化器
  8. HTTP、Asp.net管道与IIS
  9. Luogu5280 [ZJOI2019] 线段树 【线段树】
  10. cl编译C文件的环境变量修改