用python爬取图片和搞笑段子

python是一个高效率的工具，无论是做什么开发的程序员，学点python，很多时候，总会让你事半功倍，如用python换包名，用python进行搜索文件，用python进行...，今天小试python，爬取搞笑段子及网站图片。

爬取糗事百科段子

使用BeautifulSoup库，可以自行下载

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import urllib2
def getContent(n):  url = 'http://www.qiushibaike.com/text/page/' + str(n) + '/'  print url  heads = {  'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.75 Safari/537.36',  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',  'Connection': 'keep-alive',  'Upgrade-Insecure-Requests': '1',  'Referer': 'http://www.qiushibaike.com/',  'Accept-Language': 'zh-CN,zh;q=0.8',  'Cookie': '_xsrf=2|db27040e|6b4ed8d9536590d4ec5d2064cc2bef4f|1474364551; _qqq_uuid_="2|1:0|10:1474364551|10:_qqq_uuid_|56:MzBlNWFkOGE3MWEyMzc1MWIxMTE3MDBlZjM2M2RkZWQxYzU5YTg1Yw==|1dd2a4f4ceacad26b5da9cc295d2965226ea25ee73289855cf032629c4992698"; Hm_lvt_2670efbdd59c7e3ed3749b458cafaa37=1474364592; Hm_lpvt_2670efbdd59c7e3ed3749b458cafaa37=1474364595; _ga=GA1.2.1125329542.1474364596'  }  res = urllib2.Request(url, headers=heads)  response = urllib2.urlopen(res)  html = response.read()  soup = BeautifulSoup(html, "lxml")  someData = soup.select("div.content span")  num = 0  for some in someData:  num = num + 1  print num  print some.text + '\n'
if __name__ == "__main__":  for i in range(1, 5):  getContent(i)

在cmd效果：

在Eclipse中运行：

爬取图片

爬取图片：（煎蛋网）

[1] 图片请上传到新浪微博相册，在评论框里粘帖图片地址即可发图
[2] 原创图请注明来源。发布后请等待审核，未通过审核的原因可能是重复图或者敏感图

妹子图过审标准：1、非AV截图；2、身着内衣；3、不露点

# -*- coding: utf-8 -*-
from __future__ import unicode_literals
from HttpClient import HttpClient
import sys,re,os
class JianDan(HttpClient):def __init__(self):self.__pageIndex = 1500self.__Url = "http://jandan.net/ooxx/"self.__floder = "jiandan"def __getAllPicUrl(self,pageIndex):realurl = self.__Url + "page-" + str(pageIndex) + "#comments"pageCode = self.Get(realurl)type = sys.getfilesystemencoding()pattern = re.compile('<p>.*?<a .*?view_img_link">.*?</a>.*?<img src="(.*?)".*?</p>',re.S)items = re.findall(pattern,pageCode.decode("UTF-8").encode(type))num = 0for item in items:num = num + 1  print "获取到图片：" + str(num) + "--->" + str("http:") + itemself.__savePics(items,self.__floder)def __savePics(self,img_addr,folder):for item in img_addr:filename = item.split('/')[-1]print "正在保存图片：" + filenamewith open(filename,'wb') as file:img = self.Get(str("http:") + item)file.write(img)def __getNewPage(self):pageCode = self.Get(self.__Url)type = sys.getfilesystemencoding()pattern = re.compile(r'<div .*?cp-pagenavi">.*?<span .*?current-comment-page">\[(.*?)\]</span>',re.S)newPage = re.search(pattern,pageCode.decode("UTF-8").encode(type))print pageCode.decode("UTF-8").encode(type)if newPage != None:return newPage.group(1)return 1500def start(self):isExists=os.path.exists(self.__floder)#检测是否存在目录print isExistsif not isExists:os.mkdir(self.__floder)os.chdir(self.__floder)page = int(self.__getNewPage())for i in range(self.__pageIndex,page):self.__getAllPicUrl(i)
if __name__ == '__main__':jd = JianDan()jd.start()
JianDan

中间运行过程：

最后效果：

爬去内容和图片，肯定不是最终极目的，这些都是好玩的，最后爬点不同的音频、视频封装格式，才是重点。这个原理也是一样的，分析到对应标签地址，进行下载，有这方面爱好者，可以用自己动手，实践下。python上手应该非常快。

第一时间获得【不止个人原创 android/音视频技术干货，问题深度总结，FrameWork源码解析，插件化研究，FFmpeg研究，直播技术，最新开源项目推荐，还有更多职场思考】，欢迎关注我的微信公众号，扫一扫下方二维码或者长按识别二维码

用python爬取图片和搞笑段子相关推荐

python爬取图片然后保存在文件夹中
python爬取图片然后保存在文件夹中直接上代码: import os import requests import redef getimg(soup,i):print('http:'+ soup ...
python爬取图片并保存到本地
Python爬取图片(你懂得) requests与Bs4 这两个模块是本文使用的主要模块,requests可以获取连接,bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来 ...
Python爬取图片、视频以及将数据写入excel的方法小摘要
Python爬取图片.视频以及将数据写入excel的方法小摘要 1.爬取图片 2.爬取视频 3.将获取的数据存入excel 4.备注 1.爬取图片 import requests #导入request ...
Python——爬取图片
大家好,我是@xiaomeng 小孟您好欢迎大家阅读今天的文章----Python爬取图片(爬虫) 最近爬虫挺火的,所以我今天也来一个爬虫! 正文: 首先,我们先下载模块,pip install ...
python爬取图片链接标签的src属性值_python爬取图片遇见src乱码： data:image/png;base64...
python爬取图片遇见src乱码: data:image/png;base64 向爬取自己喜欢的图片,但是在爬取下来的代码当中图片的src会出现乱码的情况:data:image/png;base64 ...
Python爬取图片实例
网络爬虫又叫网络蜘蛛.网络机器人等名词.网络爬虫就是自动化的去抓取网络数据,可以在网络中获取满足自己需求的相关信息和资料.通过网络爬虫可以获取大量的数据并且集中在一起,然后就可以进行数据的批量分析和处 ...
python爬取图片并写入excel
目标: 1)python爬取图片并下载到本地文件夹 2)python爬取图片并写入到excel文件 Ⅰ.python程序 # 导入库 import requests import parsel imp ...
php直播源码，python爬取图片
php直播源码,python爬取图片的相关代码 import requests import osfrom bs4 import BeautifulSoupheaders = {'user-agent ...
python爬取图片并以二进制方式保存到本地
本篇主要介绍python 爬取图片并以二进制形式保存到本地这回爬取的是一个写真图片网站,上面有一个365日365枚照片写真写真图片网站链接明确目标,爬取每一页的20张图片,循环生成没一页的url ...
python爬取图片并且保存到本地指定文件夹内
python爬取图片先上代码: from urllib.request import Request, urlopen, urlretrieve from fake_useragent import ...

用python爬取图片和搞笑段子

用python爬取图片和搞笑段子相关推荐

最新文章

热门文章