python抓取贴吧_python抓取百度贴吧-校花吧,网页图片
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
#!/usr/bin/python3
#code=utf-8
import urllib.request
import re
path = "C:\\Users\\Administrator\\Pictures\\python\\816\\" #图片下载的地址
#根据网址字符串,读取网页
def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html
def getUrllist(html):
#reg = r'bpic="(.+?\.jpg)"'
#imgre = re.compile(reg)
#指定编码要求
html = html.decode('utf-8')
# imglist = re.findall(imgre,html)
reg1 = r'
urlre = re.compile(reg1)
urllist = re.findall(urlre,html)
print(urllist)
return urllist
def downloadImg(urllist):
x = 0
for imgurl in urllist:
#拼接完整url
imgurl = "http://" + imgurl
print(imgurl)
imgurl = getHtml(imgurl)
#图片正则表达式
reg = r'bpic="(.+?\.jpg)"'
imgre = re.compile(reg)
try:
html = imgurl.decode('utf-8')
except Exception as err:
print(err)
#获取网页图片数组
imglist = re.findall(imgre, html)
#下载图片
for imgurl in imglist:
urllib.request.urlretrieve(imgurl, path + 'w%s.jpg' % x)
print('w%s.jpg' % x)
x += 1
'''
x = 0
for imgurl in imglist:
urllib.request.urlretrieve(imgurl,path+ '%s.jpg' % x)
x+=1
'''
html = getHtml("http://tieba.baidu.com/f?kw=%D0%A3%BB%A8&fr=ala0&tpl=5")
urllist = getUrllist(html)
downloadImg(urllist)
#异常日志输出
python抓取贴吧_python抓取百度贴吧-校花吧,网页图片相关推荐
- python抓取数据包_python抓数据包
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 前言:数据科学越来越火了,网页是数据很大的一个来源. 最近很多人问怎么抓网页数据 ...
- python抓取微博评论_Python爬取新浪微博评论数据,你有空了解一下?
开发工具 Python版本:3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装Pyth ...
- python公众号留言功能_Python 爬取公众号文章、评论
前段时间有个爬取公众号评论小需求,花了几天查了不少资料,实现方案有好几种,最后其中一种得以实现.参考 [Python爬虫]微信公众号历史文章和文章评论API分析 . 本人是 Python 小白,会忽略 ...
- python开源代码百度盘_python爬取百度云网盘资源-源码
今天测试用了一下python爬取百度云网盘资源. 代码片段import urllib import urllib.request import webbrowser import re def yun ...
- python 抓包解析数据_Python抓包并解析json爬虫的完整实例代码
Python抓包并解析json爬虫 在使用Python爬虫的时候,通过抓包url,打开url可能会遇见以下类似网址,打开后会出现类似这样的界面,无法继续进行爬虫: 例如: 需要爬取网页中第二页的数据时 ...
- python 柱状图上显示字体_Python爬取百部电影数据,我发现了这个惊人真相!
2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%:国产电影总票房411.75亿元,同比增长8.65%,市场占比 ...
- python爬取手机微信_Python爬取微信好友
前言 今天看到一篇好玩的文章,可以实现微信的内容爬取和聊天机器人的制作,所以尝试着实现一遍,本文记录了实现过程和一些探索的内容 itchat安装 对微信的控制可以使用itchat来实现,我们找到itc ...
- python微信小程序爬虫_Python爬取微信小程序实战(通用)
背景介绍 最近遇到一个需求,大致就是要获取某个小程序上的数据.心想小程序本质上就是移动端加壳的浏览器,所以想到用Python去获取数据.在网上学习了一下如何实现后,记录一下我的实现过程以及所踩过的小坑 ...
- python爬取天气预报源代码_python抓取天气并分析 实例源码
[实例简介] Python代码抓取获取天气预报信息源码讲解.这是一个用Python编写抓取天气预报的代码示例,用python写天气查询软件程序很简单.这段代码可以获取当地的天气和.任意城市的天气预报, ...
最新文章
- 跳转路径时资源路径加/和不加/的区别
- 解决Error: Can't find Python executable python, you can set the PYTHON env variable
- Python读取并遍历CSV数据
- 支付宝新漏洞引发恐慌,那如何关闭小额免密支付呢
- js实现调用摄像头拍照功能
- 360竞价开户推广,让营销更聪明!
- 命令行基础-tar命令详解
- padavan固件获取网络地图中的客户端状态
- 汽车标志你认识多少?爱车族一定要了解哦!
- Java file.encoding
- 华为系统gps定位服务器地址,很多手机的定位功能都叫GPS,为什么偏偏华为手机的定位功能叫“位置信息”?...
- java 翻译 go语言_cgo 和 Go 语言是两码事【已翻译100%】...
- HTML(hiden控件 readonly disabled)(maxlength属性)(id属性重点)
- run(牛客2018多校二国庆欢乐派对 )
- 将笔记本外接显示器设置为主显示器
- Linux命令date命令
- 计算机桌面不满屏怎样解决,图文教您电脑屏幕显示不满屏【操作措施】
- 浙江一盗窃案犯罪嫌疑人陪朋友去警局“打酱油”被抓
- 信息素养—学术研究的必修课习题答案(week7-12)(第4-7章)
- 【模型↔关系思考法】如何在一个全新的、陌生的领域快速成为专家?模仿 + 一万小时定律 + 创新...