基于python3.x的爬取马蜂窝旅游的游记照片
前几天在csdn首页看到一个大佬爬取看准网数据并分析的博客,自己搞了一下,各种问题,已超过目前的认知领域,so,先从基本的做起吧,一点点添加新内容。
本次任务为爬取马蜂窝旅行达人的游记照片,之前搞过几次马蜂窝,中间停顿过长,再次回归吧。
上代码:
import re
import urllib.request
import os
from lxml import etreedef savePhoto(soup,path):print(u"开始保存图片")img=soup.xpath('//img/@data-src')total_img=0for myimg in img:total_img += 1print(myimg)urllib.request.urlretrieve(myimg,path+'%s.jpg'%total_img)print(u"已经保存第",total_img,u"张照片")print(u"总共保存第",total_img,u"张照片")def getTitle(soup):result=soup.xpath('//div/h1/text()')[0]result=re.sub('\\n','',result)result=re.sub('\|','',result) print("title:"+result)if result:return resultelse:return Nonedef mkdi
基于python3.x的爬取马蜂窝旅游的游记照片相关推荐
- Python爬取马蜂窝各城市游记总数
Python爬取马蜂窝各城市游记总数 完整代码在最下方 马蜂窝的省和直辖市都有一个对应的编号,编写程序获取编号 第一步创建一个Spider的类,headers为一个字典,user-agent从浏览器中 ...
- 使用Python爬取马蜂窝网站的游记和照片
使用Python爬取马蜂窝网站的游记和照片 特殊原因需要在马蜂窝上爬取一些游记和照片作为后续分析处理的数据,参考网上一些类似的爬虫文章,自己尝试了一下,这次爬取的是马蜂窝上所有有关苏州的游记(包括游记 ...
- Python爬取马蜂窝城市游记
游记标题.用户.日期.阅读数量.评论数量 上一篇: Python爬取马蜂窝各城市游记总数.爬取了马蜂窝所有城市的游记总数,本文爬取具体城市的游记详情 import os import time imp ...
- python爬取景点信息_python 爬取马蜂窝景点翻页文字评论的实现
使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html). 首先,我们复制 ...
- 使用python爬取马蜂窝游记
马蜂窝( http://www.mafengwo.cn/ )是著名的游记分享网站.本例从中爬取2018年"南京"地区游记. 观察游记列表,发现以时间顺序url以类似"ht ...
- python爬虫——爬取马蜂窝景点翻页文字评论
python爬虫--爬取马蜂窝景点翻页文字评论 使用Chrome.python3.7.requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/po ...
- 使用python+selenium爬取同城旅游网机票信息
最近使用python+selenium爬取了同城旅游网机票信息 相关主要代码如下,通过模拟人为操作,拿下了这个机票列表的html代码,然后就可以使用xpath或者re等方式从中提取需要的字段信息了. ...
- python3.x+requests 爬取网站遇到中文乱码的解决方案
正常情况下,遇见问题上google找答案能甩百度100条街,但是这个问题是个例外······人家老外就没有乱码的问题.言归正传,首先建议大家看一下python3.x+requests 爬取网站遇到中文 ...
- 【归档】爬取马蜂窝景点信息(含源代码)
爬取马蜂窝景点信息(含源代码) 爬取热门目的地信息 MafengwoCrawler()._get_mdd() 爬取目的地内景点信息 MafengwoCrawler().crawler_mdd() 爬取 ...
最新文章
- 学python需要多久-刚开始学习 Python 到可以写出一个爬虫大约需要多长时间
- iOS组件化(二):创建远程私有库
- 无人超市不便宜 一包棒棒糖比传统超市贵5.7元
- afe模拟前端的重要性_UCD3138模拟前端(AFE)模块:模拟前端模块(AFE)简介
- win8编程c语言,Win8系统怎么运行C语言 win8系统运行C语言的方法
- 《Python编程从入门到实践》记录之列表遍历
- 分治之快速排序以及快速排序为何最快
- c++ 对象起始地址 指针靠齐_Go的内存对齐和指针运算详解和实践
- php指定时间 n天,PHP实现指定时间的n月之前的这一天的两种算法
- 2022华为杯研究生数学建模竞赛E题思路解析
- tdd:spock工作原理_TDD与 数学形式主义:敌还是友?
- linux鼠标手势双dock,Linnx Mint 上使用触摸板手势
- USB转RS422/485/232串口线异常问题记录
- 程序员装b指南(转)
- java实现token 过期,java – SQS ExpiredToken:请求中包含的安全令牌是过期状态码:403...
- 柳传志退休,联想的贸工技路线对错由后人评说
- 个人主页博客网页设计制作HTML5+CSS大作业——个人相册展示留言博客模板(6页) 简单个人网页制作
- 二十一世纪纸会慢慢消失吗?
- 安装威锋替换的镜像源
- 前端瓦片地图加载之塞尔达传说旷野之息
热门文章
- 哈工大c语言第四版pdf,哈工大C语言讲义 指针.pdf
- 生物系转行学编程,如今身家26亿
- MySQL RANGE分区
- 划重点 iOS15正式发布, 全新的通知推送系统,你必须要知道
- Bad owner or permissions on C:\\Users\\XX/.ssh/config
- AutoSAR系列讲解(实践篇)8.5-C/S原理进阶
- iOS学习—让View从下面弹出
- SPM处理fMRI数据的基本步骤
- python实时目标检测答案_python+opencv实时视频目标检测
- ERP系统对接方案,API接口封装系列(高并发)