python爬取小猪短租信息

用requests + xpath 爬取小猪短租信息。
学习了xpath后，觉得这个工具真是非常的好用。
以下为完整代码：

import requests
from lxml import etree
import timedef getHTMLtext(url):try:r = requests.get(url,headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) App''leWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Sa''fari/537.36'})r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return print("异常")
def parsehtml(html):file = etree.HTML(html)s = file.xpath('//*[@id="page_list"]/ul/li') #某页面下所有主题的xpath#对每一个主题进行处理with open(r'C:\Users\**\Desktop\xiaozhuduanzhu.txt','a',encoding='utf-8') as f:for i in s:title = i.xpath('./div[2]/div[2]/a/span/text()')[0]price = i.xpath('./div[2]/div[1]/span/i/text()')[0] #标签内的信息picture = i.xpath('./a/img/@lazy_src')[0].strip()    #标签内的属性scrible = i.xpath('./div[2]/div[2]/em/text()')[0]f.write("{}\t{}\t{}\t{}\n".format(title,price,scrible,picture))
def main():#只爬取5页for i in range(1,6):url = 'http://cd.xiaozhu.com/search-duanzufang-p{}-0/'.format(i)html = getHTMLtext(url)time.sleep(1)   #爬取太快会禁止访问parsehtml(html)if __name__ == '__main__':main()

python爬取小猪短租信息相关推荐

疫情过去女朋友想去重庆玩，python批量爬取小猪短租重庆民宿信息
疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...
Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...
蛋壳公寓信息/信息网爬取/小猪短租/豆瓣/拉钩/人民邮电报/百度电视剧/加载更多-获取字符串中间任意内容
调试 import requests from lxml import etreebase_url = 'https://www.danke.com/room/bj?page=1'headers = ...
python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息，并对比时间效率（附源代码）...
爬虫思路分析: 1. 观察小猪短租(北京)的网页首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...
使用BeautifulSoup爬取小猪短租的租房信息
直接上代码没有添加间隔时间几页之后就被封了 #!/user/bin/env python #-*- coding:utf-8 -*- from bs4 import BeautifulSoup i ...
[python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
python爬虫cookie池与ip绑定_Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
python关于二手房的课程论文_基于python爬取链家二手房信息代码示例
基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可确定目标网页数据哦豁,这个价格..................看到都觉得脑阔 ...

python爬取小猪短租信息

python爬取小猪短租信息相关推荐

最新文章

热门文章