爬虫项目1[爬取小猪短租数据]

看了这个大神的博客—爬虫项目合集,自己也动手实践一下

请求:requests 解析:xpath
思路:找到起始网页(第一页),爬取初识网页的数据,获取下一页的链接,爬取下一页的数据,以此类推
非常简单,直接放代码:

import requests
from lxml import etreesource_url = "http://bj.xiaozhu.com/"  # 以北京地区为例
headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.106 Safari/537.36","referer": "http://bj.xiaozhu.com/"
}  # 请求头比较简单,如果被识别可以换为更复杂的(多加几个字段)data_lst = []  # 这里用list和dict简单存一下,最好存到数据库中(以后会用mysql)def request(url):response = requests.get(source_url, headers=headers).contentreturn responsedef get_data(text):html = etree.HTML(text)url_lst = html.xpath(".//div[@id='page_list']//li/a[@class='resule_img_a']/@href")for url in url_lst:ht = etree.HTML(requests.get(url, headers=headers).content)title = ht.xpath(".//div[@class='pho_info']/h4/em/text()")[0]  # 获取房源标题address = ht.xpath(".//div[@class='pho_info']/p/@title")[0]  # 获取房源地址price = ht.xpath(".//div[@class='day_l']/span/text()")[0]  # 获取房源价格data_dict = {}data_dict["title"] = titledata_dict["address"] = addressdata_dict["price"] = pricedata_lst.append(data_dict)next_url = html.xpath(".//div[@class='day_l']/span/text()")  # 获取下一页的网址return next_urlif __name__ == '__main__':next = ""page = 2for i in range(page):  # 这里的page可以自己随便设置,但不要超过页数范围if i == 0:text = request(source_url)else:text = request(next)next = get_data(text)print(data_lst)

爬虫项目1[爬取小猪短租数据]相关推荐

Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 小猪短租(成都)页面:http://cd.xiaozhu.com/ 1.爬取租房标题 ...
python爬取网上租房信息_Python爬虫入门 | 5 爬取小猪短租租房信息
小猪短租是一个租房网站,上面有很多优质的民宿出租信息,下面我们以成都地区的租房信息为例,来尝试爬取这些数据. 1.爬取租房标题按照惯例,先来爬下标题试试水,找到标题,复制xpath. 多复制几个房屋 ...
疫情过去女朋友想去重庆玩，python批量爬取小猪短租重庆民宿信息
疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...
python3通过Beautif和XPath分别爬取“小猪短租-北京”租房信息，并对比时间效率（附源代码）...
爬虫思路分析: 1. 观察小猪短租(北京)的网页首页:http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term ...
蛋壳公寓信息/信息网爬取/小猪短租/豆瓣/拉钩/人民邮电报/百度电视剧/加载更多-获取字符串中间任意内容
调试 import requests from lxml import etreebase_url = 'https://www.danke.com/room/bj?page=1'headers = ...
使用BeautifulSoup爬取小猪短租的租房信息
直接上代码没有添加间隔时间几页之后就被封了 #!/user/bin/env python #-*- coding:utf-8 -*- from bs4 import BeautifulSoup i ...
[python爬虫] BeautifulSoup设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
python爬虫cookie池与ip绑定_Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
我们在编写Python爬虫时,有时会遇到网站拒绝访问等反爬手段,比如这么我们想爬取蚂蚁短租数据,它则会提示"当前访问疑似黑客攻击,已被网站管理员设置为拦截"提示,如下图所示.此时我 ...
利用python爬取天气预报_python实现天气爬虫——利用xpath爬取七天天气预报数据...
python实现天气爬虫--利用xpath爬取七天天气预报数据 import pandas as pd import lxml import requests import csv from lxml ...

爬虫项目1[爬取小猪短租数据]

爬虫项目1[爬取小猪短租数据]相关推荐

最新文章

热门文章