爬取链家网站的北京租房信息

本来准备这个暑假好好复习，但学校安排暑期实践，既然学校安排这个，而且我自己也觉得需要提高一下自己的能力，所以静下心来做点事吧。我们要做到项目是分析北京地区的租房的信息分析。

我们需要做的是爬取链家网站上北京地区的租房信息。链家作为国内比较出名的房地产中介公司，发布的房地产租房信息还是不叫权威的。

我们需要做的分为两步：找到各个租房页面的链接，爬取每个租房页面的数据。

第一步找到每个租房页面的链接，北京地区的租房页面的初始链接为https://bj.lianjia.com/zufang/pg1/，下一页的地址就是把后面的pg1改成pg2，以此后推，一共有100个页面。

具体实现代码如下：

    for i in range(1,101):firsturl=r"https://bj.lianjia.com/zufang/pg%d/"%i
#        list.append(firsturl)title,l=frist(firsturl)

我们需要在这个页面上爬取每个具体房屋页面的URL地址。

具体实现代码如下：

def frist(firsturl):time.sleep(3)title=[]l=[]html=requests.get(firsturl)#html可能乱码，soup会转码soup = BeautifulSoup(html.content)for link in soup.find_all('h2'):if len(str(link))>84:#        href=link.get('href')li=link.a['href']t= link.a["title"]title.append(t)l.append(li)return title,l

第二步在每个租房页面上提取自己想要的信息，我们已知每个租房页面上的URL，所以我们设计一个函数可以根据一个URL可以提取我们想要的数据。具体代码实现如下:

def single(url):#    send_headers={"User-Agent":" Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
#                  "Accept-Language":"zh-CN,zh;q=0.9,en;q=0.8",
#                  "Connection":"keep-alive",
#                  "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8"}
#    html=requests.get(url)soup=BeautifulSoup(html.content)soup1=soup.find(class_='zf-room')#tag类型price=soup.find_all(class_='total')[0].stringarea=soup.find_all(class_='lf')[0].get_text()[3:8:]housetype=soup.find_all(class_='lf')[1].get_text()floor=soup.find_all(class_='lf')[2].get_text()toward=soup.find_all(class_='lf')[3].get_text()subline=soup1.find_all("p")[4].get_text()local=soup1.find_all("p")[6].get_text()print(price,area,housetype,floor,toward,subline,local)
#    for i in soup.find_all("span"):
#        print (i)
#        price.append(i)return price,area,housetype,floor,toward,subline,local

我们现在已经可以将这两部分合并在一起就好啦。

注：一、因为我们如果很高频率的登录网站，网站会把我们给断开，所以我们选择time.sleep（）来减轻访问时间

二、我们第一步得到的网址我们可以先保存在本地，然后我们可以读取文件，这样可以避免多次访问。

三、当我们爬取一半时忽然无法执行，可以将已经执行好的数据下来，再将代码从断开的地方重新执行，这样可以节省很多时间。

代码传送门

爬取链家网站的北京租房信息相关推荐

爬取链家网站中的租房信息
爬取链家网站中的租房信息信息爬取代码信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...
简单爬取链家上广州的租房信息
#导入 requests 和 BeautifulSoup模块 import requests from bs4 import BeautifulSoup #链家的网站 url = 'https://g ...
Python爬取链家网24685个租房信息并进行数据分析
2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放.与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候 ...
Python 小项目 01 爬虫项目爬取链家网南京地区二手房信息
SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...
【爬虫】爬取链家网青城山二手房源信息
一.项目背景本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...
基于python多线程和Scrapy爬取链家网房价成交信息
文章目录知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程爬取流程详解爬取房价信息封装数据库类,方便多线程操作数据库插入操作构建爬虫爬取数据基于百度 ...
爬取链家北京租房数据并做简单分析
在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市.它无比美好,但又无时无刻不再觊觎这你薄弱的钱包. 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析 ...
利用xpath爬取链家租房房源数据并利用pandas保存到Excel文件中
我们的需求是利用xpath爬取链家租房房源数据,并将数据通过pandas保存到Excel文件当中下面我们看一下链家官网的房源信息(以北京为例) 如图所示,我们通过筛选得到北京租房信息那么我们需要将 ...
租房不入坑不进坑，Python爬取链家二手房的数据，提前了解租房信息
目录前言一.查找数据所在位置: 二.确定数据存放位置: 三.获取html数据: 四.解析html,提取有用数据: 前言贫穷限制了我的想象,从大学进入到社会这么久,从刚开始的兴致勃勃,觉得钱有什么 ...

爬取链家网站的北京租房信息

爬取链家网站的北京租房信息相关推荐

最新文章

热门文章