Python简单爬虫入门-爬取链家租房网上的租房信息

.又到了毕业季，租房成为广大毕业生关注的话题，考虑到只用到广州的租房信息，所以只爬取广州各个地区的租房信息，下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码：

#coding:utf-8
import requests
import re
import random
from bs4 import BeautifulSoup  useragents = [           #代理用户"Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Version/3.1 Safari/525.13","Mozilla/5.0 (iPhone; U; CPU like Mac OS X) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/4A93 ","Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 ","Mozilla/5.0 (Linux; U; Android 3.2; ja-jp; F-01D Build/F0001) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13 ","Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; ja-jp) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7","Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_2_1 like Mac OS X; da-dk) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5 ","Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_6; en-US) AppleWebKit/530.9 (KHTML, like Gecko) Chrome/ Safari/530.9 ","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.11 (KHTML, like Gecko) Ubuntu/11.10 Chromium/27.0.1453.93 Chrome/27.0.1453.93 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36"
]
header = {"User-Agent":random.choice(useragents) ,"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0","Accept-Encoding": "gzip, deflate,br","Connection": "keep-alive","Upgrade-Insecure-Requests": "1"
}
area = {'tianhe','yuexiu','liwan','haizhu','panyu','baiyun','huangpugz','conghua','zengcheng','huadou','nansha'}try:for a in area:for b in range(1,100):tar_url = "https://gz.lianjia.com/zufang/"+ a +"/pg"+ str(b)response = requests.get(url=tar_url, headers=header)soup = BeautifulSoup(response.text,'html.parser')imf = soup.find_all('div', class_='info-panel')for house in imf:region = house.find('a', {'class':'laisuzhou'}).get_text()zone = house.find('span', {'class':'zone'}).get_text()s = house.find('span', {'class':'meters'}).get_text()price = house.find('div', {'class':'price'}).get_text()dis = house.find('div', {'class':'con'}).get_text()t = str(region) + str(zone) + str(s) + str(price) + '  '+ str(dis)with open("F://pc/链家广州租房全xinde.txt","a",encoding='utf-8')as f:f.write(a + '  '+ region + '  '+ zone +'  '+ s + '  '+ price + '  '+ dis)f.write('\n')f.close()
except:print('失败')pass

该租房网页有翻页，而不是滑动刷新（这个爬取好像更困难点），翻页方法也挺简单，是在URL后面添加page参数，所以我这里直接用for循环遍历每个地区的租房页面数来获取不同翻页的租房信息，考虑到可能网站有反爬，所以直接使用用户代理和IP代理，其实最好是每循环一次都随机取代理用户和代理IP。

最后爬取下来的数据保存到了txt文件，第一次爬取打开文件后出现乱码，好像是因为创建txt文件和写入数据时没有声明编码样式encoding='utf-8'。

以下是部分爬取的数据：

['增城', '金泽豪庭', '3室2厅', '91平米', '2500元/月', '新塘租房', '高楼层(共26层)', '26', '2007年建塔楼', '2007']
['增城', '金泽豪庭', '3室2厅', '117平米', '1600元/月', '新塘租房', '高楼层(共27层)', '27', '2009年建塔楼', '2009']
['增城', '广州海伦堡', '3室2厅', '95平米', '2000元/月', '新塘租房', '中楼层(共18层)', '18', '2009年建塔楼', '2009']
['增城', '碧桂园凤凰城凤馨苑', '3室2厅', '100平米', '2100元/月', '凤凰城租房', '低楼层(共18层)', '18', '2002年建塔楼', '2002']
['增城', '金泽豪庭', '4室2厅', '133平米', '2400元/月', '新塘租房', '高楼层(共27层)', '27', '2009年建塔楼', '2009']
['增城', '新康花园康乐苑', '2室2厅', '85平米', '1600元/月', '新塘租房', '中楼层(共6层)', '6', '塔楼', '']
['增城', '碧桂园凤凰城凤馨苑', '2室2厅', '98平米', '2200元/月', '凤凰城租房', '中楼层(共11层)', '11', '2002年建塔楼', '2002']

然后清洗数据并观察爬取到的租房价格信息，也可以在爬取的时候顺便清洗数据，然后储存干净的适合自己的数据集。

Python简单爬虫入门-爬取链家租房网上的租房信息相关推荐

Python 小项目 01 爬虫项目爬取链家网南京地区二手房信息
SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...
基于python多线程和Scrapy爬取链家网房价成交信息
文章目录知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程爬取流程详解爬取房价信息封装数据库类,方便多线程操作数据库插入操作构建爬虫爬取数据基于百度 ...
【爬虫】爬取链家网青城山二手房源信息
一.项目背景本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...
爬取链家网站中的租房信息
爬取链家网站中的租房信息信息爬取代码信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...
python爬取链家新房_Python爬虫项目--爬取链家热门城市新房
本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析通过分析, 找出相关url, 确 ...
爬取链家网站的北京租房信息
本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧.我们要做到项目是分析北京地区的租房的信息分析. 我们需要做的是爬取链家网站 ...
Python爬取链家网24685个租房信息并进行数据分析
2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放.与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候 ...
python爬取链家_python+scrapy爬虫（爬取链家的二手房信息）
之前用过selenium和request爬取数据,但是感觉速度慢,然后看了下scrapy教程,准备用这个框架爬取试一下. 1.目的:通过爬取成都链家的二手房信息,主要包含小区名,小区周边环境,小区楼层 ...
简单爬取链家上广州的租房信息
#导入 requests 和 BeautifulSoup模块 import requests from bs4 import BeautifulSoup #链家的网站 url = 'https://g ...

Python简单爬虫入门-爬取链家租房网上的租房信息

Python简单爬虫入门-爬取链家租房网上的租房信息相关推荐

最新文章

热门文章