.又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码:

#coding:utf-8
import requests
import re
import random
from bs4 import BeautifulSoup  useragents = [           #代理用户"Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Version/3.1 Safari/525.13","Mozilla/5.0 (iPhone; U; CPU like Mac OS X) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/4A93 ","Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.2.149.27 ","Mozilla/5.0 (Linux; U; Android 3.2; ja-jp; F-01D Build/F0001) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13 ","Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; ja-jp) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7","Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_2_1 like Mac OS X; da-dk) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5 ","Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_6; en-US) AppleWebKit/530.9 (KHTML, like Gecko) Chrome/ Safari/530.9 ","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.11 (KHTML, like Gecko) Ubuntu/11.10 Chromium/27.0.1453.93 Chrome/27.0.1453.93 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.93 Safari/537.36","Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36"
]
header = {"User-Agent":random.choice(useragents) ,"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0","Accept-Encoding": "gzip, deflate,br","Connection": "keep-alive","Upgrade-Insecure-Requests": "1"
}
area = {'tianhe','yuexiu','liwan','haizhu','panyu','baiyun','huangpugz','conghua','zengcheng','huadou','nansha'}try:for a in area:for b in range(1,100):tar_url = "https://gz.lianjia.com/zufang/"+ a +"/pg"+ str(b)response = requests.get(url=tar_url, headers=header)soup = BeautifulSoup(response.text,'html.parser')imf = soup.find_all('div', class_='info-panel')for house in imf:region = house.find('a', {'class':'laisuzhou'}).get_text()zone = house.find('span', {'class':'zone'}).get_text()s = house.find('span', {'class':'meters'}).get_text()price = house.find('div', {'class':'price'}).get_text()dis = house.find('div', {'class':'con'}).get_text()t = str(region) + str(zone) + str(s) + str(price) + '  '+ str(dis)with open("F://pc/链家广州租房全xinde.txt","a",encoding='utf-8')as f:f.write(a + '  '+ region + '  '+ zone +'  '+ s + '  '+ price + '  '+ dis)f.write('\n')f.close()
except:print('失败')pass

该租房网页有翻页,而不是滑动刷新(这个爬取好像更困难点),翻页方法也挺简单,是在URL后面添加page参数,所以我这里直接用for循环遍历每个地区的租房页面数来获取不同翻页的租房信息,考虑到可能网站有反爬,所以直接使用用户代理和IP代理,其实最好是每循环一次都随机取代理用户和代理IP。

最后爬取下来的数据保存到了txt文件,第一次爬取打开文件后出现乱码,好像是因为创建txt文件和写入数据时没有声明编码样式encoding='utf-8'。

以下是部分爬取的数据:

['增城', '金泽豪庭', '3室2厅', '91平米', '2500元/月', '新塘租房', '高楼层(共26层)', '26', '2007年建塔楼', '2007']
['增城', '金泽豪庭', '3室2厅', '117平米', '1600元/月', '新塘租房', '高楼层(共27层)', '27', '2009年建塔楼', '2009']
['增城', '广州海伦堡', '3室2厅', '95平米', '2000元/月', '新塘租房', '中楼层(共18层)', '18', '2009年建塔楼', '2009']
['增城', '碧桂园凤凰城凤馨苑', '3室2厅', '100平米', '2100元/月', '凤凰城租房', '低楼层(共18层)', '18', '2002年建塔楼', '2002']
['增城', '金泽豪庭', '4室2厅', '133平米', '2400元/月', '新塘租房', '高楼层(共27层)', '27', '2009年建塔楼', '2009']
['增城', '新康花园康乐苑', '2室2厅', '85平米', '1600元/月', '新塘租房', '中楼层(共6层)', '6', '塔楼', '']
['增城', '碧桂园凤凰城凤馨苑', '2室2厅', '98平米', '2200元/月', '凤凰城租房', '中楼层(共11层)', '11', '2002年建塔楼', '2002']

然后清洗数据并观察爬取到的租房价格信息,也可以在爬取的时候顺便清洗数据,然后储存干净的适合自己的数据集。

Python简单爬虫入门-爬取链家租房网上的租房信息相关推荐

  1. Python 小项目 01 爬虫项目 爬取链家网南京地区二手房信息

    SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...

  2. 基于python多线程和Scrapy爬取链家网房价成交信息

    文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度 ...

  3. 【爬虫】爬取链家网青城山二手房源信息

    一.项目背景 本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...

  4. 爬取链家网站中的租房信息

    爬取链家网站中的租房信息 信息爬取代码 信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...

  5. python爬取链家新房_Python爬虫项目--爬取链家热门城市新房

    本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) 环境 win8, python 3.7, pycharm 正文 1. 目标网站分析 通过分析, 找出相关url, 确 ...

  6. 爬取链家网站的北京租房信息

    本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧.我们要做到项目是分析北京地区的租房的信息分析. 我们需要做的是爬取链家网站 ...

  7. Python爬取链家网24685个租房信息并进行数据分析

    2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放.与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候 ...

  8. python爬取链家_python+scrapy爬虫(爬取链家的二手房信息)

    之前用过selenium和request爬取数据,但是感觉速度慢,然后看了下scrapy教程,准备用这个框架爬取试一下. 1.目的:通过爬取成都链家的二手房信息,主要包含小区名,小区周边环境,小区楼层 ...

  9. 简单爬取链家上广州的租房信息

    #导入 requests 和 BeautifulSoup模块 import requests from bs4 import BeautifulSoup #链家的网站 url = 'https://g ...

最新文章

  1. Linux 关机命令介绍shutdown
  2. 高校老师暑假狂补AI课背后:AI人才培养竞赛开跑
  3. 图像金字塔(pyramid)与 SIFT 图像特征提取(feature extractor)
  4. 爆破专业学生任母校爆破工作总指挥走红
  5. Python 中的绘图matplotlib mayavi库
  6. 八爪鱼 是java做的吗_章鱼扫描仪:Java构建工具和恶意软件
  7. 初学python之列表
  8. 苹果宣布北京时间9月15日凌晨举办发布会后,公司市值再创新高
  9. mysql装了一半卡住了_mysql安装问题:安装到configuration overview卡住了
  10. android颜色表
  11. mysql 5.7 group_mysql,_mysql5.7中group by和mysql5.5中group by的结果不一样,mysql - phpStudy...
  12. RobotStudio软件:ABB机器人弧焊焊接虚拟仿真实现方法
  13. JS定时器原理及案例
  14. html 伸缩盒子布局,详解CSS3伸缩布局盒模型Flex布局
  15. 岛屿最大面积 leetcode Java_LeetCode刷题记录——岛屿的最大面积
  16. IDEA敏感数据检测实践整理
  17. opencv人脸检测输出的置信率
  18. 时隔一个月今日头条又宕机了 这个技术公司的“月经宕”有点频繁
  19. 知道swift为什么是面向协议编程么?不知道,还不快来学习!
  20. seesion cookie鉴权 与 token鉴权

热门文章

  1. 三万字SQL详解,看看你会多少?
  2. 修改simple_peripheral_oad_offchip的 Bootloader
  3. 基于Unity3D技术的纸牌消除游戏
  4. BUUCTF 静静听这么好听的歌(python脚本matlab脚本)
  5. 浅谈网站黑链检测和清除的方法
  6. php 猴子选大王,PHP猴子选大王,最优解决算法:一群猴子排成一圈,按1,2,…,n依次编号。然后从第1只开始数... - 简书...
  7. 桌面版 ChatGPT 来了!
  8. 6本Python好书上新,来撩~
  9. 机动车 科目一 之 标识标志(指示标志 [蓝色])
  10. vscode 清理临时文件