简单爬取链家上广州的租房信息

#导入 requests 和 BeautifulSoup模块
import requests
from bs4 import BeautifulSoup
#链家的网站
url = 'https://gz.lianjia.com/zufang/'def get_page(url):
#向链家的网站发起请求并得到返回结果response = requests.get(url)
#用lxml解析上一步返回的结果soup = BeautifulSoup(response.text, 'lxml')return soup

查看网页得知，我们需要的信息在<a class = “…”…>

再获取href

def get_links(url):soup = get_page(url)
#find_all('a', class_="content__list--item--aside")方法获得符合这个条件下的内容links_a = soup.find_all('a', class_="content__list--item--aside")
#利用get方法获取href的内容，并用列表生成式生成一个列表。
#href中缺少头部‘https://gz.lianjia.com’，所以要主动加上去links = ['https://gz.lianjia.com' + a.get('href') for a in links_a]return links

这样就获取了一个links列表，列表里包含了我们爬取到的房屋信息的链接如下

#先用一个包含租房信息的链接尝试一下，最后运行时要删除house_url = ......
house_url = 'https://gz.lianjia.com/zufang/GZ2397925687354212352.html'
def get_house_information(house_url):soup = get_page(house_url)#价格信息price = soup.find('li', class_="table_col font_orange").text#unit中包含了面积，楼层，房屋朝向，车位等信息，用字符串切片方式简单获取面积信息和楼层信息。unit = soup.find_all('li', class_="fl oneline")area = unit[1].text[3:]floor = unit[7].text
#创建一个字典来保存这些信息house = {'价格': price,'面积': area,'楼层': floor}return house

house字典数据

连接数据库，将house字典数据存入数据库中

import pymysql
db = pymysql.connect(host = 'localhost', user = 'root', password = 'root',db ='ckw',port = 3306)
def insert(db,house):cols = ", ".join('`{}`'.format(k) for k in house.keys())val_cols = ', '.join('%({})s'.format(k) for k in house.keys())print(val_cols)sql = "insert into house(%s) values(%s)"res_sql = sql % (cols, val_cols)cursor = db.cursor()cursor.execute(res_sql, house)db.commit()

运行代码，启动`

url = 'https://gz.lianjia.com/zufang/'
links = get_links(url)
for link in links:time.sleep(3)house = get_house_information(link)insert(db,house)

简单爬取链家上广州的租房信息相关推荐

爬取链家网站中的租房信息
爬取链家网站中的租房信息信息爬取代码信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...
爬取链家网站的北京租房信息
本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧.我们要做到项目是分析北京地区的租房的信息分析. 我们需要做的是爬取链家网站 ...
Python爬取链家网24685个租房信息并进行数据分析
2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放.与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候 ...
Python爬虫之路-爬取北、上、广租房信息
链家网在实现爬取北.上.广租房信息时,需要使用fake_useragent.asyncio.aiohttp.requests.lxml以及pandas模块. 各模块关键技术如下: 1.fake_us ...
Python 小项目 01 爬虫项目爬取链家网南京地区二手房信息
SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...
基于python多线程和Scrapy爬取链家网房价成交信息
文章目录知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程爬取流程详解爬取房价信息封装数据库类,方便多线程操作数据库插入操作构建爬虫爬取数据基于百度 ...
【爬虫】爬取链家网青城山二手房源信息
一.项目背景本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...
爬取链家北京租房数据并做简单分析
在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市.它无比美好,但又无时无刻不再觊觎这你薄弱的钱包. 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析 ...
Scrapy实战篇（一）之爬取链家网成交房源数据（上）
今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...

简单爬取链家上广州的租房信息

简单爬取链家上广州的租房信息相关推荐

最新文章

热门文章