python爬虫——使用bs4爬取链家网的房源信息

1. 先看效果

2. 进入链家网，这里我选择的是海口市点击跳转到链家网

3. 先看网页的结构，这些房子的信息都在li标签，而li标签再ul标签，所以怎么做大家都懂

4. 代码如下，url的链接大家可以自己翻页看看就找到规律了，这里就不多说了

url = 'https://hk.lianjia.com/ershoufang/pg{}/'.format(page)
# 请求url
resp = requests.get(url, headers=headers)
# 讲返回体转换成Beautiful
soup = BeautifulSoup(resp.content, 'lxml')
# 筛选全部的li标签
sellListContent = soup.select('.sellListContent li.LOGCLICKDATA')

5. 再看看我们需要提取信息的结构

6. 代码附上，其中会做一些数据清洗，大家爬的时候就知道了，对了，其中stripped_strings返回来的是一个迭代器，所以需要转换成list

# 循环遍历for sell in sellListContent:try:# 题目title = sell.select('div.title a')[0].string# 先抓取全部的div信息，再针对每一条进行提取houseInfo = list(sell.select('div.houseInfo')[0].stripped_strings)# 楼盘名字loupan = houseInfo[0]# 对剩下的信息进行分割info = houseInfo[1].split('|')# 房子类型house_type = info[1].strip()# 面积area = info[2].strip()# 朝向toward = info[3].strip()# 装修类型renovation = info[4].strip()# 地址positionInfo = ''.join(list(sell.select('div.positionInfo')[0].stripped_strings))# 总价totalPrice = ''.join(list(sell.select('div.totalPrice')[0].stripped_strings))# 单价unitPrice = list(sell.select('div.unitPrice')[0].stripped_strings)[0]# 声明一个字典存储数据data_dict = {}data_dict['title'] = titledata_dict['loupan'] = loupandata_dict['house_type'] = house_typedata_dict['area'] = areadata_dict['toward'] = towarddata_dict['renovation'] = renovationdata_dict['positionInfo'] = positionInfodata_dict['totalPrice'] = totalPricedata_dict['unitPrice'] = unitPricedata_list.append(data_dict)print(data_dict)

7. 完整代码附上

import requests
from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import json
import csv
import time# 构建请求头
ua = UserAgent()
headers = {'user-agent': ua.Chrome
}# 声明一个列表存储字典
data_list = []def start_spider(page):url = 'https://hk.lianjia.com/ershoufang/pg{}/'.format(page)# 请求urlresp = requests.get(url, headers=headers)# 讲返回体转换成Beautifulsoup = BeautifulSoup(resp.content, 'lxml')# 筛选全部的li标签sellListContent = soup.select('.sellListContent li.LOGCLICKDATA')# 循环遍历for sell in sellListContent:try:# 题目title = sell.select('div.title a')[0].string# 先抓取全部的div信息，再针对每一条进行提取houseInfo = list(sell.select('div.houseInfo')[0].stripped_strings)# 楼盘名字loupan = houseInfo[0]# 对剩下的信息进行分割info = houseInfo[1].split('|')# 房子类型house_type = info[1].strip()# 面积area = info[2].strip()# 朝向toward = info[3].strip()# 装修类型renovation = info[4].strip()# 地址positionInfo = ''.join(list(sell.select('div.positionInfo')[0].stripped_strings))# 总价totalPrice = ''.join(list(sell.select('div.totalPrice')[0].stripped_strings))# 单价unitPrice = list(sell.select('div.unitPrice')[0].stripped_strings)[0]# 声明一个字典存储数据data_dict = {}data_dict['title'] = titledata_dict['loupan'] = loupandata_dict['house_type'] = house_typedata_dict['area'] = areadata_dict['toward'] = towarddata_dict['renovation'] = renovationdata_dict['positionInfo'] = positionInfodata_dict['totalPrice'] = totalPricedata_dict['unitPrice'] = unitPricedata_list.append(data_dict)print(data_dict)except Exception as e:continuedef main():# 只爬取10页for page in range(1, 10):start_spider(page)time.sleep(3)# 将数据写入json文件with open('data_json.json', 'a+', encoding='utf-8') as f:json.dump(data_list, f, ensure_ascii=False, indent=4)print('json文件写入完成')# 将数据写入csv文件with open('data_csv.csv', 'w', encoding='utf-8', newline='') as f:# 表头title = data_list[0].keys()# 创建writer对象writer = csv.DictWriter(f, title)# 写入表头writer.writeheader()# 批量写入数据writer.writerows(data_list)print('csv文件写入完成')if __name__ == '__main__':main()

python爬虫——使用bs4爬取链家网的房源信息相关推荐

基于python多线程和Scrapy爬取链家网房价成交信息
文章目录知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程爬取流程详解爬取房价信息封装数据库类,方便多线程操作数据库插入操作构建爬虫爬取数据基于百度 ...
【爬虫】爬取链家网青城山二手房源信息
一.项目背景本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...
Python爬虫爬取链家网上的房源信息练习
一原链接:用Python爬虫爬取链家网上的房源信息_shayebuhui_a的博客-CSDN博客_python爬取链家打开链家网页:https://sh.lianjia.com/zufang/ ...
python爬房源信息_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
python 爬取链家数据_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
五十七、爬取链家网北京二手房信息，并进行线性回归建模
@Author : By Runsen @Date:2020/5/31 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘课严 ...
爬取链家网北京房源及房价分析
爬取链家网北京房源及房价分析文章开始把我喜欢的这句话送个大家:这个世界上还有什么比自己写的代码运行在一亿人的电脑上更酷的事情吗,如果有那就是让这个数字再扩大十倍 1.数据获取 # 获取某市区域的所有 ...
python爬取链家新房_Python爬虫实战：爬取链家网二手房数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
python爬取链家新房数据_Python爬虫实战：爬取链家网二手房数据
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

python爬虫——使用bs4爬取链家网的房源信息

1. 先看效果

2. 进入链家网，这里我选择的是海口市点击跳转到链家网

3. 先看网页的结构，这些房子的信息都在li标签，而li标签再ul标签，所以怎么做大家都懂

4. 代码如下，url的链接大家可以自己翻页看看就找到规律了，这里就不多说了

5. 再看看我们需要提取信息的结构

6. 代码附上，其中会做一些数据清洗，大家爬的时候就知道了，对了，其中stripped_strings返回来的是一个迭代器，所以需要转换成list

7. 完整代码附上

python爬虫——使用bs4爬取链家网的房源信息相关推荐

最新文章

热门文章