#导入 requests 和 BeautifulSoup模块
import requests
from bs4 import BeautifulSoup
#链家的网站
url = 'https://gz.lianjia.com/zufang/'def get_page(url):
#向链家的网站发起请求并得到返回结果response = requests.get(url)
#用lxml解析上一步返回的结果soup = BeautifulSoup(response.text, 'lxml')return soup

查看网页得知,我们需要的信息在<a class = “…”…>

再获取href

def get_links(url):soup = get_page(url)
#find_all('a', class_="content__list--item--aside")方法获得符合这个条件下的内容links_a = soup.find_all('a', class_="content__list--item--aside")
#利用get方法获取href的内容,并用列表生成式生成一个列表。
#href中缺少头部‘https://gz.lianjia.com’,所以要主动加上去links = ['https://gz.lianjia.com' + a.get('href') for a in links_a]return links

这样就获取了一个links列表,列表里包含了我们爬取到的房屋信息的链接如下

#先用一个包含租房信息的链接尝试一下,最后运行时要删除house_url = ......
house_url = 'https://gz.lianjia.com/zufang/GZ2397925687354212352.html'
def get_house_information(house_url):soup = get_page(house_url)#价格信息price = soup.find('li', class_="table_col font_orange").text#unit中包含了面积,楼层,房屋朝向,车位等信息,用字符串切片方式简单获取面积信息和楼层信息。unit = soup.find_all('li', class_="fl oneline")area = unit[1].text[3:]floor = unit[7].text
#创建一个字典来保存这些信息house = {'价格': price,'面积': area,'楼层': floor}return house

house字典数据

连接数据库,将house字典数据存入数据库中

import pymysql
db = pymysql.connect(host = 'localhost', user = 'root', password = 'root',db ='ckw',port = 3306)
def insert(db,house):cols = ", ".join('`{}`'.format(k) for k in house.keys())val_cols = ', '.join('%({})s'.format(k) for k in house.keys())print(val_cols)sql = "insert into house(%s) values(%s)"res_sql = sql % (cols, val_cols)cursor = db.cursor()cursor.execute(res_sql, house)db.commit()

运行代码,启动`

url = 'https://gz.lianjia.com/zufang/'
links = get_links(url)
for link in links:time.sleep(3)house = get_house_information(link)insert(db,house)

简单爬取链家上广州的租房信息相关推荐

  1. 爬取链家网站中的租房信息

    爬取链家网站中的租房信息 信息爬取代码 信息爬取代码 import requests from lxml import etree import pandas as pdwith open('zufa ...

  2. 爬取链家网站的北京租房信息

    本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧.我们要做到项目是分析北京地区的租房的信息分析. 我们需要做的是爬取链家网站 ...

  3. Python爬取链家网24685个租房信息并进行数据分析

    2020年注定是一个不平凡的年份,很多行业受疫情影响艰难前行,即便复产复工提速,被抑制的需求也难以短期释放.与此同时,地摊经济孕育而生,如果人们真的都去摆地摊了,是不是也会出现睡地摊的普遍现象?这时候 ...

  4. Python爬虫之路-爬取北、上、广租房信息

    链家网 在实现爬取北.上.广租房信息时,需要使用fake_useragent.asyncio.aiohttp.requests.lxml以及pandas模块. 各模块关键技术如下: 1.fake_us ...

  5. Python 小项目 01 爬虫项目 爬取链家网南京地区二手房信息

    SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...

  6. 基于python多线程和Scrapy爬取链家网房价成交信息

    文章目录 知识背景 Scrapy- spider 爬虫框架 SQLite数据库 python多线程 爬取流程详解 爬取房价信息 封装数据库类,方便多线程操作 数据库插入操作 构建爬虫爬取数据 基于百度 ...

  7. 【爬虫】爬取链家网青城山二手房源信息

    一.项目背景 本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...

  8. 爬取链家北京租房数据并做简单分析

    在一个来北京不久的学生眼中,北京是一个神秘又充满魅力的大城市.它无比美好,但又无时无刻不再觊觎这你薄弱的钱包. 租房是很多人都离不开的硬性需求,这里就对从链家爬取的北京地区房屋出租数据进行一个简单分析 ...

  9. Scrapy实战篇(一)之爬取链家网成交房源数据(上)

    今天,我们就以链家网南京地区为例,来学习爬取链家网的成交房源数据. 这里推荐使用火狐浏览器,并且安装firebug和firepath两款插件,你会发现,这两款插件会给我们后续的数据提取带来很大的方便. ...

最新文章

  1. 漫谈 ClickHouse 在实时分析系统中的定位与作用
  2. 我的360破解考题答案
  3. Sencha ID的注册
  4. Java牛客专项练习2020.12.10
  5. python播放音乐同步歌词_使用Python下载歌词并嵌入歌曲文件中的实现代码
  6. PostgreSQL 聚合、分组、排序
  7. ElasticSearch三master节点集群状态查看方法
  8. Python+SQLite开发无界面版通信录管理系统
  9. 叉积 微分 恒等式_4分钟带你认识向量的极化恒等式。
  10. 小目标Trick | Detectron2、MMDetection、YOLOv5都通用的小目标检测解决方案
  11. python基于django的校园公寓宿舍报修管理系统设计与实现
  12. 02 必备SQL和表关系及授权
  13. Java常用的集成开发工具Eclipse和IDEA
  14. Python——数字金字塔
  15. OCR手写文字怎么识别
  16. 我和ChatGPT聊了聊:它承认自己没有人性
  17. 深度学习环境搭建之七_Ubuntu安装微信、QQ、百度网盘
  18. win7时间总是不对怎么办?
  19. [附源码]java毕业设计学生档案管理系统论文
  20. vue3 和typescript的强强联合的初次体验——摔跤放弃到重来

热门文章

  1. 推荐2款在线制作简历工具,附简历大礼包
  2. 检测鼠标上滑还是下滑
  3. [Python] 编码生成26个英文字母
  4. 利用Python的pywinauto库写个自动化控制脚本
  5. 【单片机毕业设计】【mcuclub-cl-017】基于单片机的路灯的设计
  6. Luenberger Observer线性观测器设计
  7. wireshark抓包分析怎么看进程_wireshark 抓包分析
  8. 从用户交互场景出发,欧瑞博MixPad要系统化定义智能居住空间
  9. 数控机床工作平台位置伺服系统的的数学建模与仿真
  10. 当迷茫在大学泛滥成灾 -- 李开复