使用selenium抓取链家网房源信息,含分页处理。
源码如下,详细请看注释:

# coding=utf-8
from selenium import webdriver
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait'''
抓取链家网默认排序的房源信息
date:2019-11-17
Author:broccoli
'''def write2txt(line):with open('./result.txt', 'a', encoding='utf-8') as f:f.write(line + '\n')def process():driver_path = r"D:\chromedriver.exe"options = webdriver.ChromeOptions()# options.add_experimental_option('excludeSwitches', ['enable-automation'])browser = webdriver.Chrome(executable_path=driver_path)browser.implicitly_wait(1)#实现页码拼接,第一页为一种情况,第2页以后要拼接上数字for page in range(1, 50):if page == 1:url = 'https://sh.lianjia.com/ershoufang/?utm_source=baidu&utm_medium=pinzhuan&utm_term=biaoti&utm_content=biaotimiaoshu&utm_campaign=sousuo&ljref=pc_sem_baidu_ppzq_x'else:url = 'https://sh.lianjia.com/ershoufang/pg' + str(page) +'/?utm_source=baidu&utm_medium=pinzhuan&utm_term=biaoti&utm_content=biaotimiaoshu&utm_campaign=sousuo&ljref=pc_sem_baidu_ppzq_x'browser.get(url)browser.maximize_window()wait = WebDriverWait(browser, 3)ul = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'div.content  > div > ul')))li_list = ul.find_elements_by_tag_name('li')li_len = print(len(li_list))#添加num计数器是为了跳过第6个li元素,该元素下面没有文本内容,仅有一张广告图片num = 0for li in li_list:if num != 5:detail_div = li.find_element_by_css_selector('div')print(num)detail_div_list = detail_div.find_elements_by_tag_name('div')title = detail_div_list[0].find_element_by_tag_name('a').textprint('房源:',title)write2txt('房源:'+title)flood_postition_list = detail_div_list[1].find_element_by_tag_name('div').find_elements_by_tag_name('a')print('房源位置:',flood_postition_list[0].text + flood_postition_list[1].text)write2txt('房源位置:' + flood_postition_list[0].text + flood_postition_list[1].text)#address = detail_div_list[2].find_element_by_css_selector('div.houseInfo').text#print(address)followInfo = detail_div_list[3].find_element_by_tag_name('div').textprint('详细信息:', followInfo)write2txt('详细信息:'+ followInfo)#span_list = detail_div_list[4].find_elements_by_tag_name('span')#print(span_list[0].text + span_list[1].text)num += 1if __name__ == '__main__':process()

抓取下来的信息如下:

python爬虫-selenium爬取链家网房源信息相关推荐

  1. python+selenium爬取链家网房源信息并保存至csv

    python+selenium爬取链家网房源信息并保存至csv 抓取的信息有:房源', '详细信息', '价格','楼层', '有无电梯 import csv from selenium import ...

  2. 如何高效地爬取链家的房源信息(四)

    "Python实现的链家网站的爬虫第四部分,最后一部分." 本系列文将以链家南京站为例,使用Python实现链家二手房源信息的爬虫,将数据爬取,并存入数据库中,以便使用. 本系列第 ...

  3. 如何高效地爬取链家的房源信息(三)

    "Python实现的链家网站的爬虫第三部分." 本系列文将以链家南京站为例,使用Python实现链家二手房源信息的爬虫,将数据爬取,并存入数据库中,以便使用. 本系列第一部分为基础 ...

  4. 如何高效地爬取链家的房源信息(二)

    "Python实现的链家网站的爬虫第二部分." 本系列文将以链家南京站为例,使用Python实现链家二手房源信息的爬虫,将数据爬取,并存入数据库中,以便使用. 本系列第一部分: 如 ...

  5. Python 小项目 01 爬虫项目 爬取链家网南京地区二手房信息

    SpiderLianjia 介绍 python爬虫小程序,爬取链家网南京地区普通住宅二手房数据. 代码下载: https://gitee.com/lihaogn/SpiderLianjia 1 程序设 ...

  6. 【爬虫】爬取链家网青城山二手房源信息

    一.项目背景 本项目是用python爬虫来实现爬取链家网青城山的二手房信息,我们小组是针对于在我们成都东软学院周边的二手房信息做一个数据爬取和建表.我们小组做这个项目的背景是因为在不久的将来,我们大学 ...

  7. python 爬虫实践 (爬取链家成交房源信息和价格)

    简单介绍 pi: 简单介绍下,我们需要用到的技术,python 版本是用的pyhon3,系统环境是linux,开发工具是vscode:工具包:request 爬取页面数据,然后redis 实现数据缓存 ...

  8. python爬取南京市房价_Python的scrapy之爬取链家网房价信息并保存到本地

    因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ​ 爬虫结构: ​ 其中封装了一个数据库处理模 ...

  9. python爬取链家房价消息_Python的scrapy之爬取链家网房价信息并保存到本地

    因为有在北京租房的打算,于是上网浏览了一下链家网站的房价,想将他们爬取下来,并保存到本地. 先看链家网的源码..房价信息 都保存在 ul 下的li 里面 ​ 爬虫结构: ​ 其中封装了一个数据库处理模 ...

  10. 爬虫,爬取链家网北京二手房信息

    # 链家网二手房信息爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup ...

最新文章

  1. android 支付宝支付 出现系统繁忙,请稍后重试(ALI10)
  2. SQL Server查询重复数据
  3. 【Flutter】底部导航栏实现 ( BottomNavigationBar 底部导航栏 | BottomNavigationBarItem 导航栏条目 | PageView )
  4. java logfaction_Java调试的变迁:从System.out.println到log4j
  5. Apache与Tomcat 区别与联系
  6. Java:比较两个对象中全部属性值是否相等
  7. 如何保障项目组写出高质量的代码
  8. 测试用例目的和测试用例方法
  9. 如果图G=V,E是哈密尔顿图,则它必然具备下述性质
  10. 历经一个月研究,发布两款机器人,小白就会python自己制作机器人了
  11. c语言中单词的作用与形式,C语言基础教程:单词的用法与规则
  12. forwardRef 的详解及使用
  13. unity 2d摄像机类型_Unity法线水,顺便利用CommandBuffer实现廉价的深度和截屏
  14. 在同一个二维坐标系绘制出一元二次曲线, sin正弦、cos余弦曲线 (numpy,matplotlib.pyplot )
  15. Linux系统下服务和运行目标管理——单用户和多用户模式的切换
  16. Re: 酷似抓虾的ruby on rail网站-猫爪
  17. 物联网之IP Camera解决方案简介
  18. Win10 打印机共享问题解决实录
  19. EMNLP2021 | DeepBlueAI团队少量数据关系抽取论文被录用
  20. Sheet弹出视图在SwiftUI中“怪异”行为的解决(第一次弹出视图的可选属性总得到nil值)

热门文章

  1. tomcat 服务器无响应,关于tomcat:数据库连接池连接耗尽导致tomcat请求无响应呈现出假死状态...
  2. python3,烤地瓜案例
  3. sklearn中精确率、召回率及F1值得micro,macro及weighted算法
  4. 机器视觉学习笔记(三)-- 图像采集(镜头)
  5. 听说今年金三银四变成金一银二了。
  6. 2018计算机cpu调研,2018最新电脑处理器天梯图,进来了解下
  7. lg android tv遥控器,LG TV Remote遥控器
  8. please select a valid python interpreter(请选择一个解释器)
  9. DNS解析常见问题:如何清理DNS缓存?
  10. ML Hyperlink