用python爬取链家的租房信息(记录自己的第一个python代码),
里面涉及到的主要的点有:使用代理ip访问;读取网页;翻页等。欢迎交流

代码如下:

import requests
import urllib.request#urllib.request功能的了解
from bs4 import BeautifulSoup#BeautifulSoup功能了解
import bs4
import random
import re##通过函数获取网页信息
def gethtml(url):#用代理IP访问proxy_support = urllib.request.ProxyHandler({'http':'119.6.144.73:81'})opener = urllib.request.build_opener(proxy_support)opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363')]urllib.request.install_opener(opener)#读取网页信息#zf = urllib.request.urlopen('https://sh.lianjia.com/zufang/anting/rt200600000001l0/')zf = urllib.request.urlopen(url)#'https://ks.lianjia.com/zufang/kunshan/rt200600000001l0/'html = zf.read()ht = html.decode('utf8')zf.closeSoup = BeautifulSoup(ht,'lxml')return Soup##定义一些循环中会用到的变量
info = []
page = 1
TotalNumber = 0
urlMain = 'https://ks.lianjia.com/zufang/kunshan/'
urlOption = 'rt200600000001l0/'
#一共有多少条结果,防止找到限制条件以外的推荐结果
Number = int(gethtml(urlMain+urlOption).find(class_ = 'content__article').find(class_ = 'content__title').find('span').text)
print('已找到{}套租房'.format(Number))##用while循环去读取每一页的租房信息
while TotalNumber <= Number:print('正在读取第%d页'%page)if page == 1:url = urlMain + urlOptionelse:url = urlMain +'pg{}'.format(page) + urlOptionSoup = gethtml(url)###找到地址,价格,网址在网页中的位置,然后用find筛选出来Soup = Soup.find_all(class_ = 'content__list--item')numberOfThisPage = len(Soup)print('该页有%d条租房信息'%numberOfThisPage)print('')counter = 0for Soup in Soup:#print(Soup)counter+=1#print(counter)Address = Soup.find(class_ = 'content__list--item--des').find_all('a')if Address == []:continueelse:#print(Address)Address_DistrictName = Address[2].textAddress_Location = Address[0].text+','+Address[1].textPrice = Soup.find('em').textWebsite = Soup.find(class_ = 'content__list--item--title').find('a')['href']Website = 'https://sh.lianjia.com'+Websiteinfo.append([Address_DistrictName,Address_Location,Price,Website])###写入表格中fo=open("链家昆山租房信息——全部.csv","w")for row in info:fo.write(",".join(row)+"\n")fo.close()if counter == numberOfThisPage:breakTotalNumber += counterpage += 1

爬取结果如下(一共八百多条信息):

用python爬取链家的租房信息相关推荐

  1. Python爬取链家北京租房信息!北京租房都租不起啊!

    一.效果图 二.代码 import re from fake_useragent import UserAgent from lxml import etree import asyncio impo ...

  2. Python爬取链家北京租房信息

    刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...

  3. Python爬取链家成都二手房源信息

    作者 | 旧时晚风拂晓城 编辑 | JackTian 来源 | 杰哥的IT之旅(ID:Jake_Internet) 转载请联系授权(微信ID:Hc220066) 公众号后台回复:「成都二手房数据」,获 ...

  4. Python爬取链家成都二手房源信息,异步爬虫实战项目!

    本文先熟悉并发与并行.阻塞与非阻塞.同步与异步.多线程.多线程.协程的基本概念.再实现asyncio + aiohttp爬取链家成都二手房源信息的异步爬虫,爬取效率与多线程版进行简单测试和比较. 1. ...

  5. Python爬取链家地产二手房信息

    """ 1.爬取链家地产二手房信息 要求:使用代理进行爬取:59.58.151.34:3879 步骤:1.找URL第一页:https://yichang.lianjia. ...

  6. Python爬取链家成都小区信息

    事先声明,本人爬虫初学者,实习时需要用到房价数据,故上阵爬虫,水平有限,若有高见,还请多多指教. 准备工具:Chrome浏览器.Python3.7.IPython notebook 爬虫流程 1.进入 ...

  7. python+selenium爬取链家网房源信息并保存至csv

    python+selenium爬取链家网房源信息并保存至csv 抓取的信息有:房源', '详细信息', '价格','楼层', '有无电梯 import csv from selenium import ...

  8. python爬房源信息_用python爬取链家网的二手房信息

    题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...

  9. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  10. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

最新文章

  1. 一个伟大、孤僻、特立独行的灵魂:天才已去60年
  2. Windows Phone开发(37):动画之ColorAnimation
  3. 计算机维修案例分析题,14-15年春季高考信息技术题(组装维修部分)
  4. Hive记录-Impala jdbc连接hive和kudu参考
  5. oracle创建登录用户有限制吗,Oracle创建用户限制文件,表空间用户授权等。
  6. Awake OnEnable Start Update LateUpdate FixedUpdate
  7. Ubuntu使用记录:直接使用root账户登录
  8. Android Training精要(五)讀取Bitmap對象實際的尺寸和類型
  9. Tomcat原理整理
  10. springboot整合银联支付B2C
  11. MaxToMaya(3DMax场景转换插件)v1.4版
  12. U8结账提示出纳系统结账后账务系统才可以结账处理方法
  13. CNCC 2018 今日开幕,五场特邀报告引爆「大数据推动数字经济」| CNCC 2018
  14. docker 命令补全
  15. raspberry pi Pico使用MicroPython变砖后的解决方法
  16. 【读书心得】《格局》吴军
  17. android音频合成
  18. [XCode] Frame Rectangle 和 Alignment Rectangle 的区别
  19. ​数据整理——大数据治理的关键技术
  20. 移动端图片上传并生成图片(图片上传/图片压缩/图片绘制/Vue纯前端)

热门文章

  1. word打开文档很久很慢_Windows10系统下打开Word文档很慢的多种处理技巧
  2. 10月20日前!武汉市科技成果转化中试平台(基地)备案申报条件及流程梳理
  3. 万恶的hello world!
  4. 老猿Python博客文章目录索引
  5. Ubuntu 18.04安装全面战争三国游戏 (by quqi99)
  6. 在北京拿40K的Java程序员,需要掌握哪些技术栈才能匹配阿里P7?
  7. 我们上市了-taofen8-返利界最美的云彩
  8. Onedrive 1T|5T 网盘获取
  9. spark-streaming 编程(六)mapwithState
  10. Leslie cheung's Speech