from urllib import request
from time import sleep
from  lxml import  etree
import csv
# import random    #sleep(random.random(1)*2) 随机秒数
# 参数部分
# sz_url = 'https://sz.lianjia.com/zufang/'
#
# header = {
#
# 'Referer': 'https://sz.lianjia.com/zufang/',
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
# }
# # 请求部分
# res = request.Request(sz_url,headers=header)
#
# response = request.urlopen(res)
# result = response.read().decode()
# # print(result)
# # 筛选部分
# html = etree.HTML(result)
# name_list = html.xpath('//ul[@id="house-lst"]/li/div[@class="info-panel"]/h2/a')
# with open('house.csv',"wb") as f:
#     for name in name_list:
#         title=name.attrib["title"]
#         f.write(title.encode())
#         f.write('\n'.encode())
#         print(title)# --------------------------------------------------------------------------------------------------------------
# # 参数部分
# sz_url = 'https://sz.lianjia.com/zufang/105101400296.html'
#
# header = {
#
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36',
# }
# # 请求部分
# res = request.Request(sz_url,headers=header)
#
# response = request.urlopen(res)
# result = response.read().decode()
# # print(result)
#
# html = etree.HTML(result)
# name_list = html.xpath('//div[@class="brokerName"]/a')
#
# for name in name_list:
#     text = name.text
#     print(text)# @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@code  tree@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
# 请求测试
def getRequet(url,xpath,**headers):default_headers = {'Connection': 'keep-alive','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTM, like Gecko) Chrome/67.0.3396.62 Safari/537.36',}if headers :headers ={ **headers, **default_headers}else:headers = default_headersreq = request.Request(url,headers=headers)response = request.urlopen(req)result = response.read().decode()html = etree.HTML(result)name_list = html.xpath(xpath)return name_list
def main():with open('house.csv',"wb") as f:#打开csv文件 写入数据# csv_file = open('house.csv','wb')# csv_write = csv.writer(csv_file,dialect='excel')zf_url='https://sz.lianjia.com/zufang/'#要访问的url地址zf_xpath='//ul[@id="house-lst"]/li/div[@class="info-panel"]/h2/a'#租房xpath地址name_xpath='//div[@class="brokerName"]/a'#联系人名字xpathhouse_list=getRequet(zf_url,zf_xpath)for house  in house_list:print('正在下载:',zf_url)#打印下载链接地址attrib = house.attribhouse_name = attrib['title']url =attrib['href']username=getRequet(url,name_xpath)[0].text#取联系人名字的文本信息下标0# csv_write.witerow(house_name,username)# print('@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@')# print(name)# print(url)#f.write(house_name.encode())#encode编码f.write('\n'.encode())f.write(username.encode())f.write('\n'.encode())# print(house_name)# print(username)sleep(1)# print('@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@')print('下载完成')f.close()if __name__=='__main__':main()

  

链家深圳租房信息爬取练习 附加源码相关推荐

  1. 链家武汉租房信息爬取并可视化数据分析

    爬取的信息内容:区域,标题,二级区域,小区名字,大小,朝向,户型,租金 项目下载 链接:https://pan.baidu.com/s/15LcBtBARBlqs5xuJW4TgWQ 提取码:njp8 ...

  2. 基于scrapy下的租房信息爬取与数据展示工具的设计与实现

    环境:python 3.6.0 Anaconda custom 64bit 4.3.0 Pycharm x64 专业版 2018.1.2 Web strom x64 专业版 2018.1.3 scra ...

  3. Python爬取链家北京租房信息!北京租房都租不起啊!

    一.效果图 二.代码 import re from fake_useragent import UserAgent from lxml import etree import asyncio impo ...

  4. python3爬虫抓取链家上海租房信息

    环境:win10,anaconda3(python3.5) 爬取对象网站:链家上海租房 方法一:利用requests获取网页信息,再利用正则提取数据,并将结果保存到csv文件. 代码地址:代码 抓取到 ...

  5. Python爬取链家北京租房信息

    刚学习了python,中途遇到很多问题,查了很多资料,最关键的就是要善于调试,div信息一定不要找错,下面就是我爬取租房信息的代码和运行结果: 链家的房租网站 两个导入的包 1.requests 用来 ...

  6. scrapy某家租房信息爬取

    目的: 使用scrapy框架进行租房信息(杭州地区)爬取,包括小区名称,位置,价格,面积,房间朝向.户型等,然后把爬取的信息保存到本地csv表格中. 分析: 某家的网站爬取不难,看一下页面,需要爬取的 ...

  7. python爬房源信息_Python爬链家网租房信息

    爬去链家网的租房信息然后存储到数据库中. #-*- coding:utf-8 -*- import requests import re import random import MySQLdb fr ...

  8. 成都链家网租房信息分析报告

    前言 临近毕业,面临找工作找住所的问题.正好赶上正好赶上最近在学习数据分析,于是尝试对链家网上的租房信息进行分析,了解一下最近的租房行情. 提出猜想 简单分析了一下影响租房价格的因素,根据可以爬取到的 ...

  9. 《Python网络爬虫从入门到实践》实现深圳租房信息抓取

    爬取网站:https://zh.airbnb.com/s/Shenzhen--China?page=1 1.点击下部显示全部按钮,将租房信息全部显示 2.设置循环,一页一页获取 3.查看网页源码,寻找 ...

  10. 爬虫实例:链家网房源数据爬取

    初接触python爬虫,跟着视频学习一些很基础的内容,小小尝试了一下,如有错误感谢指正. 库和方法介绍: (1)requests requests是python的工具包,用于发出请求,,是用来获取网站 ...

最新文章

  1. Tensorflow 变量的共享
  2. Eclipse europa 更新时 Error retrieving feature.xml. [error in opening zip file]
  3. Ubuntu下如何禁用IPv6
  4. 基于迁移学习的反欺诈方法研究
  5. 应用程序通用开发框架
  6. Java多线程安全问题解决的两种方式代码案例
  7. 29岁学python的建议_学习Python的建议
  8. java锁的级别_Java锁的那些事儿之JDK锁(ReentrantLock)
  9. 学生用的笔记本电脑什么样的好_最适合2020年看的选购指南:这些笔记本电脑便宜又好用...
  10. Allure清除历史记录
  11. 第一章 DirectX 计算机图形学(上)
  12. 硬盘数据恢复方法有哪些?希望这些方法能帮助你
  13. 肝脏、心脏、脾脏、肺脏、肾脏的毒素表现以及食疗排毒
  14. MOSFet cutoff frequency ( From google)
  15. 48岁谷歌联合创始人布林再离婚,6000 亿财富或将分割
  16. 编程老手的哪些特点,是值得新手程序员学习的?
  17. 生产车间问题频发如何解决?
  18. 【Java设计模式】组合模式
  19. 26丨案例:手把手带你理解TPS趋势分析*
  20. postgresql 表分区

热门文章

  1. Android怎么设置快捷键,Android Studio的快捷键设置方法
  2. 职称计算机ppt2007易错题,职称计算机考试xcel2007模块难题通关技巧.doc
  3. Web Worker使用教程
  4. python爬虫(十三)selenium(Selenium入门、chromedriver、Phantomjs)
  5. Mongodb释放内存
  6. 微软报表工具服务器版本,Report Builder 3.0
  7. Binet‘s Formula 算法
  8. win10点击关机后不能正常关机的处理
  9. matplotlib plot显示marker超出边界部分
  10. JavaScript|日期格式化、今天、昨天、明天和某天