直接上代码吧,应该很好理解

import requests
import lxml.html
import time
from fake_useragent import UserAgent
import pymongo
import randomf = "https://bj.lianjia.com/ershoufang/"
ua = UserAgent()
client = pymongo.MongoClient()
database = client['lianjia']
collection = database['spider']proxyHost = "http-dyn.abuyun.com"
proxyPort = "9020"# 代理隧道验证信息
proxyUser = "xxxxx"
proxyPass = "xxxxx"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,
}proxies = {"http": proxyMeta,"https": proxyMeta,
}
url_list = []
for i in range(1, 101):right_url = 'https://bj.lianjia.com/ershoufang/pg{}/'.format(i)url_list.append(right_url)
t = True
num = 0
while t:try:HEADERS = {'Referer': 'https://bj.lianjia.com/?utm_source=baidu&utm_medium=pinzhuan&utm_term=biaoti&utm_content=biaotimiaoshu&utm_campaign=sousuo&ljref=pc_sem_baidu_ppzq_x','User-Agent': ua.random}print(url_list[num])html = requests.get(url_list[num], headers=HEADERS, proxies=proxies).content.decode()source = lxml.html.fromstring(html)title = source.xpath('//*[@id="content"]/div[1]/ul/li/div[1]/div[2]/div/a/text()')info = source.xpath('//*[@id="content"]/div[1]/ul/li/div[1]/div[2]/div/text()')price = source.xpath('//*[@id="content"]/div[1]/ul/li/div[1]/div[6]/div[1]/span/text()')per_price = source.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[6]/div[2]/span/text()')dic = {}for i in range(len(title)):dic = {'location': title[i], 'info': info[i], 'price': price[i], 'per_price': per_price[i]}collection.insert_one(dic)print(dic)time.sleep(random.randint(3, 6))num += 1if num == 100:t = Falseexcept Exception as e:num += 1print(e)continueprint('信息采集完毕')

采集这些网站最后花点钱买一个ip代理,这样不容易中途被封ip 我用的是 阿布云 1块钱一个小时 很划算
下面是采集的结果 部分数据

如果你正好有买房的想法,可以再采集全部成交二手房那个的信息,然后进行数据对比 这样就能知道你想要买的房子 大概市面价是多少。

python 爬虫 链家网二手房信息采集代码相关推荐

  1. 【Python】链家网二手房购房决策树

    整体流程: 1.数据抓取: 2.数据清洗: 3.建模及优化: 4.业务意义: 5.反思. 一.数据抓取 环境:python3.7 from parsel import Selector import ...

  2. python爬取链家新房_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  3. python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...

  4. 链家网二手房数据分析(承接上篇爬虫)

    import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.sans-serif ...

  5. python二手房使用教程_python实战:基于链家网二手房数据解析任务

    实战:基于链家网二手房数据解析任务 页面:https://bd.ke.com/ershoufang/ 获取如下信息: 标题 位置 房屋信息 关注人数 / 发布时间 房屋总价 房屋单价 备注信息 1.导 ...

  6. 爬取链家网二手房数据并保存到mongodb中

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 爬取链家网二手房数据并保存到mongodb中 文章目录 前言 一.爬虫的介绍 二.协程的介绍 三.css选择器 四.基于asyncio ...

  7. 数据分析:pandas分析链家网二手房信息

    分析链家网南京市二手房信息 链家网二手房数据的采集方法参见之前的博客:数据采集(四):用XPath爬取链家网房价数据 总共有3000条二手房信息记录. import pandas as pd impo ...

  8. Python爬虫攻略(2)Selenium+多线程爬取链家网二手房信息

    申明:本文对爬取的数据仅做学习使用,请勿使用爬取的数据做任何商业活动,侵删 前戏 安装Selenium: pip install selenium 如果下载速度较慢, 推荐使用国内源: pip ins ...

  9. php爬取房源,Python 爬虫 链家二手房(自行输入城市爬取)

    因同事想在沈阳买房,对比分析沈阳各区的房价,让我帮忙爬取一下链家网相关数据,然后打 算记下笔记 用于总结学到的东西&用到的东西. 一.爬虫需要会什么? 学习东西 首先你要知道它是干嘛的.爬虫 ...

最新文章

  1. 快速学习ggplot2
  2. 机器学习中的异常检测手段
  3. Morris Traversal方法遍历二叉树(非递归,不用栈,O(1)空间)——无非是在传统遍历过程中修改叶子结点加入后继结点信息(传统是stack记录),然后再删除恢复...
  4. PDF:解决从PDF中复制文字时出现的空方框问题
  5. python柱状图分析代码
  6. solaris系统普通用户无法执行su命令
  7. VTK:标签放置映射器用法实战
  8. Hbase shell 常用命令
  9. jquery中的创建节点和添加节点的方法
  10. linux下/var/run目录下.pid文件的作用(文件锁,防止重复启动)
  11. 怎么查看数据库服务器型号,如何查看服务器数据库类型
  12. Android 启动过程介绍【转】
  13. SQL审核 | 如何使用 SQLE 进行开发阶段 SQL审核
  14. 盒马销量预测核心算法的技术演进
  15. 小程序纵向选项卡可以滑动_微信小程序实现选项卡滑动切换
  16. TSINSEE青犀视频/海康合作的RTMP推流安防摄像头的移动侦测功能介绍
  17. 商业模拟游戏:柠檬汁杰克项目
  18. 云计算时代的进阶者,专访景安董事长杨小龙
  19. 剑指offer-面试题23:链表中环的入口节点 快慢指针+双指针
  20. javaS的tring和androidS的tring区别是什么?

热门文章

  1. spring boot框架常用的一些玩意儿
  2. nyoj451 光棍节的快乐
  3. 常用知识图谱数据集FB15K, YAGO, WN18
  4. python打印a-z的字母
  5. 用正则表达式求非负整数 、匹配正整数、非正整数、负整数、整数、非负浮点数、正浮点数、非正浮点数、负浮点数、浮点数、有数字26个英文字母组成的字符串
  6. 大数据在金融领域的应用案例解析
  7. GCN-Global Convolutional Network
  8. 数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL
  9. 2021-2027全球与中国同种异体人类软骨细胞市场现状及未来发展趋势
  10. 分享一个神器!16倍速看视频,闪瞎了我的狗眼!