python 爬虫 链家网二手房信息采集代码
直接上代码吧,应该很好理解
import requests
import lxml.html
import time
from fake_useragent import UserAgent
import pymongo
import randomf = "https://bj.lianjia.com/ershoufang/"
ua = UserAgent()
client = pymongo.MongoClient()
database = client['lianjia']
collection = database['spider']proxyHost = "http-dyn.abuyun.com"
proxyPort = "9020"# 代理隧道验证信息
proxyUser = "xxxxx"
proxyPass = "xxxxx"proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {"host": proxyHost,"port": proxyPort,"user": proxyUser,"pass": proxyPass,
}proxies = {"http": proxyMeta,"https": proxyMeta,
}
url_list = []
for i in range(1, 101):right_url = 'https://bj.lianjia.com/ershoufang/pg{}/'.format(i)url_list.append(right_url)
t = True
num = 0
while t:try:HEADERS = {'Referer': 'https://bj.lianjia.com/?utm_source=baidu&utm_medium=pinzhuan&utm_term=biaoti&utm_content=biaotimiaoshu&utm_campaign=sousuo&ljref=pc_sem_baidu_ppzq_x','User-Agent': ua.random}print(url_list[num])html = requests.get(url_list[num], headers=HEADERS, proxies=proxies).content.decode()source = lxml.html.fromstring(html)title = source.xpath('//*[@id="content"]/div[1]/ul/li/div[1]/div[2]/div/a/text()')info = source.xpath('//*[@id="content"]/div[1]/ul/li/div[1]/div[2]/div/text()')price = source.xpath('//*[@id="content"]/div[1]/ul/li/div[1]/div[6]/div[1]/span/text()')per_price = source.xpath('/html/body/div[4]/div[1]/ul/li/div[1]/div[6]/div[2]/span/text()')dic = {}for i in range(len(title)):dic = {'location': title[i], 'info': info[i], 'price': price[i], 'per_price': per_price[i]}collection.insert_one(dic)print(dic)time.sleep(random.randint(3, 6))num += 1if num == 100:t = Falseexcept Exception as e:num += 1print(e)continueprint('信息采集完毕')
采集这些网站最后花点钱买一个ip代理,这样不容易中途被封ip 我用的是 阿布云 1块钱一个小时 很划算
下面是采集的结果 部分数据
如果你正好有买房的想法,可以再采集全部成交二手房那个的信息,然后进行数据对比 这样就能知道你想要买的房子 大概市面价是多少。
python 爬虫 链家网二手房信息采集代码相关推荐
- 【Python】链家网二手房购房决策树
整体流程: 1.数据抓取: 2.数据清洗: 3.建模及优化: 4.业务意义: 5.反思. 一.数据抓取 环境:python3.7 from parsel import Selector import ...
- python爬取链家新房_Python爬虫实战:爬取链家网二手房数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
- python爬取链家新房数据_Python爬虫实战:爬取链家网二手房数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 买房装修,是每个人都要经历的重要事情之一.相对于新房交易市场来说,如今的二手房交易市场一点也 ...
- 链家网二手房数据分析(承接上篇爬虫)
import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.sans-serif ...
- python二手房使用教程_python实战:基于链家网二手房数据解析任务
实战:基于链家网二手房数据解析任务 页面:https://bd.ke.com/ershoufang/ 获取如下信息: 标题 位置 房屋信息 关注人数 / 发布时间 房屋总价 房屋单价 备注信息 1.导 ...
- 爬取链家网二手房数据并保存到mongodb中
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 爬取链家网二手房数据并保存到mongodb中 文章目录 前言 一.爬虫的介绍 二.协程的介绍 三.css选择器 四.基于asyncio ...
- 数据分析:pandas分析链家网二手房信息
分析链家网南京市二手房信息 链家网二手房数据的采集方法参见之前的博客:数据采集(四):用XPath爬取链家网房价数据 总共有3000条二手房信息记录. import pandas as pd impo ...
- Python爬虫攻略(2)Selenium+多线程爬取链家网二手房信息
申明:本文对爬取的数据仅做学习使用,请勿使用爬取的数据做任何商业活动,侵删 前戏 安装Selenium: pip install selenium 如果下载速度较慢, 推荐使用国内源: pip ins ...
- php爬取房源,Python 爬虫 链家二手房(自行输入城市爬取)
因同事想在沈阳买房,对比分析沈阳各区的房价,让我帮忙爬取一下链家网相关数据,然后打 算记下笔记 用于总结学到的东西&用到的东西. 一.爬虫需要会什么? 学习东西 首先你要知道它是干嘛的.爬虫 ...
最新文章
- 快速学习ggplot2
- 机器学习中的异常检测手段
- Morris Traversal方法遍历二叉树(非递归,不用栈,O(1)空间)——无非是在传统遍历过程中修改叶子结点加入后继结点信息(传统是stack记录),然后再删除恢复...
- PDF:解决从PDF中复制文字时出现的空方框问题
- python柱状图分析代码
- solaris系统普通用户无法执行su命令
- VTK:标签放置映射器用法实战
- Hbase shell 常用命令
- jquery中的创建节点和添加节点的方法
- linux下/var/run目录下.pid文件的作用(文件锁,防止重复启动)
- 怎么查看数据库服务器型号,如何查看服务器数据库类型
- Android 启动过程介绍【转】
- SQL审核 | 如何使用 SQLE 进行开发阶段 SQL审核
- 盒马销量预测核心算法的技术演进
- 小程序纵向选项卡可以滑动_微信小程序实现选项卡滑动切换
- TSINSEE青犀视频/海康合作的RTMP推流安防摄像头的移动侦测功能介绍
- 商业模拟游戏:柠檬汁杰克项目
- 云计算时代的进阶者,专访景安董事长杨小龙
- 剑指offer-面试题23:链表中环的入口节点 快慢指针+双指针
- javaS的tring和androidS的tring区别是什么?
热门文章
- spring boot框架常用的一些玩意儿
- nyoj451 光棍节的快乐
- 常用知识图谱数据集FB15K, YAGO, WN18
- python打印a-z的字母
- 用正则表达式求非负整数 、匹配正整数、非正整数、负整数、整数、非负浮点数、正浮点数、非正浮点数、负浮点数、浮点数、有数字26个英文字母组成的字符串
- 大数据在金融领域的应用案例解析
- GCN-Global Convolutional Network
- 数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL
- 2021-2027全球与中国同种异体人类软骨细胞市场现状及未来发展趋势
- 分享一个神器!16倍速看视频,闪瞎了我的狗眼!