一个简单的安居客房屋信息爬虫
自学python爬虫,独立编写一段爬取房屋信息的爬虫。
思路:利用Lxml库和Xpath语法,把爬取的信息储存在EXCEL表格中。
import xlwt
from lxml import etree
import requests
import timeall_info_list = []headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}def get_info(url):res = requests.get(url,headers = headers)selector = etree.HTML(res.text)infos = selector.xpath('//*[@id="houselist-mod-new"]/li')for info in infos:title = info.xpath('div[2]/div[1]/a/text()')[0].strip()yangshi = info.xpath('div[2]/div[2]/span[1]/text()')[0]mianji = info.xpath('div[2]/div[2]/span[2]/text()')[0]niandai = info.xpath('div[2]/div[2]/span[4]/text()')dizhi = info.xpath('div[2]/div[3]/span/text()')[0].strip()danjia = info.xpath('div[3]/span[2]/text()')zongjia1 = info.xpath('div[3]/span[1]/strong/text()')zongjia2 = info.xpath('div[3]/span[1]/text()')zongjia = zongjia1 + zongjia2info_list = [title, yangshi, mianji, niandai, dizhi, danjia, zongjia]all_info_list.append(info_list)time.sleep(1)if __name__ == '__main__':urls = ['https://suzhou.anjuke.com/sale/wuzhong-q-szyuexi/p{}'.format(str(i)) for i in range(1, 15)]for url in urls:get_info(url)header = ['序号','标题','样式','面积','年代','地址','单价(元/平方)','总价(万元)']book = xlwt.Workbook(encoding='utf-8')sheet = book.add_sheet('Sheet1')for h in range(len(header)):sheet.write(0, h, header[h])i = 1 #行k = 1 #序号for list in all_info_list: #行数据j = 1 #列sheet.write(i,0,k)k += 1for data in list: #列数据sheet.write(i, j, data)j += 1i += 1book.save('anjuke.xls')
一个简单的安居客房屋信息爬虫相关推荐
- 菜鸟爬虫——获取安居客二手房信息
以安居客二手房为例 前言 了解爬虫 爬虫目录结构 爬虫主体代码 items.py 反反爬虫策略 运行爬虫 前言 因为需要一些二手房数据,菜鸟开启了爬虫之路!不过需要注意的是,在爬取数据时,要遵守< ...
- 爬虫项目--爬取安居客二手房信息
爬虫实战(爬取安居客二手房信息-成都天府新区) 环境:python3.6 pycharm bs4库 解析方式:bs4 需求:爬取二手房信息字段(titile,house_type,build_time ...
- python爬虫爬取安居客房源信息
爬取安居客房源信息 Xpath插件的安装 爬取重庆花溪附近的房源信息(进入正题啦~) 梳理下逻辑 爬取数据的通用流程 代码 代码的问题 & 运行时可能出现的问题 结果 数据处理部分(写给我自己 ...
- Python爬取安居客新房信息
由于是刚开始学习Python爬虫,做个简单的爬虫,提供一个学习思路. 由于水平有限,正则表达式写的实在是抠脚,就直接上BeautifulSoup了. BeautifulSoup的学习参考http:// ...
- php实现一个简单的访客统计功能
文章来源:https://www.zixuephp.net/article-113.html 对我帮助非常大,谢谢 一.文件方式简单统计 用php实现一个简单的访客统计功能,统计网站的总访问量是多少, ...
- 爬取安居客租房信息,主要是获取电话号码
爬取安居客租房信息,主要是获取电话号码 想要得到个人房源的电话只能在app上获取,而且获取的是虚拟号码,没什么作用.所以我们这次获取的是经纪人房源的电话号码,随便打开一个网页,可以看到. 他的电话号码 ...
- php和python写爬虫-一个简单的Python写的XML爬虫
一个简单的Python写的XML爬虫 来源:程序员人生 发布时间:2013-11-06 16:22:29 阅读次数:1578次 原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...
- Python爬取安居客经纪人信息
Python爬取安居客经纪人信息 Python2.7.15 今天我们来爬取安居客经纪人的信息.这次我们不再使用正则,我们使用beautifulsoup.不了解的可以先看一下这个文档,便于理解.http ...
- bs4+phantomjs爬取安居客二手房信息
bs4+phantomjs爬取安居客二手房信息 这是我的第一篇博客,希望通过养成写博客的习惯来督促自己学习. 开发环境以及需要安装的模块 - Python3.6 - requests pip inst ...
最新文章
- HDU-1698-Just a Hook
- 算法理解|从头开始理解梯度提升算法
- 【电信增值业务学习笔记】8 3G视频类增值业务
- OpenStack基金会携手Intel、Hyper发布开源Kata Containers项目
- 图解Android 内存分析工具之Mat使用教程
- 6本书,读懂2022年最火的边缘计算
- 具体解说Android的图片下载框架UniversialImageLoader之磁盘缓存(一)
- 关于 C# 请求 https 那点事
- DOT HERE AGAIN
- coolfire文章之六
- android tracelog分析,使用 Traceview 检查跟踪日志
- 线下综合体-中岛店的一些思考
- 陈强教授《机器学习及R应用》课程 第十五章作业
- 智能优化与机器学习结合算法实现时序数据预测matlab代码清单
- 面向对象之关键字 this
- java模拟一个军队作战,()系统在作战过程中帮助指挥和参谋人员实施各项作战业务,辅助指挥人员对部队和武器实施指挥控制...
- 手机访问电脑本地项目
- Python Flask 构建微电影视频网站
- Prezi安装中文字体找不到“com.prezi.PreziDesktop”文件夹的解决办法
- 创建软链接(symbolic link)