自学python爬虫,独立编写一段爬取房屋信息的爬虫。

思路:利用Lxml库和Xpath语法,把爬取的信息储存在EXCEL表格中。

import xlwt
from lxml import etree
import requests
import timeall_info_list = []headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'
}def get_info(url):res = requests.get(url,headers = headers)selector = etree.HTML(res.text)infos = selector.xpath('//*[@id="houselist-mod-new"]/li')for info in infos:title = info.xpath('div[2]/div[1]/a/text()')[0].strip()yangshi = info.xpath('div[2]/div[2]/span[1]/text()')[0]mianji = info.xpath('div[2]/div[2]/span[2]/text()')[0]niandai = info.xpath('div[2]/div[2]/span[4]/text()')dizhi = info.xpath('div[2]/div[3]/span/text()')[0].strip()danjia = info.xpath('div[3]/span[2]/text()')zongjia1 = info.xpath('div[3]/span[1]/strong/text()')zongjia2 = info.xpath('div[3]/span[1]/text()')zongjia = zongjia1 + zongjia2info_list = [title, yangshi, mianji, niandai, dizhi, danjia, zongjia]all_info_list.append(info_list)time.sleep(1)if __name__ == '__main__':urls = ['https://suzhou.anjuke.com/sale/wuzhong-q-szyuexi/p{}'.format(str(i)) for i in range(1, 15)]for url in urls:get_info(url)header = ['序号','标题','样式','面积','年代','地址','单价(元/平方)','总价(万元)']book = xlwt.Workbook(encoding='utf-8')sheet = book.add_sheet('Sheet1')for h in range(len(header)):sheet.write(0, h, header[h])i = 1  #行k = 1  #序号for list in all_info_list:  #行数据j = 1  #列sheet.write(i,0,k)k += 1for data in list:   #列数据sheet.write(i, j, data)j += 1i += 1book.save('anjuke.xls')

一个简单的安居客房屋信息爬虫相关推荐

  1. 菜鸟爬虫——获取安居客二手房信息

    以安居客二手房为例 前言 了解爬虫 爬虫目录结构 爬虫主体代码 items.py 反反爬虫策略 运行爬虫 前言 因为需要一些二手房数据,菜鸟开启了爬虫之路!不过需要注意的是,在爬取数据时,要遵守< ...

  2. 爬虫项目--爬取安居客二手房信息

    爬虫实战(爬取安居客二手房信息-成都天府新区) 环境:python3.6 pycharm bs4库 解析方式:bs4 需求:爬取二手房信息字段(titile,house_type,build_time ...

  3. python爬虫爬取安居客房源信息

    爬取安居客房源信息 Xpath插件的安装 爬取重庆花溪附近的房源信息(进入正题啦~) 梳理下逻辑 爬取数据的通用流程 代码 代码的问题 & 运行时可能出现的问题 结果 数据处理部分(写给我自己 ...

  4. Python爬取安居客新房信息

    由于是刚开始学习Python爬虫,做个简单的爬虫,提供一个学习思路. 由于水平有限,正则表达式写的实在是抠脚,就直接上BeautifulSoup了. BeautifulSoup的学习参考http:// ...

  5. php实现一个简单的访客统计功能

    文章来源:https://www.zixuephp.net/article-113.html 对我帮助非常大,谢谢 一.文件方式简单统计 用php实现一个简单的访客统计功能,统计网站的总访问量是多少, ...

  6. 爬取安居客租房信息,主要是获取电话号码

    爬取安居客租房信息,主要是获取电话号码 想要得到个人房源的电话只能在app上获取,而且获取的是虚拟号码,没什么作用.所以我们这次获取的是经纪人房源的电话号码,随便打开一个网页,可以看到. 他的电话号码 ...

  7. php和python写爬虫-一个简单的Python写的XML爬虫

    一个简单的Python写的XML爬虫 来源:程序员人生 发布时间:2013-11-06 16:22:29 阅读次数:1578次 原理很简单,读XML结构,返回值,判断,根据返回的值得到下一个XML的地 ...

  8. Python爬取安居客经纪人信息

    Python爬取安居客经纪人信息 Python2.7.15 今天我们来爬取安居客经纪人的信息.这次我们不再使用正则,我们使用beautifulsoup.不了解的可以先看一下这个文档,便于理解.http ...

  9. bs4+phantomjs爬取安居客二手房信息

    bs4+phantomjs爬取安居客二手房信息 这是我的第一篇博客,希望通过养成写博客的习惯来督促自己学习. 开发环境以及需要安装的模块 - Python3.6 - requests pip inst ...

最新文章

  1. HDU-1698-Just a Hook
  2. 算法理解|从头开始理解梯度提升算法
  3. 【电信增值业务学习笔记】8 3G视频类增值业务
  4. OpenStack基金会携手Intel、Hyper发布开源Kata Containers项目
  5. 图解Android 内存分析工具之Mat使用教程
  6. 6本书,读懂2022年最火的边缘计算
  7. 具体解说Android的图片下载框架UniversialImageLoader之磁盘缓存(一)
  8. 关于 C# 请求 https 那点事
  9. DOT HERE AGAIN
  10. coolfire文章之六
  11. android tracelog分析,使用 Traceview 检查跟踪日志
  12. 线下综合体-中岛店的一些思考
  13. 陈强教授《机器学习及R应用》课程 第十五章作业
  14. 智能优化与机器学习结合算法实现时序数据预测matlab代码清单
  15. 面向对象之关键字 this
  16. java模拟一个军队作战,()系统在作战过程中帮助指挥和参谋人员实施各项作战业务,辅助指挥人员对部队和武器实施指挥控制...
  17. 手机访问电脑本地项目
  18. Python Flask 构建微电影视频网站
  19. Prezi安装中文字体找不到“com.prezi.PreziDesktop”文件夹的解决办法
  20. 创建软链接(symbolic link)

热门文章

  1. SpringFramework、SpringBoot、SpringCloud的区别
  2. [转]关于日语学习方法之我见
  3. 2to3:python2自动转python3
  4. mysql4.0做主从时主库的备份脚本
  5. Springboot web项目简单统计在线人数
  6. 普华永道高级JAVA面试记录
  7. 985 高校副教授一年能够拿到多少工资?
  8. NYOJ1237 第八届acm省赛 B最大岛屿
  9. 网络爬虫-爬取有效机构查询网(CNAS)全量数据
  10. dlib人脸对齐(python)