Python爬取武汉店铺出租转让信息

摘要:由于有亲戚想到武汉发展,开个店面做点小生意,实地考察的效率不算太高,于是乎就在网上收集相关的转让信息,做第一步筛选,希望能够起到一些作用~
技术组合:requests + BeautifulSoup + json

  1. 爬虫第一步是找网站,找规律
    这里我选择的 今天信息网

    分析其url不难发现其中包含了许多的信息,url:http://wh.jintianxinxi.com/zhuanrang/store_type-1-acreage-1~30-page-1/
    一共有390条信息,他们不可能把390条信息放在一张网页上,于是分成了15页
    其中的 page-1 为我们很好的指明了方向
    这样就可以很容易的通过循环完成对15个网页的信息爬取

  2. 解析数据用的是 BeautifulSoupselec() 函数
    其具体操作流程如下:
    选取需要的信息,审查元素,然后复制选择器

    第二步就是将该字符串作为 selec() 函数的传递参数了,具体可以参考
    https://blog.csdn.net/amao1998/article/details/82663978
    讲解的还是比较细致

  3. json 格式保存数据,先将数据以 字典 的格式进行存储,然后转化成 json 格式,以追加的形式打开文件,进行写入。

附上源码:

import requests
from bs4 import BeautifulSoup
import json#避免解析出来的信息为空,从而抛出错误
def transText(text):if text!=[]:text=text[0].getText()else:text = ''return text#以json格式保存数据
def save_info(info):with open("商铺信息.json",'a',encoding='utf-8') as f:f.write(json.dumps(info,ensure_ascii=False,indent=4))#发出请求,粗加工返回的内容
def get_url(url,headers):response = requests.get(url, headers=headers)#通过response.apparent_encoding分析页面可能的编码方式,然后编码response.encoding = response.apparent_encodinghtml = response.textreturn html#使用BeautifulSoup解析数据
def parse_soup(html):soup = BeautifulSoup(html, 'html.parser')shop_list = soup.select('body > div.body1000 > div.bodybgcolor > div > div.body1000 > div.infolists > div.section > ul > div ')for i in range(1,len(shop_list)):shop = shop_list[i]info = {}info["标题"] = transText(shop.select('div > div.media-body-title > a'))info["简介"] = transText(shop.select('div > div.typo-small'))info["地区"] = transText(shop.select('div > div.typo-smalls > font.xx1'))info["类型"] = transText(shop.select('div > div.typo-smalls > font.xx2'))info["面积"] = transText(shop.select('div > div.typo-smalls > font.xx3'))info["租金"] = transText(shop.select('div > div.typo-smalls > font.xx4'))info["位置"] = transText(shop.select('div > div.typo-smalls > font.xx6'))info["转让费"] = transText(shop.select('div > div.typo-smalls > font.xx7'))save_info(info)if __name__ == "__main__":headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}for j in range(1,16):print('***第{}页***'.format(j))url = "http://wh.jintianxinxi.com/zhuanrang/store_type-1-acreage-1~30-page-{}/".format(j)html = get_url(url,headers)parse_soup(html)print("OVER!")

最终效果图:



一共390条信息,一条信息占据9行,390*9=3510,至此,所有信息采集完成,完结撒花~

Python爬取武汉店铺出租转让信息相关推荐

  1. python爬取2019年计算机就业_2019年最新Python爬取腾讯招聘网信息代码解析

    原标题:2019年最新Python爬取腾讯招聘网信息代码解析 前言 初学Python的小伙们在入门的时候感觉这门语言有很大的难度,但是他的用处是非常广泛的,在这里将通过实例代码讲解如何通过Python ...

  2. python爬取58同城的兼职信息

    标题python爬取58同城的兼职信息 刚刚开始学习爬虫,一些 自己研究的小东西,爬取58同城上面的兼职信息放入Excel表格里,具体代码解释在代码里给出注释,下面给出完整代码: #首先是导包 imp ...

  3. python爬取携程旅游评价信息词云图分析

    python爬取携程旅游评价信息词云图分析 前言 前面咱们已经分析过如何爬取携程旅游的相关信息,如果没有看过的,可以先跳转看一下前面的那篇博客:python 爬虫 一键爬取携程旅游团数据 这一篇呢,咱 ...

  4. Python爬取酷狗音乐歌手信息

    前面我们说过用python爬取网易云音乐的歌手信息,Python爬取网易云音乐歌手信息 今天我们来爬取一下酷狗音乐的歌手信息(歌手id和歌手名),如果环境没有安装好,可以参照前面爬网易云环境配置作为参 ...

  5. python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!

    原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...

  6. python-如何爬取天猫店铺的商品信息

    ** python-如何爬取天猫店铺的商品信息 ** 1.本文使用的是python-scrapy 爬取天猫博库图书专营店的数据,登录天猫 获取登录之后的cookie 通过下面两幅图片elements与 ...

  7. 用python爬取豆瓣影评及影片信息(评论时间、用户ID、评论内容)

    爬虫入门:python爬取豆瓣影评及影片信息:影片评分.评论时间.用户ID.评论内容 思路分析 元素定位 完整代码 豆瓣网作为比较官方的电影评价网站,有很多对新上映影片的评价,不多说,直接进入正题. ...

  8. python爬取去哪儿网酒店信息

    python爬取去哪儿网酒店信息 利用selenium+python爬取去哪儿网酒店信息,获取酒店名称.酒店地址.第一条评论.评论数.最低价格等信息,写入excel表. 1.观察网页结构 浏览器地址栏 ...

  9. python爬取抖音用户数据_使用python爬取抖音视频列表信息

    如果看到特别感兴趣的抖音vlogger的视频,想全部dump下来,如何操作呢?下面介绍介绍如何使用python导出特定用户所有视频信息 抓包分析 Chrome Deveploer Tools Chro ...

最新文章

  1. All in one: pentest under metasploit
  2. Eclipse中JRE System Library、Web App Libraries的作用
  3. linux java echo 3,Linux常用命令13 - echo
  4. The Gradient Operator
  5. PAT 乙级 1045 快速排序
  6. iOS学习-UITextField设置placeholder的颜色
  7. c语言-树的基础知识
  8. 重读《从菜鸟到测试架构师》--构建测试
  9. 当当网图书爬虫与数据分析
  10. 别死写代码,这 25 条比涨工资都重要
  11. win2008服务器系统玩红警,win8系统玩不了红色警戒2如何解决?win8系统玩不了红色警戒2解决方法...
  12. mongo——limit的坑
  13. 针对使用ng-lint,eslint,tslint,生成报告以及环境安装的一系列问题及解决办法
  14. 计算机组成原理cu_计算机组成原理19----控制单元CU设计
  15. 云计算如何与企业管理协同作战
  16. AD转换为KiCAD的方法
  17. VW适配方案后造成伪类使用content报错的解决办法 already has a 'content' property, give up to overwrite it.
  18. 输入一个有大写和小写的字符串,把其中的大写转化为小写,小写转化为大写。
  19. OBJ网格模型文件(上) - 学习随笔
  20. 【技术沙龙总结】福州朴朴01期 - 演进史

热门文章

  1. 11个AI绘画软件大全,赶紧收藏
  2. pyaudio usb playback_苹果还会为 iPhone 换上 USB-C 吗?_详细解读_最新资讯_热点事件...
  3. 出现频率高的流程图模板分享
  4. TOOLFK工具-在线摩斯电码翻译转换工具
  5. Dofbot机械臂从零部署笔记(5补完)——新开发环境下复现前面的例子
  6. 【Java Socket】TCP协议的多人聊天室
  7. Java 多人聊天室(带界面)
  8. Apache2.4.37+mysql5.7+PHP7.31最新版LAMP架构+Discuz论坛
  9. elementUI的textarea设置大小
  10. 大厂offer手到擒来,深入剖析