主要是针对自如房价的爬取 。以下代码对房价图片进行处理,将里面的数字提取出来,然后用knn最近邻算法去对图片上的数据进行分类。


import sys
import cv2
import numpy as np#######   training part    ###############
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))model = cv2.ml.KNearest_create()
model.train(samples,cv2.ml.ROW_SAMPLE,responses)def getNum(path):im = cv2.imread(path)out = np.zeros(im.shape,np.uint8)gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)#预处理一下for i in range(gray.__len__()):for j in range(gray[0].__len__()):if gray[i][j] == 0:gray[i][j] == 255else:gray[i][j] == 0thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)image,contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)count = 0 numbers = []for cnt in contours:if cv2.contourArea(cnt)>80:[x,y,w,h] = cv2.boundingRect(cnt)if  h>25:cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)roi = thresh[y:y+h,x:x+w]roismall = cv2.resize(roi,(30,30))roismall = roismall.reshape((1,900))roismall = np.float32(roismall)retval, results, neigh_resp, dists = model.findNearest(roismall, k = 1)string = str(int((results[0][0])))numbers.append(int((results[0][0])))cv2.putText(out,string,(x,y+h),0,1,(0,255,0))count += 1if count == 10:breakreturn numbers# numbers = getNum('1.png')

图片训练集的下载位置为:

generalresponses.data

generalsamples.data

python爬取自如房间信息(二)相关推荐

  1. python爬取自如房间信息(一)

    使用python和selenium+Chrome Headless爬取自如房间信息,并将结果存储在MongoDB中.其中最麻烦的应该是每间房的价格,因为自如是用一张图片和offset来显示价格,所以不 ...

  2. Python爬取自如租房信息(价格)笔记——笨办法

    爬取自如租房信息 最近正在学习python爬虫,顺便又要租房子,于是就想爬去自如上的租房信息顺便来联系一下. ·掉进价格的大坑里 在爬取过程中一切都听顺利的,可是到了最关键的房租部分就遇到了问题.居然 ...

  3. 用python爬取网站_「自如网」关于用python爬取自如网信息的价格问题(已解决) - seo实验室...

    自如网 ###这是一篇求助文,我能获取图片并变成字符串,但是无法获取位移量### 前两坛突发奇想想要爬取自如网的租房数据,本来以为能够请求+美丽+ re能全部搞定,没想到这个网站的反爬机制有点让我搞不 ...

  4. 关于用python爬取自如网信息的价格问题(已解决)

    ###这是一篇求助文,我能获取图片并变成字符串,但是无法获取位移量### 前两坛突发奇想想要爬取自如网的租房数据,本来以为能够请求+美丽+ re能全部搞定,没想到这个网站的反爬机制有点让我搞不定先贴个 ...

  5. python爬取12306列车信息自动抢票并自动识别验证码(二)selenium登录验证篇

    项目前言 自学python差不多有一年半载了,这两天利用在甲方公司搬砖空闲之余写了个小项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时 ...

  6. php爬取房源,用python爬取二手房交易信息并进行分析

    用python爬取二手房交易信息并分析第一步:编写爬虫 爬取某平台上海市十个区共900条二手房的交易信息#爬取上海十个区的二手房价信息 import requests from bs4 import ...

  7. 2021最新 python爬取12306列车信息自动抢票并自动识别验证码(三)购票篇

    项目前言 tiebanggg又来更新了,项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时间进行删除:切忌用于一切非法途径,否则后果自行 ...

  8. python爬取12306列车信息自动抢票并自动识别验证码(一)列车数据获取篇

    项目前言 自学python差不多有一年半载了,这两天利用在甲方公司搬砖空闲之余写了个小项目--[12306-tiebanggg-master].注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一 ...

  9. python爬取微博用户信息(六)—— 完整代码

    本节为爬取微博用户信息的完整代码,以及项目结构. 感兴趣的小伙伴可以收藏哦! 另外,关于本代码的效果展示,以及教程,点击以下链接即可. python爬取微博用户信息(一)-- 效果展示 python爬 ...

最新文章

  1. java 变量 动态类型_Java:如何将变量从一种类型动态转换为另一种类型?
  2. HTML中嵌套的子frame如何访问父页面中的函数?
  3. mysql当前时间减一分钟_MySQL数据库事务的机制【总结】
  4. ASP错误捕获的几种常规处理方式
  5. CSP2019洛谷P5665:划分(单调队列,高精度)
  6. MTK 驱动---(11) EMI定制
  7. Abbreviated biography of Jon Claerbout
  8. 带有页脚聚合的WPF数据网格
  9. Java与Web前端发展前景及薪资对比
  10. mysql数据库备份和还原的命令_Mysql数据库备份和还原常用的命令
  11. wxPython多个窗口的基本结构
  12. axure通用元件库 Pc、Web端原型图组件库高保真UI rp源文件
  13. lol大脚一直卡在读取服务器信息,英雄联盟大脚 - 英雄联盟 - LOL英雄联盟官网 - 英雄联盟攻略 - 英雄联盟专题站...
  14. mysql的全量备份和增量备份
  15. 【悟空云课堂】第四十三期:空指针解引用CWE-476: NULL Pointer Dereference
  16. java method方法_Java Method getDeclaringClass()方法
  17. C语言分支/顺序作业总结
  18. iGrimaceV8 V8在线威锋源apt.so/tuzhurenv8手机直接下载安装教程图:
  19. (附源码)pringboot餐饮点餐系统 毕业设计301749
  20. iOS应用中增加emoji表情输入功能

热门文章

  1. 互联网日报 | 瑞幸咖啡股票6月29日停牌;B站举办十一周年演讲;Airbnb辟谣破产传闻...
  2. 什么是跨域及怎么解决跨域问题?
  3. iOS Safari调试webview时 页面空白或者闪退解决
  4. Docker部署rabbitmq遇到的两个问题
  5. 前端console.log打印内容与后端请求返回数据不一致
  6. 空间数据计算引擎GeoSpark调研
  7. 内网渗透- *** PTH(传递哈希)***PTT(传递票据)***PTK(传递密钥)
  8. Anaconda安装完python文件.py不显示黄蓝图标
  9. leet 75. 颜色分类
  10. 详细SpringBoot教程之入门(一)