python爬取自如房间信息(二)
主要是针对自如房价的爬取 。以下代码对房价图片进行处理,将里面的数字提取出来,然后用knn最近邻算法去对图片上的数据进行分类。
import sys
import cv2
import numpy as np####### training part ###############
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))model = cv2.ml.KNearest_create()
model.train(samples,cv2.ml.ROW_SAMPLE,responses)def getNum(path):im = cv2.imread(path)out = np.zeros(im.shape,np.uint8)gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)#预处理一下for i in range(gray.__len__()):for j in range(gray[0].__len__()):if gray[i][j] == 0:gray[i][j] == 255else:gray[i][j] == 0thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)image,contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)count = 0 numbers = []for cnt in contours:if cv2.contourArea(cnt)>80:[x,y,w,h] = cv2.boundingRect(cnt)if h>25:cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)roi = thresh[y:y+h,x:x+w]roismall = cv2.resize(roi,(30,30))roismall = roismall.reshape((1,900))roismall = np.float32(roismall)retval, results, neigh_resp, dists = model.findNearest(roismall, k = 1)string = str(int((results[0][0])))numbers.append(int((results[0][0])))cv2.putText(out,string,(x,y+h),0,1,(0,255,0))count += 1if count == 10:breakreturn numbers# numbers = getNum('1.png')
图片训练集的下载位置为:
generalresponses.data
generalsamples.data
python爬取自如房间信息(二)相关推荐
- python爬取自如房间信息(一)
使用python和selenium+Chrome Headless爬取自如房间信息,并将结果存储在MongoDB中.其中最麻烦的应该是每间房的价格,因为自如是用一张图片和offset来显示价格,所以不 ...
- Python爬取自如租房信息(价格)笔记——笨办法
爬取自如租房信息 最近正在学习python爬虫,顺便又要租房子,于是就想爬去自如上的租房信息顺便来联系一下. ·掉进价格的大坑里 在爬取过程中一切都听顺利的,可是到了最关键的房租部分就遇到了问题.居然 ...
- 用python爬取网站_「自如网」关于用python爬取自如网信息的价格问题(已解决) - seo实验室...
自如网 ###这是一篇求助文,我能获取图片并变成字符串,但是无法获取位移量### 前两坛突发奇想想要爬取自如网的租房数据,本来以为能够请求+美丽+ re能全部搞定,没想到这个网站的反爬机制有点让我搞不 ...
- 关于用python爬取自如网信息的价格问题(已解决)
###这是一篇求助文,我能获取图片并变成字符串,但是无法获取位移量### 前两坛突发奇想想要爬取自如网的租房数据,本来以为能够请求+美丽+ re能全部搞定,没想到这个网站的反爬机制有点让我搞不定先贴个 ...
- python爬取12306列车信息自动抢票并自动识别验证码(二)selenium登录验证篇
项目前言 自学python差不多有一年半载了,这两天利用在甲方公司搬砖空闲之余写了个小项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时 ...
- php爬取房源,用python爬取二手房交易信息并进行分析
用python爬取二手房交易信息并分析第一步:编写爬虫 爬取某平台上海市十个区共900条二手房的交易信息#爬取上海十个区的二手房价信息 import requests from bs4 import ...
- 2021最新 python爬取12306列车信息自动抢票并自动识别验证码(三)购票篇
项目前言 tiebanggg又来更新了,项目--[12306-tiebanggg-master]注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一时间进行删除:切忌用于一切非法途径,否则后果自行 ...
- python爬取12306列车信息自动抢票并自动识别验证码(一)列车数据获取篇
项目前言 自学python差不多有一年半载了,这两天利用在甲方公司搬砖空闲之余写了个小项目--[12306-tiebanggg-master].注:本项目仅供学习研究,如若侵犯到贵公司权益请联系我第一 ...
- python爬取微博用户信息(六)—— 完整代码
本节为爬取微博用户信息的完整代码,以及项目结构. 感兴趣的小伙伴可以收藏哦! 另外,关于本代码的效果展示,以及教程,点击以下链接即可. python爬取微博用户信息(一)-- 效果展示 python爬 ...
最新文章
- java 变量 动态类型_Java:如何将变量从一种类型动态转换为另一种类型?
- HTML中嵌套的子frame如何访问父页面中的函数?
- mysql当前时间减一分钟_MySQL数据库事务的机制【总结】
- ASP错误捕获的几种常规处理方式
- CSP2019洛谷P5665:划分(单调队列,高精度)
- MTK 驱动---(11) EMI定制
- Abbreviated biography of Jon Claerbout
- 带有页脚聚合的WPF数据网格
- Java与Web前端发展前景及薪资对比
- mysql数据库备份和还原的命令_Mysql数据库备份和还原常用的命令
- wxPython多个窗口的基本结构
- axure通用元件库 Pc、Web端原型图组件库高保真UI rp源文件
- lol大脚一直卡在读取服务器信息,英雄联盟大脚 - 英雄联盟 - LOL英雄联盟官网 - 英雄联盟攻略 - 英雄联盟专题站...
- mysql的全量备份和增量备份
- 【悟空云课堂】第四十三期:空指针解引用CWE-476: NULL Pointer Dereference
- java method方法_Java Method getDeclaringClass()方法
- C语言分支/顺序作业总结
- iGrimaceV8 V8在线威锋源apt.so/tuzhurenv8手机直接下载安装教程图:
- (附源码)pringboot餐饮点餐系统 毕业设计301749
- iOS应用中增加emoji表情输入功能
热门文章
- 互联网日报 | 瑞幸咖啡股票6月29日停牌;B站举办十一周年演讲;Airbnb辟谣破产传闻...
- 什么是跨域及怎么解决跨域问题?
- iOS Safari调试webview时 页面空白或者闪退解决
- Docker部署rabbitmq遇到的两个问题
- 前端console.log打印内容与后端请求返回数据不一致
- 空间数据计算引擎GeoSpark调研
- 内网渗透- *** PTH(传递哈希)***PTT(传递票据)***PTK(传递密钥)
- Anaconda安装完python文件.py不显示黄蓝图标
- leet 75. 颜色分类
- 详细SpringBoot教程之入门(一)