大众点评的商家地址和详细分类,居然是用svg图形展示的文字,哇,真是用心良苦,为了反爬,可谓是脑洞大开啊,图形文字、滑块验证码、封ip,全都用上了,真是让人头疼。不过正所谓道高一尺,魔高一丈,没有达不到的目的,只有不努力的你。

今天接了一个小活,是爬取大众点评各个饭店的名字,地址,分类。我一看,list列表就把这些信息展现出来了,这活挺简单,于是就准备大爬一场。当我开始解析网页html的时候,傻了,这商家地址这咋都是乱码呢?页面上明明看得到啊?于是去页面上选择了一下,又复制了一下,粘贴到txt中一看,全是乱码......  这是弄啥嘞,什么操作? 于是开始面向百度编程,网上各路大神的帖子给了我思路,过程如下:

大众点评商家地址的html是张这样:

中间的“”这类的编码是他们自己建的文字库,这个是key,文字图形是value,通过F12找到了该标签的CSS部分

这是啥字体“PingFangSC-Regular-address”  于是找到了下载链接:

把woff文件下载下来,然后网上的帖子告诉去百度字体在线编辑,结果上传完woff后,报错...... 不愧是莆田系,然后又去找在线编辑器,终于找到一款非常给力的在线编辑器:http://font.qqe2.com/index.html

上传woff后上传是这样,可以看出,‘’中”字的  $E6D8和 “” 后4位是一样的,于是就可以得到key和value了。但这些文字都是图形,并不能复制,怎么办?

点击下载  里面会有一个html可以展现出所有文字图形和key码,可以修改一下html,先展示文字图形,然后截图,送到文字识别网站去识别,然后按顺序再把key复制下来,就完成了。

我试了好多文字识别网站,成功率最高的就是https://ocr.wdku.net/  把文字放大后截图,送到这里识别,准确率是100% 其他网站有丢字现象,它没有。

识别后,按顺序把key和value放到map中,解析HTML就可以知道那块的文字应该是什么了。

以下是结果  key码已用 “/” 替换,分号隔开,顺序与文字一致,split一下就可以用了(/78; 是一个空白字符,已用空格代替)。我只识别了地址的woff,别的同理。

1234567890店中美家馆小车大市公酒行国品发电金心业商司超生装园场食有新限天面工服海华水房饰城乐汽香部利子老艺花专东肉菜学福饭人百餐茶务通味所山区门药银农龙停尚安广鑫一容动南具源兴鲜记时机烤文康信果阳理锅宝达地儿衣特产西批坊州牛佳化五米修爱北养卖建材三会鸡室红站德王光名丽油院堂烧江社合星货型村自科快便日民营和活童明器烟育宾精屋经居庄石顺林尔县手厅销用好客火雅盛体旅之鞋辣作粉包楼校鱼平彩上吧保永万物教吃设医正造丰健点汤网庆技斯洗料配汇木缘加麻联卫川泰色世方寓风幼羊烫来高厂兰阿贝皮全女拉成云维贸道术运都口博河瑞宏京际路祥青镇厨培力惠连马鸿钢训影甲助窗布富牌头四多妆吉苑沙恒隆春干饼氏里二管诚制售嘉长轩杂副清计黄讯太鸭号街交与叉附近层旁对巷栋环省桥湖段乡厦府铺内侧元购前幢滨处向座下県凤港开关景泉塘放昌线湾政步宁解白田町溪十八古双胜本单同九迎第台玉锦底后七斜期武岭松角纪朝峰六振珠局岗洲横边济井办汉代临弄团外塔杨铁浦字年岛陵原梅进荣友虹央桂沿事津凯莲丁秀柳集紫旗张谷的是不了很还个也这我就在以可到错没去过感次要比觉看得说常真们但最喜哈么别位能较境非为欢然他挺着价那意种想出员两推做排实分间甜度起满给热完格荐暍等其再几只现朋候样直而买于般豆量选奶打每评少算又因情找些份置适什蛋师气你姐棒试总定啊足级整带虾如态且尝主话强当更板知己无酸让入啦式笑赞片酱差像提队走嫩才刚午接重串回晚微周值费性桌拍跟块调糕

/78;/e4a7;/e446;/f059;/f643;/e268;/e32b;/f0eb;/ebaf;/f7fe;/f82f;/e789;/e6d8;/ebae;/e13e;/ee11;/e568;/ef8e;/f562;/e4f0;/e7fa;/e7e7;/e6bd;/e325;/e627;/f4ef;/edda;/e65d;/ea41;/e7b4;/eb45;/e65a;/f6d0;/e19e;/e747;/e2a3;/e6cc;/eff9;/e7c7;/f52b;/e792;/e6b1;/e2c6;/f5f2;/e728;/f0fd;/f308;/e047;/eccd;/ec1a;/e406;/f1e1;/f20d;/f75f;/f11a;/e57a;/eae0;/ef91;/f269;/efb7;/e301;/ed38;/f01b;/e29b;/e883;/e75c;/f518;/ea46;/e5d3;/f171;/ee37;/efb9;/ec76;/ec92;/f734;/f147;/e5a6;/e01a;/f40d;/eaff;/e245;/e981;/e749;/f863;/f713;/e1b8;/f47e;/f563;/e637;/f7e1;/f54b;/f4da;/e7b8;/eca7;/eaee;/f2f2;/e272;/e091;/e50a;/e5c5;/eaa6;/e17c;/eb4c;/e715;/ee3f;/f554;/f09b;/f4de;/f41b;/e6aa;/f3a7;/e75d;/e7b3;/e45d;/e63a;/e8fb;/f0a0;/ef00;/ee7a;/f787;/e307;/e6c6;/f099;/eda2;/f8ad;/e2f1;/f7c6;/eee5;/eb1d;/f2f4;/f224;/e7ab;/e3b3;/f0bc;/edcc;/ee7c;/e202;/ec01;/e5c3;/f8c4;/f522;/e58b;/e014;/e0d2;/f3d3;/ec95;/ecb2;/f301;/f1a4;/e9f7;/f0c5;/f0d9;/e06d;/e080;/e952;/e3fb;/e5a3;/ea19;/f877;/f57b;/ed66;/e046;/e430;/ecfe;/f6bd;/f2ad;/e89c;/ecc8;/e531;/ef57;/e1da;/e365;/eb42;/e36b;/ee3a;/f0fe;/e564;/f183;/e8f5;/eea1;/ec0e;/f8fe;/f19a;/e18a;/e062;/f36a;/f08e;/efd9;/e70a;/e66f;/f646;/efab;/e63e;/f638;/f770;/ea2a;/f0f9;/ef76;/f168;/e39e;/f6f2;/e115;/ecae;/ed36;/eda4;/e9b4;/edee;/f5db;/e92a;/ef34;/e04d;/f38d;/e30f;/f796;/ed99;/e243;/e386;/e51e;/f650;/e9ab;/e040;/f837;/f539;/edc3;/f7ff;/f773;/f6aa;/e370;/e14a;/eec5;/eff6;/f46f;/f584;/e132;/e5e8;/edbb;/e8da;/ee96;/f208;/f116;/f568;/e40e;/e7c5;/e030;/e2aa;/f671;/e5fd;/e36f;/ea5d;/f07d;/e8dc;/e7bd;/e622;/f2f9;/e442;/e6f8;/f14a;/ec98;/f611;/e215;/f15e;/e350;/e225;/ebfd;/eabc;/f749;/edc7;/f7a8;/e200;/efa3;/f8dc;/f34a;/f4ee;/e0e3;/f3e5;/e9a5;/e918;/f106;/ec59;/f402;/e4e3;/efc5;/f5ff;/f621;/e7f5;/e7f8;/e733;/effa;/e21d;/f323;/f00a;/e969;/e592;/e9c8;/ec3e;/ea23;/f5c9;/e73f;/eca6;/e8ac;/e964;/ef37;/f32e;/f2e0;/e1a4;/e8cc;/ea82;/e725;/ee29;/f6c0;/f0e9;/f4b1;/ef6d;/e987;/e1d2;/f887;/e2d6;/e71a;/f3cf;/eaef;/e781;/e13b;/f72a;/ed74;/ef10;/f67d;/eea0;/e5ba;/e1ff;/f519;/e1be;/e3af;/f3e4;/e56d;/f113;/f67c;/e3c3;/f409;/e95d;/e881;/e20c;/f677;/f7c3;/f2cb;/ef39;/e0a5;/e9b6;/f751;/e250;/e9b8;/f718;/ee14;/e3df;/e063;/f156;/f7c2;/e2c0;/f3f1;/ec62;/f081;/e554;/ebe8;/e04b;/f7e6;/e8c1;/f267;/e951;/e2d8;/f492;/e5d0;/e10c;/f336;/ef64;/ea87;/e172;/f2e2;/e35a;/f345;/e51a;/e144;/f4e3;/f7f0;/e274;/f48e;/f2f1;/e1ed;/f43e;/ecf2;/f45a;/e790;/f764;/f2d4;/f2fd;/ef74;/e7a9;/f8e8;/f2cd;/e8aa;/f610;/f65a;/f219;/e118;/e730;/e3ed;/eb25;/e379;/f1f1;/f3da;/ee64;/ecd9;/ef82;/ed17;/ea7b;/f6d9;/f590;/e42b;/f51d;/ed6c;/e7dd;/e62f;/e8e4;/f48b;/e1a0;/ee8d;/e3ec;/e8d6;/f8b1;/e232;/f1c5;/e22a;/f385;/e05e;/e262;/e1f5;/f661;/f642;/e659;/eaf5;/f64c;/eb87;/e12d;/f17e;/e3ff;/f8b2;/ebdd;/e602;/e5e4;/f374;/f128;/e071;/e191;/e785;/e3c8;/ef41;/f79c;/f351;/eb82;/f01e;/ebbe;/f657;/e293;/f160;/f420;/e193;/eaa4;/ed78;/f85a;/eaa8;/e7d8;/ed2a;/e70f;/ebd3;/f76b;/e37d;/e702;/f0a2;/e3dc;/f70c;/e45e;/f1c9;/f061;/f166;/e73e;/e3d3;/f0e5;/ebde;/eb79;/e387;/ef70;/eab8;/e3a5;/e1f3;/f788;/edc0;/f534;/f321;/e280;/e7a6;/e81a;/ef1b;/f80a;/ee21;/e6fe;/e710;/f439;/e28e;/f5b7;/f119;/f430;/f412;/e5fa;/f127;/f21c;/ecf3;/ed7f;/f27c;/f375;/ed5e;/f366;/e0c6;/e333;/e207;/e601;/e12e;/f182;/f264;/f4fc;/f697;/e16b;/ea06;/f896;/f25b;/ee84;/f7f1;/f4f4;/ecc5;/f874;/f060;/e72a;/e2d9;/f12e;/edde;/f032;/f210;/e819;/f696;/ee2b;/ebc7;/e80d;/eb88;/e9bf;/f679;/f238;/e3fd;/ebe5;/e69c;/e8bd;/e165;/e68c;/ecca;/f725;/ea63;/f274;/f8c5;/ec5d;/f441;/e6ff;/e52d;/e313;/ea03;/f31a;/e1b7;/e287;/e94e;/ed85;/eec4;/e80b;/e08e;/e69b;/e161;/f8ec;/eedb;/ec00;/edf9;/e5e9;/e38d;/e186;/f3e2;/e0a4;/f741;/f280;/e413;/eba4;/e2ca;/f18b;/e162;/e738;/f6d5;/e79c;/e5dd;/f7e2;/ef5f;

后记: 爬大众点评如果你是ipv4,可能尝试多次后就被封了,但如果你是ipv6的地址,不但不被封,还可以极速爬取,无需sleep休息,也无需惧怕滑块。如何获得ipv6的地址? 把手机热点打开,用流量爬就行。

(以上结论是因为宽带访问不行了,转为手机热点后,忘了设置sleep,然后发现全程不封的,究竟是什么原因是不知道的,这么做就是好使,如同中医一样,就是好使,但原理未知。)

爬取大众点评页面数据教程,图片文字如何爬取相关推荐

  1. python爬取大众点评数据_python爬虫实例详细介绍之爬取大众点评的数据

    python 爬虫实例详细介绍之爬取大众点评的数据 一. Python作为一种语法简洁.面向对象的解释性语言,其便捷性.容易上手性受到众多程序员的青睐,基于python的包也越来越多,使得python ...

  2. 爬取大众点评数据的血泪史

    公司最近致力于实现餐饮行业的AI发展模式,领导希望采集一些餐饮数据来提供理论支持.所以没多少头发的我 ,被喊过来做数据收集. 想到餐饮数据的收集,第一反应是去爬取美团/大众点评的数据,对比了下美大众点 ...

  3. Python,requests爬虫,使用代理爬取大众点评(含爬取结果。。。在文末)

    由于在工作中,客户需要大众点评的行业数据,因此本人使用Python对大众点评网站进行了爬取,虽然在爬取之前就想好了可能会遇到的坑,但是没想要从坑中爬出来这么难.本次大众点评爬虫代码编写耗时一个月.也算 ...

  4. 反反爬虫之--爬取大众点评--店铺名称、详址、经纬度、评价人数、平均消费等信息

    every blog every motto: Let's be loyal to our ideals, let's face reality-Chegwara 前言: 知难不难! 折腾了几天爬取大 ...

  5. python爬虫爬取大众点评店铺简介信息

    python爬虫爬取大众点评店铺简介信息 写作目的: 爬取目标 大众点评的保护机制 应对方法 还存在的问题 写作目的: 今天帮朋友一个忙,要爬取一些大众点评上的数据.结果发现大众点评的防爬机制还挺多的 ...

  6. 【小o地图Excel插件版】不止能做图表,还能抓58、大众点评网页数据...

    小o地图Excel插件版:一款基于Excel软件开发的地图软件,提供基于Excel表格进行地理数据挖掘.地理数据分析.地图绘制.地图图表等功能的工具类软件.具有易用.高效.稳定的特点,能够满足地理数据 ...

  7. 为了部落 来自艾泽拉斯勇士的python爬虫学习心得 爬取大众点评上的各种美食数据并进行数据分析

    为了希尔瓦娜斯 第一个爬虫程序 csgo枪械数据 先上代码 基本思想 问题1 问题2 爬取大众点评 URL分析 第一个难题 生成csv文件以及pandas库 matplotlib.pyplot库 K- ...

  8. 爬取大众点评黄焖鸡米饭的数据

    学习python已经一段时间,就想着利用他爬取大众点评上的一些数据,用于分析. 这里,我选择爬取国内各个地区和省份关于黄焖鸡米饭的店面数据 具体的格式:店面 id,省份,城市,开店时间,店名 首先声明 ...

  9. python爬取大众点评某城市美食类数据

    前言 我一个朋友是做市场调查的,前段时间他想分析一下某个城市的餐饮或美食市场状况,找到我让我帮他采集一些相关数据.经过讨论我们觉得大众点评的数据挺适合的,大众点评是一款非常受大众喜爱的一个第三方的美食 ...

最新文章

  1. WPC大会新动态:合作伙伴采纳Windows Azure
  2. 地区省份城市sql信息
  3. 拼接名字_一个最简单的办法,教你识别原切肉和拼接肉
  4. HarmonyOS之将SVG文件转换为XML文件
  5. 【渝粤教育】电大中专建筑力学 (4)作业 题库
  6. PAT乙级(1024 科学计数法)
  7. 【报告分享】B站商业化探索频频,品牌方如何布局“小破站”营销.pdf
  8. 工具类TestTools
  9. [原创]利用WM_COPYDATA实现进程间通信
  10. 2.4 HDFS组成架构
  11. Velocity笔记(上)
  12. python中注释的定义_Python注释及变量
  13. C++程序设计一、二(二元一次方程与函数、函数指针)
  14. three.js 05-04 之 BoxGeometry 几何体
  15. mysql analyze_技术分享 | MySQL EXPLAIN ANALYZE
  16. 【转载】详解Android中接口回调、方法回调
  17. python mac可以运行win不能运行_Pymssql程序可以在mac上运行,但不能在windows上运行...
  18. Socket的超时时间
  19. python 运算太慢怎么办_干货|如何入门 Python 爬虫?爬虫原理及过程详解
  20. 搭建react项目并配置路由

热门文章

  1. 量化交易 米筐 案例:市值因子选股策略
  2. 行业洞察 | 小米发布人形机器人的AI技术
  3. Linux性能排查——CPU软中断问题
  4. ubuntu:软件包
  5. Towards Constructing Sports News from Live Text Commentary读书笔记
  6. 根据两个坐标系对应点计算转换关系(旋转和平移)
  7. Maven聚合项目搭建集成knife4j
  8. 下载的mp3音频怎么转换wav格式
  9. HDFS:分布式文件系统(1)
  10. 横向联邦学习下隐私保护安全聚合:问题,方法,与展望