新浪微博定位页面代码解析
一个页面包含10条定位微博,可以利用feed_page=number进行翻页爬取。
<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\" action-type=\"feed_list_item\">\r\n\t\t\t\t<div class=\"WB_feed_datail S_line2 clearfix\">\r\n\t\t\t<div class=\"WB_face\">代码后开始定位微博信息,前面是周边热门图片信息。
共XXXX条周边微博
以下分别定位字段为,mid,content,locate,geo,date
<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\"
<\/div>\r\n\t\t\t\t<div class=\"WB_text\" node-type=\"feed_list_content\>+微博内容(例如:这里很堵啊。。。。)
<div class=\"map_data\"><span class=\"W_ico16 icon_locate\"><\/span>+位置信息(例如:浙江省,杭州市,上城区,环城东路 )
- <a href=\"javascript:void(0);\" action-type=\"feed_list_geo_info\" action-data=\"geo=120.183074,30.243961&head=http:\/\/tp3.sinaimg.cn\/2843497510\/50\/40021333668\/1&title=尤文-觉罗-不满族-浙江省,杭州市,上城区,环城东路\">
<a target=\"_blank\" href=\"\/2843497510\/ztXIX8GxG\" title=\"2013-04-26 19:03\" date=\"1366974184000\"
一条微博结束的标志
<\/div>\r\n\t\t\t<\/div>\r\n\t\t<\/div>\r\n\t<\/div>\r\n\t\t \r\n
利用相应标志通过正则式提取需要的字段存进数据库,其中mid用于判重。
数据库表的设计
date类型表示YYYY-MM-DD
datetime类型表示YYYY-MM-DD HH:MM:SS
+-----------+----------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-----------+----------+------+-----+---------+-------+
| mid | char(16) | YES | | NULL | |
| content | blob | YES | | NULL | |
| locate | char(20) | YES | | NULL | |
| longitude | char(10) | YES | | NULL | |
| latitude | char(10) | YES | | NULL | |
| date | datetime | YES | | NULL | |
+-----------+----------+------+-----+---------+-------+
在实践过程过程中发现存入blob的时候中文出现乱码问题,所以改成用text了
+-----------+----------+------+-----+---------+-------+
| Field | Type | Null | Key | Default | Extra |
+-----------+----------+------+-----+---------+-------+
| mid | char(16) | YES | UNI | NULL | |
| content | text | YES | | NULL | |
| locate | char(20) | YES | | NULL | |
| longitude | char(10) | YES | | NULL | |
| latitude | char(10) | YES | | NULL | |
| date | datetime | YES | | NULL | |
+-----------+----------+------+-----+---------+-------+
6 rows in set (0.01 sec)
新浪微博定位页面代码解析相关推荐
- 如何在IE浏览器里面定位到关键字的位置(页面代码)和这个关键字位置模块的请求
1 问题 比如用IE浏览器,打开一个页面,如何定位到关键字的具体位置,以及这个位置请求是什么?可能这个请求不是主页面的请求,因为我们知道页面html里面可以嵌套很多Frame(框架),把页面分割成很多 ...
- php中高光显示的高数,[技术博客]React Native——HTML页面代码高亮数学公式解析...
问题起源 原有博文显示时代码无法高亮,白底黑字的视觉效果不好. 原有博文中无法解析数学公式,导致页面会直接显示数学公式源码. 为了解决这两个问题,尝试了一些方法,最终利用开源类库实现了页面美化. (失 ...
- vue重构html css,使用vue重构资讯页面的实例代码解析
从我接手到将这个页面代码重构前,一直都还是使用angular1的代码去做的,需求来了也是用angular去实现:作为一个憧憬新技术的前端,怎么忍受得了现在还在使用这么有历史感的框架,所以,以前就一直在 ...
- selenium第三课(selenium八种定位页面元素方法)
selenium webdriver进行元素定位时,通过seleniumAPI官方介绍,获取页面元素的方式一共有以下八种方式,现按照常用→不常用的顺序分别介绍一下. 官方api地址:https://s ...
- 视觉SLAM开源算法ORB-SLAM3 原理与代码解析
来源:深蓝学院,文稿整理者:何常鑫,审核&修改:刘国庆 本文总结于上交感知与导航研究所科研助理--刘国庆关于[视觉SLAM开源算法ORB-SLAM3 原理与代码解析]的公开课. ORB-SLA ...
- Python selenium根据class定位页面元素,xpath定位
Python selenium根据class定位页面元素 在日常的网页源码中,我们基于元素的id去定位是最万无一失的,id在单个页面中是不会重复的.但是实际工作中,很多前端开发人员并未给每个元素都编写 ...
- vue锚点定位(代码通用) - 总结篇
vue锚点定位(应用场景) 当前页面锚点 跨页面锚点 hash模式下的锚点 history模式下的锚点 应用前提:(重要的事情,说3+1遍) 任意场景.任意代码.任意框架 都能对接! 都能采用! 都能 ...
- Selenium学习 - 库代码解析
Selenium学习 - 库代码解析 一.selenium/common exceptions.py 定义了一个继承自Exception类的WebDriverException基础异常类,然后通过它扩 ...
- 视频直播美颜SDK算法代码解析
随着短视频.直播软件一类app的流行,美颜sdk的应用也越来越广泛.所谓"美颜",简单解释下,就是通过视频(图片)技术对人脸进行美化.但是就"美化"这个词,却牵 ...
最新文章
- 【教程】简易CDQ分治教程学习笔记
- 伍迷创意随想集 之 网游与旅游结合新玩法
- linux 内存强度测试软件,linux下的CPU、内存、IO、网络的压力测试工具与方法介绍...
- getsockname与getpeername
- 火狐对ajax的onreadystatechange与IE的不同。
- KubeSphere配置应用路由
- Graphics.TranslateTransform设置旋转角度不起作用?
- 五大地形等高线特征_【新微专题】从等高线地形图的实际应用分析如何培养图表判读能力?...
- 走进小作坊(十五)----疯狂的站长
- 【Maven】阿里云镜像仓库
- linux下sctp的安装、使用与编程
- 竞品分析:网易云音乐和QQ音乐,音乐类app的战场
- C++用I love you!打印心形
- app,h5落地页实现跳转快应用,可用于抖音,快手,头条投放链接
- 计算机毕业设计springboot交通事故档案管理平台ryug8源码+系统+程序+lw文档+部署
- 用Linux做wifi热点/无线路由
- 算法设计与分析: 2-7 士兵站队问题
- 管程模型解决并发编程
- 游戏反外挂技术原理讲解
- 异或(XOR)运算加密/解密算法