新浪微博定位页面代码解析

一个页面包含10条定位微博，可以利用feed_page=number进行翻页爬取。

<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\" action-type=\"feed_list_item\">\r\n\t\t\t\t<div class=\"WB_feed_datail S_line2 clearfix\">\r\n\t\t\t<div class=\"WB_face\">代码后开始定位微博信息，前面是周边热门图片信息。

共XXXX条周边微博

以下分别定位字段为，mid，content，locate，geo，date

<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\"

<\/div>\r\n\t\t\t\t<div class=\"WB_text\" node-type=\"feed_list_content\>+微博内容（例如：这里很堵啊。。。。）

<div class=\"map_data\"><span class=\"W_ico16 icon_locate\"><\/span>+位置信息（例如：浙江省,杭州市,上城区,环城东路）

- <a href=\"javascript:void(0);\" action-type=\"feed_list_geo_info\" action-data=\"geo=120.183074,30.243961&head=http:\/\/tp3.sinaimg.cn\/2843497510\/50\/40021333668\/1&title=尤文-觉罗-不满族-浙江省,杭州市,上城区,环城东路\">

<a target=\"_blank\" href=\"\/2843497510\/ztXIX8GxG\" title=\"2013-04-26 19:03\" date=\"1366974184000\"

一条微博结束的标志

<\/div>\r\n\t\t\t<\/div>\r\n\t\t<\/div>\r\n\t<\/div>\r\n\t\t \r\n

利用相应标志通过正则式提取需要的字段存进数据库，其中mid用于判重。

数据库表的设计

date类型表示YYYY-MM-DD

datetime类型表示YYYY-MM-DD HH:MM:SS

在实践过程过程中发现存入blob的时候中文出现乱码问题，所以改成用text了

新浪微博定位页面代码解析相关推荐

如何在IE浏览器里面定位到关键字的位置（页面代码）和这个关键字位置模块的请求
1 问题比如用IE浏览器,打开一个页面,如何定位到关键字的具体位置,以及这个位置请求是什么?可能这个请求不是主页面的请求,因为我们知道页面html里面可以嵌套很多Frame(框架),把页面分割成很多 ...
php中高光显示的高数,[技术博客]React Native——HTML页面代码高亮数学公式解析...
问题起源原有博文显示时代码无法高亮,白底黑字的视觉效果不好. 原有博文中无法解析数学公式,导致页面会直接显示数学公式源码. 为了解决这两个问题,尝试了一些方法,最终利用开源类库实现了页面美化. (失 ...
vue重构html css,使用vue重构资讯页面的实例代码解析
从我接手到将这个页面代码重构前,一直都还是使用angular1的代码去做的,需求来了也是用angular去实现:作为一个憧憬新技术的前端,怎么忍受得了现在还在使用这么有历史感的框架,所以,以前就一直在 ...
selenium第三课（selenium八种定位页面元素方法）
selenium webdriver进行元素定位时,通过seleniumAPI官方介绍,获取页面元素的方式一共有以下八种方式,现按照常用→不常用的顺序分别介绍一下. 官方api地址:https://s ...
视觉SLAM开源算法ORB-SLAM3 原理与代码解析
来源:深蓝学院,文稿整理者:何常鑫,审核&修改:刘国庆本文总结于上交感知与导航研究所科研助理--刘国庆关于[视觉SLAM开源算法ORB-SLAM3 原理与代码解析]的公开课. ORB-SLA ...
Python selenium根据class定位页面元素，xpath定位
Python selenium根据class定位页面元素在日常的网页源码中,我们基于元素的id去定位是最万无一失的,id在单个页面中是不会重复的.但是实际工作中,很多前端开发人员并未给每个元素都编写 ...
vue锚点定位（代码通用） - 总结篇
vue锚点定位(应用场景) 当前页面锚点跨页面锚点 hash模式下的锚点 history模式下的锚点应用前提:(重要的事情,说3+1遍) 任意场景.任意代码.任意框架都能对接! 都能采用! 都能 ...
Selenium学习 - 库代码解析
Selenium学习 - 库代码解析一.selenium/common exceptions.py 定义了一个继承自Exception类的WebDriverException基础异常类,然后通过它扩 ...
视频直播美颜SDK算法代码解析
随着短视频.直播软件一类app的流行,美颜sdk的应用也越来越广泛.所谓"美颜",简单解释下,就是通过视频(图片)技术对人脸进行美化.但是就"美化"这个词,却牵 ...

新浪微博定位页面代码解析

新浪微博定位页面代码解析相关推荐

最新文章

热门文章