一个页面包含10条定位微博,可以利用feed_page=number进行翻页爬取。

<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\"  action-type=\"feed_list_item\">\r\n\t\t\t\t<div class=\"WB_feed_datail S_line2 clearfix\">\r\n\t\t\t<div class=\"WB_face\">代码后开始定位微博信息,前面是周边热门图片信息。

共XXXX条周边微博

以下分别定位字段为,mid,content,locate,geo,date

<div class=\"WB_feed_type SW_fun S_line2 \" mid=\"3571410952070160\"

<\/div>\r\n\t\t\t\t<div class=\"WB_text\" node-type=\"feed_list_content\>+微博内容(例如:这里很堵啊。。。。)

<div class=\"map_data\"><span class=\"W_ico16 icon_locate\"><\/span>+位置信息(例如:浙江省,杭州市,上城区,环城东路 )

- <a href=\"javascript:void(0);\" action-type=\"feed_list_geo_info\" action-data=\"geo=120.183074,30.243961&head=http:\/\/tp3.sinaimg.cn\/2843497510\/50\/40021333668\/1&title=尤文-觉罗-不满族-浙江省,杭州市,上城区,环城东路\">

<a target=\"_blank\" href=\"\/2843497510\/ztXIX8GxG\" title=\"2013-04-26 19:03\" date=\"1366974184000\"

一条微博结束的标志

<\/div>\r\n\t\t\t<\/div>\r\n\t\t<\/div>\r\n\t<\/div>\r\n\t\t \r\n

利用相应标志通过正则式提取需要的字段存进数据库,其中mid用于判重。

数据库表的设计

date类型表示YYYY-MM-DD

datetime类型表示YYYY-MM-DD HH:MM:SS

+-----------+----------+------+-----+---------+-------+
| Field     | Type     | Null | Key | Default | Extra |
+-----------+----------+------+-----+---------+-------+
| mid       | char(16) | YES  |     | NULL    |       |
| content   | blob     | YES  |     | NULL    |       |
| locate    | char(20) | YES  |     | NULL    |       |
| longitude | char(10) | YES  |     | NULL    |       |
| latitude  | char(10) | YES  |     | NULL    |       |
| date      | datetime | YES  |     | NULL    |       |
+-----------+----------+------+-----+---------+-------+

在实践过程过程中发现存入blob的时候中文出现乱码问题,所以改成用text了

+-----------+----------+------+-----+---------+-------+
| Field     | Type     | Null | Key | Default | Extra |
+-----------+----------+------+-----+---------+-------+
| mid       | char(16) | YES  | UNI | NULL    |       |
| content   | text     | YES  |     | NULL    |       |
| locate    | char(20) | YES  |     | NULL    |       |
| longitude | char(10) | YES  |     | NULL    |       |
| latitude  | char(10) | YES  |     | NULL    |       |
| date      | datetime | YES  |     | NULL    |       |
+-----------+----------+------+-----+---------+-------+
6 rows in set (0.01 sec)

新浪微博定位页面代码解析相关推荐

  1. 如何在IE浏览器里面定位到关键字的位置(页面代码)和这个关键字位置模块的请求

    1 问题 比如用IE浏览器,打开一个页面,如何定位到关键字的具体位置,以及这个位置请求是什么?可能这个请求不是主页面的请求,因为我们知道页面html里面可以嵌套很多Frame(框架),把页面分割成很多 ...

  2. php中高光显示的高数,[技术博客]React Native——HTML页面代码高亮数学公式解析...

    问题起源 原有博文显示时代码无法高亮,白底黑字的视觉效果不好. 原有博文中无法解析数学公式,导致页面会直接显示数学公式源码. 为了解决这两个问题,尝试了一些方法,最终利用开源类库实现了页面美化. (失 ...

  3. vue重构html css,使用vue重构资讯页面的实例代码解析

    从我接手到将这个页面代码重构前,一直都还是使用angular1的代码去做的,需求来了也是用angular去实现:作为一个憧憬新技术的前端,怎么忍受得了现在还在使用这么有历史感的框架,所以,以前就一直在 ...

  4. selenium第三课(selenium八种定位页面元素方法)

    selenium webdriver进行元素定位时,通过seleniumAPI官方介绍,获取页面元素的方式一共有以下八种方式,现按照常用→不常用的顺序分别介绍一下. 官方api地址:https://s ...

  5. 视觉SLAM开源算法ORB-SLAM3 原理与代码解析

    来源:深蓝学院,文稿整理者:何常鑫,审核&修改:刘国庆 本文总结于上交感知与导航研究所科研助理--刘国庆关于[视觉SLAM开源算法ORB-SLAM3 原理与代码解析]的公开课. ORB-SLA ...

  6. Python selenium根据class定位页面元素,xpath定位

    Python selenium根据class定位页面元素 在日常的网页源码中,我们基于元素的id去定位是最万无一失的,id在单个页面中是不会重复的.但是实际工作中,很多前端开发人员并未给每个元素都编写 ...

  7. vue锚点定位(代码通用) - 总结篇

    vue锚点定位(应用场景) 当前页面锚点 跨页面锚点 hash模式下的锚点 history模式下的锚点 应用前提:(重要的事情,说3+1遍) 任意场景.任意代码.任意框架 都能对接! 都能采用! 都能 ...

  8. Selenium学习 - 库代码解析

    Selenium学习 - 库代码解析 一.selenium/common exceptions.py 定义了一个继承自Exception类的WebDriverException基础异常类,然后通过它扩 ...

  9. 视频直播美颜SDK算法代码解析

    随着短视频.直播软件一类app的流行,美颜sdk的应用也越来越广泛.所谓"美颜",简单解释下,就是通过视频(图片)技术对人脸进行美化.但是就"美化"这个词,却牵 ...

最新文章

  1. 【教程】简易CDQ分治教程学习笔记
  2. 伍迷创意随想集 之 网游与旅游结合新玩法
  3. linux 内存强度测试软件,linux下的CPU、内存、IO、网络的压力测试工具与方法介绍...
  4. getsockname与getpeername
  5. 火狐对ajax的onreadystatechange与IE的不同。
  6. KubeSphere配置应用路由
  7. Graphics.TranslateTransform设置旋转角度不起作用?
  8. 五大地形等高线特征_【新微专题】从等高线地形图的实际应用分析如何培养图表判读能力?...
  9. 走进小作坊(十五)----疯狂的站长
  10. 【Maven】阿里云镜像仓库
  11. linux下sctp的安装、使用与编程
  12. 竞品分析:网易云音乐和QQ音乐,音乐类app的战场
  13. C++用I love you!打印心形
  14. app,h5落地页实现跳转快应用,可用于抖音,快手,头条投放链接
  15. 计算机毕业设计springboot交通事故档案管理平台ryug8源码+系统+程序+lw文档+部署
  16. 用Linux做wifi热点/无线路由
  17. 算法设计与分析: 2-7 士兵站队问题
  18. 管程模型解决并发编程
  19. 游戏反外挂技术原理讲解
  20. 异或(XOR)运算加密/解密算法

热门文章

  1. leetcode周赛,希望咸鱼,有一天可以薅到羊毛
  2. vulnhub-nark靶机渗透
  3. (67)TCL脚本命令【incr(一个参数)】
  4. html平板电脑打不开,苹果平板电脑浏览器打不开网页
  5. 模电(二)半导体二极管
  6. 串口发送数据,只接收到00的原因之一
  7. 通信类会议期刊排名(转)
  8. 支付宝扫码到银行卡的收款码(隐藏卡号)静态+动态 制作教程分享
  9. SparkStreaming读取Kafka数据源并写入Mysql数据库
  10. 1036. 跟奥巴马一起编程(15)