需要2019年新浪微博某景区签到的信息,包括:经纬度坐标+时间+文字内容
可能直接抓取网页抓不到,要通过微博API好像
时间当然越快越好

示例网页:
网址1:
https://m.weibo.cn/p/index?containerid=2306570042B209465CD66DA4F4499D&luicode=10000011&lfid=2306570042B209465CD66DA4F4499D
网址2:
https://weibo.com/p/100101B209465CD66DA4F4499D

(网址2只有23页,如果网址1爬不到就只能用网址2)

攻略推荐:
攻略1:
https://blog.csdn.net/xiangyong58/article/details/51506958
攻略2:
https://blog.csdn.net/freeking101/article/details/81450624?from=singlemessage&isappinstalled=0
攻略3:
https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboLocationCrawler


分割线********
微博签到页爬虫
项目链接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboLocationCrawler

1 实现功能
这个项目是用来爬取微博签到页的微博数据(每三个小时爬一次),并写进 sqlite 数据库。

关于微博签到页打个比方,就是类似这个https://weibo.com/p/100101B2094757D069A7FE449F

顺便一说,这个页面是不用微博登录就可以访问的。所以方便很多啊(不用模拟登录)。

2 依赖环境
使用的是Python 3.7(在云上用过3.5也完全ok)。

需要额外的第三方库有yagmail(用来发送邮件),pandas,bs4。均可使用pip来安装。

pip install yagmail pandas bs4
3 使用方法
step1. 修改pid.csv中的地点名词与对应的id。

step2. 修改start.py中的邮箱账号密码。

step3. Run start.py。

4 文件说明
包含四个文件。

pid.csv
是放置地点的名称和微博页面对应的位置 id。比如说上面的珞珈山,就是网页 URL 最后的那一串数字100101B2094757D069A7FE449F。

buildip.py
是在网上看到别人写的……具体忘了哪的,如果本尊看到!sorry!请联系我注明!

我稍微修改了下。这个文件是一个实现爬取代理网站上的代理 IP 来构建代理池的模块。

crawler.py
爬虫本体。

start.py
控制爬取多个地点的一个启动文件。

5 爬取示例
如果开始成功运行之后,控制台输出大概是这样的。先获取代理 ip(这可能需要 10 分钟左右?)。

1545037686110

然后获取完代理就一个一个地点开始爬,像这样。

1545037751972

这个页数是由那个签到点的微博数定的,如果很冷门,可能就十几页甚至几页。当然,最多新浪只会让我们爬 150 页,所以不是这个签到点的所有数据都能爬到。

得到的weibo.sqlite结构是包含三个表,weibo表(用来存储微博具体的信息)、pic表(用来存储微博图片的 url,因为一条微博可能有多张图)和picweibo表(建立 pic 的 id 和 weibo 的 id 的联系的表)。

【悬赏】微博签到坐标经纬度爬取相关推荐

  1. python微博爬虫分析_python爬取和分析新浪微博(一):scrapy构建新浪微博榜单、博主及微博信息爬虫...

    1. 爬虫项目介绍 爬虫首先基于python scrapy 框架,使用了随机用户代理和IP代理等反爬技巧,将爬取到的微博领域数据,各领域榜单博主信息和博主的微博信息分别存入的mysql数据库对应的表格 ...

  2. python微博涨粉_爬取微博用户公开信息,分析为周杰伦打榜的夕阳红老年团,告诉你他们真实年龄!...

    前段时间为"周杰伦打榜"话题迅速登上微博热搜榜 因为cxk的粉丝们质疑周杰伦微博没有数据 (周杰伦没有开通微博) 于是,无数隐匿江湖多年 看不下去的周杰伦老年粉开始被迫营业 于是一 ...

  3. 微博关键词搜索并爬取前40页内容与图片

    微博关键词搜索并爬取前40页内容与图片 # -*- coding: utf-8 -*- """ @author: tanderick """ ...

  4. 微博json文件_python 爬取微博评论 !

    嘤嘤嘤,写的时候刚好在放这首歌就顺手点上去了. 内容仅供学习参考!!! 一 . 介绍 微博: (1)网页端:http://http://weibo.com (2)手机端:http://http://m ...

  5. python 登陆微博 被删除 token_爬取微博信息,使用了cookie仍然无法登录微博

    按照网上的模板自己写了类似的代码爬取微博,可是response回来的html是登录界面的html,应该是没有成功登陆微博,但是和网上的代码是基本一样的 from bs4 import Beautifu ...

  6. python爬取微博恶评_Python爬取新浪微博评论数据,了解一下?

    开发工具 **Python版本:**3.6.4 相关模块: argparse模块: requests模块: jieba模块: wordcloud模块: 以及一些Python自带的模块. 环境搭建 安装 ...

  7. python爬虫微博图片,pyhton爬虫爬取微博某个用户所有微博配图

    前几天写了个java爬虫爬花瓣网,但是事后总感觉不够舒服,终于在今天下午写了个python爬虫(爬微博图片滴),写完之后就感觉舒服了,果然爬虫就应该用python来写,哈哈(这里开个玩笑,非引战言论) ...

  8. python根据关键字爬取微博_Python 超简单爬取微博热搜榜数据

    微博的热搜榜对于研究大众的流量有非常大的价值.今天的教程就来说说如何爬取微博的热搜榜.热搜榜的链接是: https://s.weibo.com/top/summary/ 用浏览器浏览,发现在不登录的情 ...

  9. python爬取微博图片教程_Python爬取微博实例分析

    引言 利用Ajax分析微博并爬取其内容如微博内容,点赞数,转发数,评论数等. 分析 打开陈一发微博网站:https://m.weibo.cn/p/1005051054009064,并同时打开开发者工具 ...

最新文章

  1. undefined reference to 'pthread_create'问题解决(转)
  2. python3.6.2安装教程-CentOS 6.5中安装Python 3.6.2的方法步骤
  3. 第二天,终于搞定 —— 2014.10.28
  4. python表示当前目录_从Python脚本获取当前目录的父项
  5. 信息学奥赛一本通(1054:三角形判断)
  6. C#操作类----XmlHelper
  7. (转)超全面设计指南:如何做大屏数据可视化设计?
  8. python和区块链哪个好_10个最流行的Python区块链开源项目
  9. 牛逼!这么问 OutOfMemoryError 能让我懵逼!
  10. 工具栏快速创建类_还费时费力找菜单栏中的工具?教你制作属于自己的快速访问工具栏...
  11. 什么是特洛伊木马病毒?
  12. 机器学习(8): 逻辑回归算法 小结及实验
  13. 全局偏移表(GOT)和过程链接表(PLT)
  14. 服务端性能测试入门指南
  15. java中valueof_JAVA中intValue()和ValueOf()什么意思,还有Value什么意思
  16. 计算机函数countifs使用,countifs函数(countifs使用方法举例)
  17. matlab mtf,MtF - MATLAB Central
  18. IBM再次出手,蓝色巨人收购蓝色巨狼
  19. 程序员月入好几万?10年老程序员告诉你真实的情况!!
  20. 渝粤题库 陕西师范大学 《危机管理》作业

热门文章

  1. 郑州旅游职业学院计算机宿舍,郑州旅游职业学院宿舍条件,宿舍几人间环境好不好(图片)...
  2. 五种最短路径算法的总结(待更新)
  3. css更改鼠标箭头样式
  4. 开烧 Dvorak(德沃夏克)键盘
  5. 煤烟灰里提纯出来的中国半导体产业
  6. 还经营着一家汽车销售公司
  7. 彻底搞定vertical-align垂直居中不起作用疑难杂症[转]
  8. 1553B总线系统如何搭建?
  9. Ubuntu 硬盘扩容
  10. 6.副词性从句的起源与本质