学 Python 爬虫,你可以研究下 GoPUP, 一个用于学术研究的小爬虫库
今天是持续写作的第 22 / 100 天。
如果你有想要交流的想法、技术,欢迎在评论区留言。
熟练的使用 Python 第三方库,00 后程序员必备神器。
每天对着电脑 10 多个小时,畅游在互联网的海洋了,吸收着无穷的知识,除了学习以外,最喜欢的还是找大佬做好的轮子。
本篇博客要迎来的是一个新轮子,而且还是一个爬虫小数据轮。
轮子简介
项目的名称:GoPUP
项目的官网:http://doc.gopup.cn/#/?id=gopup-cookbook
项目的 github:https://github.com/justinzm/gopup
项目的目的:GoPUP 项目所采集的数据皆来自公开的数据源,不涉及任何个人隐私数据和非公开数据。 同时本项目提供的数据接口及相关数据仅用于学术研究,任何个人、机构及团体使用本项目的数据接口及相关数据请注意商业风险。
轮子的一些说明
部分接口可以直接使用,例如 独角兽公司数据
。
import gopup as gp
df_index = gp.nicorn_company()
print(df_index)
疫情数据接口调用如下。
import gopup as gp
df_index = gp.weibo_index(word="疫情", time_type="3month")
print(df_index)
部分接口是 VIP 接口,需要找开发者索取一下 token
,开发者微博 https://weibo.com/whzhengming。是否会付费橡皮擦没去了解,这里只是给该库做一个推荐。
测试过程中,也发现部分接口存在 BUG,例如下述获取 头条相关性分析
的接口,大概率是被爬取网站返回内容的问题。
import gopup as gp
index_df = gp.toutiao_relation(keyword="口罩", start_date='20201016', end_date='20201022')
print(index_df)
已经开发完毕的接口如下:
数据仓库指数数据微博指数数据百度数据百度搜索数据百度资讯指数百度媒体指数百度需求图谱百度人群画像年龄分布百度人群画像性别分布百度人群画像兴趣分布头条数据头条指数数据头条相关性分析头条情感分析头条地域分析头条城市分析头条年龄分析头条性别分析头条用户阅读兴趣分类谷歌数据谷歌指数数据谷歌事实查证宏观数据中国宏观数据中国宏观杠杆率数据货币汇率数据利率数据Shibor数据报价数据Shibor均值数据LPR数据新经济公司千里马公司独角兽公司倒闭公司商业特许经营公司KOL数据微博数据微博账户数据微博运营数据信息数据新闻联播文字稿生活数据中国油价数据汽柴油历史调价信息调价日的地区油价历史数据百度迁徙数据迁入与迁出地详情迁徙规模诗词数据唐代诗人唐诗数据影视数据实时电影票房数据单日电影票房数据单日影院票房数据实时电视剧播映指数实时综艺播映指数艺人商业价值艺人流量价值全国高校全国普通高等学校名单全国成人高等学校名单全国高等学校详情数据疫情数据网易疫情数据丁香园疫情数据百度疫情数据疫情历史数据迁徙数据-百度
轮子前景
用轮子可以提高编码速度,拆轮子可以学习编码技术,这就是轮子的好处。不过该库存在的一个问题是侵权的问题,如果被抓取的网站追责,可能这个库咱就用不了了。
该库对于学习者来说,还是有价值的,看的代码越多,你的代码水平会越高。
橡皮擦叨叨
本项目倒是给橡皮擦一些启发,原来写爬虫可以做一些数据接口的整合,妙啊,github 不就之后启动一个项目,然后找些群里的朋友一起维护,又能学习,又能赚钱。
如果你想跟博主建立亲密关系,可以关注同名公众号 梦想橡皮擦,近距离接触一个逗趣的互联网高级网虫。
博主 ID:梦想橡皮擦,希望大家点赞、评论、收藏。
学 Python 爬虫,你可以研究下 GoPUP, 一个用于学术研究的小爬虫库相关推荐
- chatgpt赋能python:Python是一门强大的编程语言,它在数据分析和数据处理方面广受欢迎。在网站开发中,Python也被广泛应用。它可以用于开发Web应用、爬虫、自动化测试等。此外,Pyt
Python是一门强大的编程语言,它在数据分析和数据处理方面广受欢迎.在网站开发中,Python也被广泛应用.它可以用于开发Web应用.爬虫.自动化测试等.此外,Python也可以用于创建表格.在本文 ...
- python线下培训-天津python培训,0基础学python线上还是线下好?
0基础开始选择学习python的时候就注定要纠结于学习方式是线上学习好呢还是线下学习好呢?其实两者都各有各的优势,线上课程便宜,时间自由灵活,不过需要我们强大的自学能力以及自控能力:线下的话学习氛围. ...
- Python日记——柿子要捡软的捏,记第一只小爬虫
2017.12.19 阅读了<零基础入门学习Python>一书第14章"论一只爬虫的自我修养"之后总想跃跃欲试实现一只自己的小爬虫,但可惜的是,或许因为这本书的读者太多 ...
- python从地址提取省市区实例_一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块...
简介 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块. 举个例子: ["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘 ...
- 实现一个自动搜狗搜索的小爬虫----user-agent反爬
今天迎来了第一个反爬 今天实现了提供一个关键词键入,然后使用爬虫对这个关键词进行搜狗搜索,将搜索后的结果保存到文件中 这里用到了一个小反爬,User-Agent反爬 要让get请求携带headers, ...
- python 苹果手机自动重启_Linux下编写一个Python自动重启脚本
团队中有一大部分的监控任务都是自己来做的,这其中包括了很多脚本,主要是Python脚本.但是有时由于不可预料的原因,Python会异常终止,因此编写一个自动检测Python脚本是否异常终止的脚本,当异 ...
- 与小卡特一起学python 豆瓣_父与子的编程之旅:与小卡特一起学Python
第1章 出发吧 1.1 安装Python 1.2 从IDLE启动Python 1.3 来点指令吧 1.4 与Python交互 1.5 该编程了 1.6 运行你的第一个程序 1.7 如果出问题 1.8 ...
- python提取cad坐标_教你一个CAD坐标提取的小技巧
原标题:教你一个CAD坐标提取的小技巧 经常用CASS计算土石方的小伙伴,经常会遇到一个很大的拦路虎:拿到一张甲方提供的dwg图纸,要求用CASS进行土石方计算.顿时感觉无从下手了. 遇到这样的问题, ...
- 学python之前需要学什么,学好python需要什么基础
学习python的话大概要学习哪些内容? 想要学习Python,需要掌握的内容还是比较多的,对于自学的同学来说会有一些难度,不推荐自学能力差的人. 我们将学习的过程划分为4个阶段,每个阶段学习对应的内 ...
最新文章
- Vue自定义指令实现下拉加载:v-loadmore
- 误差模型:过拟合,交叉验证,偏差-方差权衡
- php 初始二维数组长度,php二维数组排序与默认自然排序的方法介绍
- springboot创建parent_理解spring-boot-starter-parent
- js检测弹出窗口拦截程序
- 并查集模板——并查集(洛谷 P3367)
- nginx trac mysql svn_nginx+php+mysql+svn+http
- 还在使用集合类完成这些功能?不妨来看看 Guava 集合类!!!
- 初识Git 如何使用Git将本地项目上传到Github
- makefile编写---.c .cpp 混合编译makefile 模板
- 超能竞速大开眼界,iQOO 5系列正式发布
- 线上事故复盘报告模板
- 基于《女士品茶》分享统计学中假设检验的那些知识和应用
- 华为魔术2手机拆机图解_荣耀Magic2做工如何?荣耀Magic2拆解图解评测 (全文)
- 湖北省2023年中级工程师职称评定条件及材料要求,伴德诚
- SQL中附加的基本运算
- libnetwork
- (C++)1~10000质数表
- 物联网调查报告:机遇与挑战
- Ubuntu18.04安装nvidia-docker(亲测有效,步骤详尽)