作为一个实证研究小青年??,有段时间因为研究的需要,要做定向爬虫。这是自己学习Python最初的缘由。那个时候爬虫的材料还不是太多,自己在网上找了一些文章和电子书来学习。边学边试,不久就完工了。

完工之后还不时关注爬虫的技术教程,后来发现网上有大批小伙伴开始学习爬虫,很多是非专业小伙伴(本职工作不是爬虫 ),一时间感觉爬虫好火。

个人认为(不一定对),爬虫火是源于用户需求(研究的需要;好玩;尝鲜……)和培训者推动。作为实证研究者,确实需要一些爬虫技术来帮助自己完成数据收集,这个时候选一个比较好的工具很有必要。如果阅读了比较陈旧的网络经验贴或者听了第三方培训,而选择了不太合适的工具,会影响占用过多的研究时间,影响研究进展。

场景:做实证研究,需要取数,可以爬虫(定向爬虫)实现。那么,如何选工具呢?

Python:最简单的组合requests+bs4

当时自己花了大量时间去研究urllib和requests异同,bs4和lxml的异同……嘿呀,左手来个urllib,右手来个requests……浪费时间?

期间还去学Scrapy,不过用得不太习惯,后面就没有仔细学习了。

此外还去折腾无头浏览器。嗨,对只是拿数据做研究发文章的小青年,其实没有必要去研究无头浏览器。

术业有专攻,过于复杂的爬虫还是交给专业小伙伴来做,自己抓紧进行研究设计和构思。

复杂到什么程度呢,下面举些例子:如果高频率发起请求,只是换换ip代码就还可以凑合用,那么还可以自己干

如果只是post几个数据,构建一些url,那么还可以自己干

如果只是构造Request Headers就可以蒙混过关抓数据,那么还可以自己干

如果……

如果已经需要应对复杂验证码,这个时候可以不自己整了

如果自己东拉西扯写了好几天,代码还没实现,这个时候可以不自己整了

可以跳过的工具R

R社区的小伙伴很热情,编了一些包,也可以爬虫。有些初学的小伙伴很激动,R可以爬虫啦。其实,爬虫不是R语言的强项。如果不是尝鲜,没有必要花时间去学习用R来实现爬虫。有多的时间可以深入学习数据分析手艺和撰写报告的手艺。Stata

Stata乃是实证小青年常用之利器,做起应用微观计量十分便捷,若是分析结果一路星星,那是何等的酣畅淋漓?

现在有小伙伴用Stata做爬虫,还做文本分析。其实只是做简单爬虫,稍微复杂点的网页或者是有点基本的反爬虫机制,Stata就难以应付了。所以,爬虫就不要去麻烦实证分析好伙伴Stata,交给其他更好的工具吧。curl

有微信文章推介用curl来爬虫。curl的官方介绍是“command line tool and library for transferring data with URLs”。只简单用过curl,个人认为在爬虫场景中它没有requests+bs4组合好用。……

其他工具

此外,还尝鲜过Julia(<1.0)和Node.js中的requests工具,但是感觉都不爽。这和个人的手艺不熟练?、工具生态不成熟有关。不过,Node.js写爬虫还是很好玩。

Go语言爬虫工具也有一些,可以后面去试试。

除了自己写代码,网上还有一些数据采集工具也可以尝试一下。

以上是对“拿数据,做实证,发文章”小伙伴的爬虫工具选择的看法,一家之言,仅供参考?

python会计实证研究_实证研究者的爬虫工具选择相关推荐

  1. python 经管 实证研究_实证研究互助平台成立啦!

    您是否在学习统计或计量时遇到困难?您是否在进行实证研究时面临瓶颈?您是否不知如何回应审稿人的"刁钻"问题?您是否学不懂一种方法如何使用?您是否偶尔搞不定Stata等统计软件?--如 ...

  2. python会计实证研究_描述性统计分析在实证研究中的作用及具体软件实现——以SPSS为例...

    描述性统计分析在实证研究中的作用及具体软件实现 --以SPSS为例 为了提升经管代码库(https://bbs.pinggu.org/forum-2626-1.html)人气,一大早起床,打算就微观实 ...

  3. python人文社科研究_人文社科实证研究中问题与模型的关系

    在人文社科实证研究中,问题与模型的关系说起来大家都懂,但认识未必深刻,就像社会生活中的很多问题一样,别人一说,意思都懂,但要深刻领会,可能需要很长的时间.比如父母对子女的爱,孩子10几岁肯定能懂,但要 ...

  4. python爬虫捕鱼网站_一个简易的爬虫工具,使用Python语言编写,用于zhihu全自动捕鱼...

    简介 这是什么 这是一个简易的爬虫工具,使用Python语言编写,用于zhihu全自动捕鱼,理论上,你可以爬取你感兴趣的任何问题,而不仅仅是小姐姐. 如何使用 编程使用 请确保你的Python版本是3 ...

  5. python人文社科研究_人文社科论文写作数据分析利器|SPSS+Stata+Endnote+Python

    SPSS SPSS(Statistical Product and Service Solutions),即"统计产品与服务解决方案"软件. 该软件最突出的特点就是操作界面极为友好 ...

  6. 初中python程序设计教学研究_初中Python程序设计教学方法初探

    张桥 现在很多学校还在使用VB语言进行教学,它是一种面向对象的编程语言,已被使用了近20年,学生在编写VB代码.设置管理属性和不重视编程算法之前,需要花费大量时间开发程序界面,而且日常生活中也没有什么 ...

  7. 零基础学python裴帅帅_人工智能时代,爬虫如此简单。

    但我们伟大的苹果之父史蒂夫·乔布斯说,「每个人都应该学习编程,因为它教会你思考的方式」. 同时,英国牛津大学研究称,未来20年英国35%现有工作将自动化. 日本研究人员称,在未来的十到二十年之,日本将 ...

  8. 用python画简单花瓣_花瓣网花瓣爬虫

    grab_huaban_board 批量下载花瓣网画板.堆糖网专辑 解析 查看analyze.txt 使用 git clone https://github.com/staugur/grab_huab ...

  9. python数字规律分析_【小白学爬虫】用Python分析福彩3D|发现数字的秘密

    2).我们用chrome浏览器,分析一下网站的结构和源码 访问: http://kaijiang.zhcw.com/zhcw/inc/3d/3d_wqhg.jsp 跳转到: http://kaijia ...

最新文章

  1. Linux内存管理原理【转】
  2. 最常用的10个Matlab快捷键,助你编程更高效
  3. 谈谈char ,nchar,varchar,nvarchar 和Uniqueidentifier
  4. OpenCV学习之Mat::at()理解
  5. N76E003---看门狗
  6. 谷歌母公司将分拆出新量子公司,名为“沙箱”
  7. 免登陆Oracle官网下载JDK
  8. 【THUSC 2018】菜鸡互啄记
  9. python弹性碰撞次数圆周率_期末作业 - 作业部落 Cmd Markdown 编辑阅读器
  10. Sublime Text自定制代码片段之 快速生成html结构
  11. 菲尼克斯2961105继电器REL-MR- 24DC/21
  12. 朱松纯:浅谈人工智能:现状、任务、构架与统一 感悟以及部分内容的概括
  13. 杨超越杯编程大赛上热搜:不懂技术真不敢追星
  14. python中显示第三行数据_在Python中Dataframe通过print输出多行时显示省略号的实例...
  15. 【MFC学习笔记】常见问题解答
  16. [转]英文中的偏旁部首及其记忆
  17. 记——通过点击表头弹出筛选选项列表,点击进行数据筛选
  18. 用MATLAB实现费诺编码
  19. Bag of words and Bag of features
  20. 【老罗笔记】一万小时天才理论

热门文章

  1. Linux虚拟机的克隆
  2. ArcGIS创建地理处理包!让你制作的工具自由分享
  3. TQ2440nand flashi浅谈
  4. 数据上线:首届6G智能无线通信系统大赛OPPO赛道评测正式开启
  5. 简单Python小程序:求根公式求一元二次方程式实数域的根
  6. 怎么证明一个一维函数连续
  7. JavaScript基础语法笔记,ECMAScript基础,每部分都有经典案例以及解析。会持续更新(2022.0310)
  8. error: 'LOGE' was not declared in this scope
  9. android中直播接受的一方
  10. php之贴吧,PHP开发简易贴吧之数据库搭建