网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。

相信很多人都用JAVA或者C++写过网络爬虫,但是都存在代码过于复杂、爬虫难以维护的问题。也有很多人使用脚本语言编写过网络爬虫,但是这些脚本很多时候不妨变嵌入大型的系统,或者语法怪异,难以上手。

我们教程中选择了一门适合中小型工程的爬虫脚本语言作为爬虫的编写语言:CrawlScript。这门脚本语言底层是用JAVA实现的,可以很方便地被其他JAVA程序调用。之所以选择这门语言,还有一个重要的原因,CrawlScript脚本遵循javascript的规范,只要学过javascript的人,可以在几分钟内轻松上手。不多做介绍了,开始详细的教程。

下载完成后,解压。找到CrawlScript-bin文件夹。

下面我们来介绍如果编写和运行CrawlScript。

CrawlScript Shell是编写和运行CrawlScript最常用的方式之一,运行方式如下:

1.用命令行进入工程里的CrawlScript-bin文件夹.

2.在命令行输入java -jar crawlscript.jar即可进入crawlscript的shell.

3.开始编写CrawlScript脚本,回车运行.

例如:

1)输入doc=$("http://www.baidu.com") ,回车,可看到百度首页的所有文字。

2)继续输入doc.a() ,回车,即可看到百度首页的所有超链接中的文字.

3)继续输入write("log.txt",doc.a()); ,回车,查看CrawlScript-bin文件夹,可发现生成了log.txt文件,里面是百度首页所有超链接的文本信息.

运行CrawlScript脚本文件有两种方式:

1.运行CrawlScript Shell,输入命令load(文件路径).

例如:在CrawlScript-bin文件夹下有一个demo.js,进入CrawlScript Shell后,输入load("demo.js")即可运行demo.js这个脚本。

2.在CrawlScript-bin目录下,运行命令: java -jar crawlscript.jar 文件路径.

例如:在CrawlScript-bin文件夹下有一个demo.js,用命令行进入CrawlScript-bin目录,运行命令:java -jar crawlscript.jar demo.js

注:demo.js是一个完整的爬虫,可以爬取新华网所有的新闻正文(放到CrawlScript-bin/download文件夹中),由于爬虫初始化,启动需要1分钟.

下一课,我们介绍CrawlScript的编写语法。

java编译网络爬虫_自己动手做网络爬虫系列——1 | 学步园相关推荐

  1. python可以plc编程_自己动手做一个PLC

    我们自己来做一个PLC(Programmable Logic Controller,即可编程逻辑控制器)怎么样?就像很多计算机专业的同学都自己写过最简单的操作系统一样,作为工控领域的软件人,怎么能不自 ...

  2. 杭州自学python爬虫_金华自学python网络爬虫直播

    金华自学python网络爬虫直播操作符说明实例.表示任何单个字符?[ ]字符集,对单个字符给出取值范围[abc],表示a,b,c,[a-z]表示a到z的单个字符[^ ]非字符集,对单个字符给出排除范围 ...

  3. java 编译 解释执行_关于Java的编译执行与解释执行

    编程语言分为低级语言和高级语言,机器语言.汇编语言是低级语言,C.C++.java.python等是高级语言. 机器语言是最底层的语言,能够直接执行.而我们编写的源代码是人类语言, 计算机只能识别某些 ...

  4. pythonscrapy爬虫_零基础写python爬虫之使用Scrapy框架编写爬虫

    网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据.虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间.Scrapy是一个使用Python编写的,轻 ...

  5. 零基础python爬虫_零基础写python爬虫之爬虫编写全记录

    先来说一下我们学校的网站: http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html 查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是 ...

  6. 树莓派有线网络设置_树莓派的基本网络配置

    树莓派(Raspberry Pi)是如图所示的小电路板,别看它只有卡片大小,但它却能够运行Linux系统,树莓派拥有USB接口,可以连接鼠标键盘,还有HDMI口,可以连接显示器,除此之外,树莓派还提供 ...

  7. scrapy微博反爬虫_基于Scrapy的微博爬虫设计

    Data Base Technique • 数据库技术 Electronic Technology & Software Engineering 电子技术与软件工程 • 187 [关键词]Sc ...

  8. win10可以做网络服务器系统m,win10做网络服务器配置

    win10做网络服务器配置 内容精选 换一换 WordPress是使用PHP语言开发的博客平台,用户可以在支持PHP和MySQL数据库的服务器上搭建属于自己的网站,本文教您通过华为云虚拟私有云.弹性云 ...

  9. 怎样查看计算机网,如何查看电脑(本机)无线网络密钥_查看电脑无线网络密钥的步骤...

    当我们在电脑中那幢无线路由器和无线网卡之后,都会设置无线网络密码,防止蹭网的,但是有时候可能自己设置之后忘记密码了,别人来家里要连接wifi的时候也就无法连接了,那么如何查看电脑(本机)无线网络密钥呢 ...

  10. 网络类型_多种类型的网络钓鱼攻击和诈骗

    点击标题下「蓝色微信名」可快速关注 网络钓鱼攻击每年都会对企业造成重大损失和损害 谷歌和Facebook的损失总计超过1亿美元.比利时克里兰银行向网络犯罪分子交付了超过7500万美元.奥地利航空零部件 ...

最新文章

  1. word导入中的一个乱码
  2. 【C++】 18_对象的构造 (中)
  3. 计算机盐城工学院和常熟理工,【选专业】这6所二本院校的专业,就业不输一本学生!...
  4. Silverlight 中文教程第一部分: 使用Silverlight 2 和 VS 2008创建“Hello World”程序
  5. OpenResty中使用反向代理
  6. html快捷键_Mac进阶:掌握这 5 个冷门快捷键,让Mac更好用
  7. vb6引用vbRichClient5 下载对象 cDownloads 简单示例
  8. 非GeoServer卫星影像及电子地图的瓦片方式发布
  9. Bmob后端云学习(未完)
  10. 2、股权融资 - 打造企业上市系列文章
  11. Total Command快捷键大全
  12. c语言星座图原理,通信原理中星座图详解
  13. 2022.7.19 防火墙知识点
  14. 【阅读笔记】Taro转小程序编译源码解析
  15. home assistant用esphome添加温湿度传感器
  16. 联想昭阳K4e电脑系统错误导致屏幕闪烁怎么重装系统?
  17. 51单片机驱动HMI串口屏,串口屏的下载方式
  18. 高精度AOA定位,给你带来不一样的室内外定位技术-新导智能
  19. 微信小程序和ssm交互
  20. STM32-GPIO

热门文章

  1. 基于matlab的FFT滤波,可以实现对simulink模型中示波器的波形数据或者外部mat数据、csv数据进行谐波分析(FFT)和自定义频段清除
  2. 本特利电涡流传感器 330876-02-90-01-CN
  3. android 毕业设计论文总结报告,android课程设计报告.doc
  4. 机器人系统反馈控制结构设计(现代控制理论5)
  5. 【C语言编程】切比雪夫多项式
  6. 服务器上怎么安虚拟主机呀,上线虚拟主机产品步骤
  7. IP这么火究竟什么才是有价值的IP
  8. AutoResetEvent和ManualResetEvent的区别
  9. matlab 固态 机械_固态硬盘无法识别或数据删除还能恢复数据吗?
  10. msicuu.exe,msizap.exe