开始使用 [WWW::Mechanize](http://mechanize.rubyforge.org/mechanize/classes/WWW/Mechanize.html)

—————————

本教程的目的是帮助你开始使用Mechanize。读完这篇教程之后,你将可以抓取页面,点击链接,填写和提交form,抽取数据和其他一些可能有用的事情。此教程仅仅只是涉及到了非常粗浅的功能,但因该已经足够帮助你起步了。

让我们抓取一个页面

—————–

你要做得第一件事情就是在代码里引用mechanize,然后初始化一个新的mechanize实例:


require 'rubygems'
require 'mechanize' 
 agent = WWW::Mechanize.new


现在我们将使用刚刚创建的agent来抓取一个页面。就拿Google开刀吧:

page = agent.get('http://google.com/')


发生了什么事情?我们让mechanize去抓取Google的主页。Mechanize会自动存贮相关的cookie,甚至会跟踪Google发过来的自动跳转。Agent会帮我们抓回来一个页面,我们可以用来抽取数据,找到并且点击链接或者填写一个form.

接下来,让我们找一些链接出来点点看。

找到链接

——–

当你抓取页面、提交数据或者提交一个form的时候mechanzie都回返回一个page,agent将会解析抓取到的页面并且把一系列的链接放进page里面。

现在让我们尝试从刚才拿到的google主页上找出所有的链接:

page.links.each do |link| puts link.text end




我们能列出所有的链接,但是mechanize提供了几个更加方便的捷径帮我们找到一个链接并且点击它。假设我们需要找到一个text属性是’News’的链接并且点击。一般来说,我们会这样做:

page = agent.click page.links.find { |l| l.text == 'News' }




但是mechanize提供了捷径,所以我们可以这样做:

page = agent.click page.links.text('News')




这个捷径表示“找到所有text为’News’的链接”。你也许已经想到了“可能存在很多符合这个条件的链接”,没错!如果你把一组链接发送给“click”方法,mechanize只会点击第一个。如果你想要点击第二个,那你应该这样做:

agent.click page.links.text('News')[1]




我们甚至可以找到一个包含特定href的链接:

page.links.href('/something')




或者把它们连起来,找到一个包含特定text和href的链接:

page.links.text('News').href('/something')




Mechanize提供的这些捷径可以用在任意一组你找到的东西上面,例如一组frame、iframe或者form。现在你应该已经知道如何找到并且点击链接了,让我们试试更加复杂的事情,比如填写一个form。

填写Form

———

让我们继续Google的例子。当前我们有了一下代码:


require 'rubygems' 
require 'mechanize' 
agent = WWW::Mechanize.new 
page = agent.get('http://google.com/')



如果我们打印这个页面的源代码,就会发现有一个form叫做’f',它包含几个按钮和几个要填写的域:

pp page




现在我们知道了这个form的名字,让我们把它抓出来:

google_form = page.form('f')




Mechanize可以让你通过几种不同的方式访问form里面可以输入的域,但是最方便的方式就是把输入域当作form的一个属性来访问。所以让我们把一个叫做’q'的域的值设置成’ruby mechanize’:

google_form.q = 'ruby mechanize'




为了确保我们设置了这个值,让我们打印这个form,然后你应该能看到一行类似的代码:

#<www::Mechanize::Field:0x1403488 @name="q", @value="ruby mechanize">




如果你看到’q'的值变了,说明你成功了!现在我们可以提交这个form,’点击’提交按钮和打印结果:

page = agent.submit(google_form, google_form.buttons.first) pp page




我们刚刚做得事情等同于在google的搜索框里填写了’ruby mechanize’然后点击’Google Search’按钮。如果我们没有点击那个按钮而直接提交form,就等同于填写值之后按回车键。

让我们看看到现在为止写的代码:

require 'rubygems' 
require 'mechanize'              
agent = WWW::Mechanize.new 
page = agent.get('http://google.com/') 
google_form = page.form('f') 
google_form.q = 'ruby mechanize' 
page = agent.submit(google_form) 
pp page

在开始抓抽取数据之前,让我们深入了解一下form。除非你对数据抓取实在感兴趣。

高级form技巧

————

在这一节里,我想试试form里面可能包含的各种输入控件。Password和Textarea可以直接当作text控件来处理。Select非常类似 text,但是它会包含很多相关的子选项。如果你选择了一个option,mechanize会取消其他option的选择(除非允许多选!)。

例如,在一个列表里面选择一个option:

form.fields.name('list').options[0].select




现在让我们来看看checkbox和radio button。要选择一个checkbox,只需要这样做:

form.checkboxes.name('box').check




Radio button和checkbox很像,但是在选择一个radio button之后其他同名的radio button都会被取消选择。像操作checkbox一样操作radio button。

form.radiobuttons.name('box')[1].check




Mechanize同样可以轻易支持文件上传!只需要找到上传文件的控件,然后告诉它你想要上传的文件名:

form.file_uploads.file_name = "somefile.jpg"




抽取数据

——–

Mechanize使用hpricot来解析html。这代表了什么?你可以把mechanize的page当作一个hpricot对象。在你用 machanize找到目标页面之后,就可以使用[hpricot](http://code.whytheluckystiff.net /hpricot/)的方法来抽取上面的任何东西:

agent.get('http://someurl.com/').search("//p[@class='posted']")




更多关于这个强悍的数据抽取器的信息,请参考[HpricotBasics](http://code.whytheluckystiff.net/hpricot/wiki/HpricotBasics).

Mechanize使用手册相关推荐

  1. 分布式训练使用手册-paddle 数据并行

    分布式训练使用手册¶ 分布式训练基本思想¶ 分布式深度学习训练通常分为两种并行化方法:数据并行,模型并行,参考下图: 在模型并行方式下,模型的层和参数将被分布在多个节点上,模型在一个mini-batc ...

  2. 正则语法完全正则表达式手册_语法格式重点

    20211202 https://blog.csdn.net/lc11535/article/details/103266263 该表达式打开re.U(re.UNICODE)标志. python –& ...

  3. CUDA C++编程手册(总论)

    CUDA C++编程手册(总论) CUDA C++ Programming Guide The programming guide to the CUDA model and interface. C ...

  4. html iso标准文档,HTML ISO-8859-1 参考手册

    # HTML ISO-8859-1 参考手册 HTML 4.01 支持 ISO 8859-1 (Latin-1) 字符集. ISO-8859-1 的较低部分(从 1 到 127 之间的代码)是最初的 ...

  5. 最好的程序界面就是用户无需去阅读操作手册就知道该如何使用的界面

    最好的程序界面就是用户无需去阅读操作手册就知道该如何使用的界面. 原则 1.一致性  如果你可以在一个列表的项目上双击后能 够弹出对话框,那么应该在任何列表中双击都能弹出对话框.要有统一的字体写号.统 ...

  6. ffmpeg linux安装_ffmpeg命令中文手册

    功能 视频转换和编辑工具 示例 1.从mp4视频文件中提取音频并保存为mp3音频格式 [root@node_116 video]# ffmpeg -i video.mp4 -vn sound.mp3f ...

  7. java修炼手册3.8_Java修炼手册

    <Java修炼手册免费版>是一款专为想要自学JAVA的用户打造的全方位掌上学习软件,拥有各阶段的科学课程模块,从视频,资料,图片,演示等多种方面全面引导用户科学而快速的融入JAVA的世界中 ...

  8. android 设置setmultichoiceitems设置初始化勾选_阿里巴巴Java开发手册建议创建HashMap时设置初始化容量,但是多少合适呢?...

    集合是Java开发日常开发中经常会使用到的,而作为一种典型的K-V结构的数据结构,HashMap对于Java开发者一定不陌生. 关于HashMap,很多人都对他有一些基本的了解,比如他和hashtab ...

  9. 【radar】毫米波雷达相关资料(文献综述列表、顶会研讨会资料列表、顶会workshops资料列表、工具书、使用手册)(2)

    [radar]毫米波雷达相关资料(毫米波雷达文献综述列表.毫米波雷达顶会研讨会资料列表.毫米波雷达顶会workshops资料列表.毫米波雷达工具书.毫米波雷达使用手册)(2) Review Paper ...

最新文章

  1. cc arm linux gcc,(80分请教):armcc 与 arm-elf-gcc的区别?
  2. 动态规划解决方案最长公共子序列问题(开启)
  3. CentOS系统环境下安装MongoDB
  4. 加速创业大礼包欢迎领取:对接微软客户、免费技术资源、深入对接一线资本、助力品牌建设...
  5. 如何在SharePoint2007中实现下拉列表(DropDownList)的级联菜单效果
  6. 第十八讲 傅里叶变换
  7. 「Sqlserver」数据分析师有理由爱Sqlserver之三-最值得使有低投入高产出的Sqlserver功能...
  8. 【dfs】【hash】有趣的英语角(2015特长生 T2/luogu 1019)
  9. ubuntu 破解mysql密码_Ubuntu下忘记MySQL root密码解决方法
  10. Struts2 - Action 基础用法
  11. [ACM] hdu 1285 确定比赛 (拓扑排序)
  12. 前端自动化打包工具--webpack
  13. 【原】[webkit移动开发笔记]之空链接是使用javascript:void(0)还是使用#none
  14. [CF920G]List Of Integers
  15. 微信小程序云开发教程-云函数操作数据库-排序查询、指令查询
  16. 基于vivoY97的Adb驱动程序的安装
  17. python计算程序运行时间毫秒_Python获取秒级时间戳与毫秒级时间戳方法
  18. php创建对象出问题,activex部件不能创建对象
  19. 张小龙2018微信公开课超时演讲,总结微信8年
  20. gprs java_GPRS类型一览

热门文章

  1. 计算机4F,光学4F系统介绍
  2. day01 HTMLCSS
  3. HTTP的请求相应过程
  4. 网络唤醒的原理原来是这样的,GET!
  5. 如何评价B端产品经理的能力
  6. ftp 出现Passive mode refused 解决办法
  7. Attention原理详解
  8. WPF--控件(代码讲解)
  9. STM32启动代码学习
  10. 纯js实现选择色卡效果