VC6中用DOM遍历网页中的元素

2005-4-21 6:56:47  作者:模板天下收集整理  来源:未知 网友评论 0 条 论坛286   
一、摘要

  在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改......等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都是围绕如何遍历 HTML 中的表单(form)并枚举出表单域的属性为目标的,对于网页中的其它元素,比如图象、连接、脚本等等,应用同样的方法都可以轻松实现。

  二、网页的文档层次结构

  IE 浏览器,采用 DOM(文档对象模型)来管理网页的数据。它通过一个容器(IWebBrowser2/IHTMLWindow2)来装载网页文档(IHTMLDocument2),而一个文档,又可以由 0 或多个贞(frame)组成,管理这些贞的接口叫“框架集合(IHTMLFramesCollection2)”,而每个贞的容器又是IHTMLWindow2,和IWebBrowser2一样,它也装载着各自的文档(IHTMLDocument2)。因此,我们的第一个任务,就是想方设法能够得到IHTMLDocument2的接口。因为文档可能包含贞,而贞又包含着子文档,子文档可能再包含贞......,如此要得到所有的文档,这里有一个递归遍历的处理过程。

  得到文档(IHTMLDocument2)后,下一步任务就是要设法取得表单了(IHTMLFormElement)。因为在一个文档中可以包含 0 或多个表单(form),而管理这些表单的又是一个表单集合(IHTMLElementCollection),所以必须先得到集合,然后再枚举出所有的表单条目了。

  得到表单(IHTMLFormElement)后,接下来的事情就简单了,逐个提取表单中的元素(也叫表单域 IHTMLInputElement)就可以读写这些域的属性了。

三、程序实现

  <1> 取得 IHTMLDocument2 的接口指针。根据IE浏览器的运行方式,有多种不同的方式可以获取文档指针。

  <1.1> 如果你在程序中使用MFC的 CHtmlView 视来浏览网页。

  取得文档的方法最简单,调用 CHtmlView::GetHtmlDocument() 函数。

  <1.2> 如果你的程序中使用了“Web 浏览器” 的ActiveX 控件。

  取得文档的方法也比较简单,调用 CWebBrowser2::GetDocument() 函数。

  <1.3> 如果你的程序是用 ATL 写的 ActiveX 控件。

  那么需要调用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然后就可以通过 QueryInterface() 查询得到 IHTMLDocument2 的接口。主要代码如下:

CComPtr < IOleContainer > spContainer;
m_spClientSite->GetContainer( &spContainer );
CComQIPtr < IHTMLDocument2 > spDoc = spContainer;
if ( spDoc )
{
 // 已经得到了 IHTMLDocument2 的接口指针
}

  <1.4> 如果你的程序是用 MFC 写的 ActiveX 控件。

  那么需要调用 COleControl::GetClientSite() 得到 IOleContainer 接口,然后的操作和<1.3>是一致的了。

  <1.5> IE 浏览器作为独立的进程正在运行。

  每个运行的浏览器(IE 和 资源浏览器)都会在 ShellWindows 中进行登记,因此我们要通过 IShellWindows 取得实例(示例程序中使用的就是这个方法)。主要代码如下:

#include < atlbase.h >
#include < mshtml.h >

void FindFromShell()
{
 CComPtr< IShellWindows > spShellWin;
 HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );
 if ( FAILED( hr ) ) return;

 long nCount=0;
 spShellWin->get_Count(&nCount); // 取得浏览器实例个数

 for(long i=0; i<nCount; i++)
 {
  CComPtr< IDispatch ><nCount; i++)
  {
   CComPtr< IDispatch ><nCount; i++)
   {
    CComPtr< IDispatch > spDisp;
    hr=spShellWin->Item(CComVariant( i ), &spDisp );
    if ( FAILED( hr ) ) continue;

    CComQIPtr< IWebBrowser2 > spBrowser = spDisp;
    if ( !spBrowser ) continue;

    spDisp.Release();
    hr = spBrowser->get_Document( &spDisp );
    if ( FAILED ( hr ) ) continue;

    CComQIPtr< IHTMLDocument2 > spDoc = spDisp;
    if ( !spDoc ) continue;

    // 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
   }
}

  <1.6> IE 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 FindWindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“Internet Explorer_Server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:

#include < atlbase.h >
#include < mshtml.h >
#include < oleacc.h >
#pragma comment ( lib, "oleacc" )

BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam)
{
 TCHAR szClassName[100];

 ::GetClassName( hwnd, &szClassName, sizeof(szClassName) );
 if ( _tcscmp( szClassName, _T("Internet Explorer_Server") ) == 0 )
 {
  *(HWND*)lParam = hwnd;
  return FALSE; // 找到第一个 IE 控件的子窗口就停止
 }
 else return TRUE; // 继续枚举子窗口
};

void FindFromHwnd(HWND hWnd)
{
 HWND hWndChild=NULL;
 ::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild );
 if(NULL == hWndChild) return;

 UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") );
 LRESULT lRes;
 ::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes );

 CComPtr < IHTMLDocument2 > spDoc;
 HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc );
 if ( FAILED ( hr ) ) return;

 // 程序运行到此,已经找到了 IHTMLDocument2 的接口指针
}

  <2> 得到了 IHTMLDocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指针的方法比较简单,取属性 IHTMLDocument2::get_frames()。

  <3> 首先取得子框架的总数目 IHTMLFramesCollection::get_length(),接着就可以循环调用 IHTMLFramesCollection::item()函数一个一个地取得子框架 IHTMLWindow2 指针,然后转第<1>步。

  <4> 一个文档中可能拥有多个表单,因此还是同样的道理,先要取得表单的集合(IHTMLElementCollection,其实这个不光是表单的集合,其他元素的集合,比如图片集合也是用它)。这个操作也很简单,取得属性 IHTMLDocument2::get_forms()。

  <5> 属性 IHTMLElementCollection::get_length() 得到表单总数目,就可以循环取得每一个表单指针了 IHTMLElementCollection::item()。

  <6> 在第<5>步中的item()函数,得到的是一个IDispatch的指针,你通过QueryInterface()查询,就可以得到 某类型输入的指针,代码如下:

// 假设 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指针
CComQIPtr < IHTMLInputTextElement > spInputText(spDisp);
CComQIPtr < IHTMLInputButtonElement > spInputButton(spDisp);
CComQIPtr < IHTMLInputHiddenElement > spInputHidden(spDisp);
......
if ( spInputText )
{
 //如果是文本输入表单域
}
else if ( spInputButton )
{
 //如果是按纽输入表单域
}
else if ( spInputHiddent )
{
 //如果是隐藏输入表单域
}
else if ........ //其它输入类型

  上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 QueryInterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 IDispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:#include < atlbase.h >
CComModule _Module; // 由于需要使用 CComDispatchDriver 的 IDispatch 包装类ATL智能指针,所以这个是必须的

#include < atlcom.h >
......
long nElemCount=0; //表单域的总数目
spFormElement->get_length( &nElemCount );

for(long j=0; j< nElemCount; j++)
{
 CComDispatchDriver spInputElement; // IDispatch 的智能指针
 spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement );

 CComVariant vName,vVal,vType; // 域名称,域值,域类型
 spInputElement.GetPropertyByName( L"name", &vName );
 spInputElement.GetPropertyByName( L"value",&vVal );
 spInputElement.GetPropertyByName( L"type", &vType );
 // 使用 IDispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单
 // 另外调用 Invoke 函数也异常方便,Invoke0(),Invoke1(),Invoke2()....
 ......
}

  四、结束语

  示例程序在 VC6 下编译执行通过。运行方法:随便启动几个 IE 浏览网页,最好是有表单输入的网页。然后执行示例的 EXE 程序即可。

VC6中用DOM遍历网页中的元素相关推荐

  1. python中的enumerate函数用于遍历序列中的元素以及它们的下标

    enumerate 函数用于遍历序列中的元素以及它们的下标: >>> for i,j in enumerate(('a','b','c')):  print i,j 0 a 1 b ...

  2. C#获取网页中某个元素的位置,并模拟点击

    我们在开发中,往往要得到网页中某个元素的位置,并且点击它.要模拟一次鼠标点击并不难,只要调用一个API就行了,关键就是怎么样得到这个元素的位置,还有判断是否要滚动滚动条,要滚动多少行能让元素显示出来. ...

  3. 精确定位网页中各个元素的位置

    精确定位网页中各个元素的位置有两种方法:使用表格或层.使用表格是目前比较通用的做法,具体方法是:先在网页中建立一个表格,注意表格的边框宽度应为0.然后再把各个元素按照你的要求放在各个表格单元之中.仔细 ...

  4. VC 监视网页中的元素事件

    通过近两个月的学习<Internet Explorer 5.0程序设计>,我终于知道该怎样来挂接一个网页中各元素的事件,现将我解决方法告知如下: 本例利用C++来捕获IE网页中的元素事件. ...

  5. JAVA遍历数组中的元素

    package com.yang;public class Demo01 {public static void main(String[] args) {int[] a={25,64,19,48,9 ...

  6. 利用for循环把遍历数组中的元素依次获取出来 数组笔记及基本知识点

    利用for循环把遍历数组中的元素依次获取出来 数组索引号从0开始 所以i必须从0开始  i<6 <script>var arr = ['blue', 2, true, 4, 5, 6 ...

  7. 【Linux】Shell脚本中如何使用“循环”遍历“数组”中的元素(包括MySQL的常用指令介绍)

    一.背景 实习过程中,今天mentor突然让我拉取一下远端园区数据库中的部分信息,因为包含很多不同园区的数据信息,而且要以园区为单位生成文件来对数据进行存放,因此自然是需要使用shell脚本来自动生成 ...

  8. CSS定位网页中的元素

    relative相对定位 偏移设置:left.right.top.bottom 值单位:px 元素的规律: 相对定位元素的规律 设置相对定位的盒子会相对它原来的位置通过指定偏移,到达新的位置. 设置相 ...

  9. java 获取js html_JS获取网页中HTML元素的几种方法

    编写js程序的时候最常使用的就是获取网页中的html元素,并进行处理,我在网上发现了一篇获取html对象的几种方法进行整理的帖子,发上来大家一块学习~ getElementById getElemen ...

最新文章

  1. 漫画:什么是LRU算法?
  2. Quest 公司的Shareplex 与 GoldenGate比较
  3. MySQL学习笔记1(增删查改)
  4. jmeter重写java请求_jmeter之编写java请求-扩展Java Sampler
  5. PHP学习笔记 第六讲 PHP数组的创建修改应用
  6. 传智播客杨中科老师的全13季 C#、Asp.net视频教程
  7. 二进制与十六进制转换对照表
  8. Uclinux、Linux区别
  9. 回溯法,随机迷宫,以及更多
  10. jenkins备份恢复
  11. 华为路由器Serial接口及串口无法实现ACL访问控制解析
  12. Latex带序号的项目符号列表
  13. 用Android手机远程桌面连接登陆Windows10(用微软账号登陆),Microsoft账户登陆的计算机远程桌面连接问题
  14. git检出新分支遇到的文件路径过长Filename too long的问题
  15. 抓包神器 Charles
  16. OpenFOAM 工具列表
  17. 「 C++ 函数 」“WSAStartup()使用”讲解
  18. 【项目管理】如何成为合格的项目负责人
  19. selenium入门超详细教程——网页自动化操作
  20. importerror: libicui18n.so.58: cannot open shared object file: no such file or directory

热门文章

  1. 操作系统之存储管理——FIFO算法和LRU算法
  2. Hibernate 注解映射
  3. MapReduce进阶:多MapReduce的链式模式
  4. 有没有那种python在线编译器_推荐几个好用的在线编译器
  5. 常用 IO 模型图解介绍
  6. 接地脚是什么意思_史上最全的接地系统详解,值得收藏
  7. python快速上手下载_初学者如何尽快上手python
  8. VMware VCP
  9. 锐捷设备常用命令大全
  10. 云原生存储详解:容器存储与 K8s 存储卷