首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。

httplook和httpwacth 网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为

http://download.csdn.net/user/jinjazz

这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。

private   void  login()
         ... {
            System.Net.WebClient wb  =   new  System.Net.WebClient();

            System.Collections.Specialized.NameValueCollection header  =   new  System.Collections.Specialized.NameValueCollection();
            header.Add( " Cookie " ,  " czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd " );
            header.Add( " Referer " ,  @" http://www.test_by_jinjazz.com.cn/bbs/login.php " );
            wb.Headers.Add(header);
            System.Collections.Specialized.NameValueCollection data  =   new  System.Collections.Specialized.NameValueCollection();
            data.Add( " formhash " ,  " ebd2faac " );
            data.Add( " referer " ,  " http://www.test_by_jinjazz.com.cn/bbs/search.php " );
            data.Add( " loginfield " ,  " username " );
            data.Add( " username " ,  " jinjazz " );
            data.Add( " password " ,  " 999 " );
            data.Add( " questionid " ,  " 0 " );
            data.Add( " answer " ,  "" );
            data.Add( " cookietime " ,  " 2592000 " );
            data.Add( " loginmode " ,  "" );
            data.Add( " styleid " ,  "" );
            data.Add( " loginsubmit " ,  " 提交 " );

             byte [] b  =  wb.UploadValues( " http://www.test_by_jinjazz.com.cn/bbs/login.php " ,  " Post " , data);
             string  strData  =  System.Text.Encoding.Default.GetString(b);
            Console.WriteLine(strData);
        }

以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

从网页抓取数据的一般方法相关推荐

  1. 网页抓取/数据抽取/信息提取软件工具包MetaSeeker

    MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信 ...

  2. 如何进行网页抓取数据??

    最近老是做导数据,有时候没有旧库了,我们可以从老网页抓取数据 主要思路:通过把网页转换成doc式的html,然后进行获取元素的值 我来写个案例: 这是目标网页: http://zxjg.yn.gov. ...

  3. 网页抓取数据-网页抓取数据的软件免费

    在互联网络的时代,信息如同大海般没有边际.甚至我们获取信息的方法已经发生改变:从传统的翻书查字典,继而变成通过搜索引擎进行检索.我们从信息匮乏的时代一下子走到了信息极大丰富今天. 随着互联网的发展及普 ...

  4. git-history:一款用于分析保存在Git和SQLite中的网页抓取数据的工具

    大多数人都知道Git scraping,这是一种网页抓取工具编程技术,你可以定期将数据源快照抓取到Git存储库来跟踪数据源随时间的变化. 如何分析这些收集到的数据是个公认的难题.git-history ...

  5. 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法

    halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...

  6. python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  7. python爬网站数据实例-如何用Python爬数据?(一)网页抓取

    如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...

  8. vs用Python爬数据?(一)网页抓取

    你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. (由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开.如有需要,请 ...

  9. python爬虫抓取数据的步骤-Python爬虫抓取手机APP的传输数据

    大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包 得到超级课程表登录的地址:http://120.55 ...

最新文章

  1. 【web】将一个jar包更改成war包
  2. 看到这一幕,我甚至都想戒烟了。。 | 今日最佳
  3. c语言去空格换行符,关于文件操作,碰到空格就换行
  4. POS机移动刷卡机自适应网站源码 dedecms织梦模板
  5. 机器学习——对三种模式的看法
  6. antlr4做一个计算器
  7. ASP.NET Core学习——7
  8. iOS label显示不同颜色的字体
  9. Mac 有道词典 无法取词、划词
  10. jQuery fadeIn淡入的使用
  11. educoder Git进阶之合并远程分支、rebase、储藏
  12. ps抠图都有哪些方面,有哪些相关教程呢
  13. 用pandas进行数据分析实战
  14. 前端利用高德实时定位_web使用高德地图
  15. 郭德纲绝句,没有一句不让你笑的
  16. Android 权限被拒绝,跳转至权限设置界面
  17. 记录:remote: You are not allowed to push code to this project...【亲测有效】
  18. 泰拉瑞亚修改器服务器能用吗,泰拉瑞亚修改器使用方法详细讲解
  19. QTextEdit和QTextDocument(ZZ)
  20. Flume监控软件——Ganglia安装与部署

热门文章

  1. Idea控制台 CMD Tomcat乱码
  2. 浏览器状态响应码详解 1XX/2XX/3XX/4XX/5XX
  3. 软件开发方法和开发模型的比较
  4. ReactNative开发之在原生页面调用rn控件
  5. PPT中如何制作两圆交叉阴影图
  6. java遍历excel 表格
  7. python进行随机数据生成——Faker的使用
  8. GSM通话断续问题分析
  9. html文件用wps打开,wps文件如何打开?直接打开wps文件的操作技巧
  10. UDF、UDTF、UDAF自定义函数