所谓的数据采集程序也就是网页小偷程序(大家别骂我哦),写完了来这里发点东西,希望大家有何高见共同研究.

1.在下载数据的开始,有些网站是要登录了才能看到相应的数据,这个就需要我们发送登录用户名和密码了,但我是登录了,但他服务器也不是垃圾,在他 那里重定向了,共产生了2个SESSION,这第2个SESSION我就不知道如何捕抓.于是我就投机^-^,用软件将SESSION捕抓下来了1个叫 Ethereal的软件,用以下代码加入到HTTP请求的头部
WebClient myWebClient = new WebClient();
string sessionkey=textBox78.Text;
     string refererurl=textBox77.Text;
     myWebClient.Headers.Clear();    
     myWebClient.Headers.Add("Cookie",sessionkey);
     myWebClient.Headers.Add("Referer", refererurl);
     myWebClient.Headers.Add("User-agent", "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.5) Gecko/20031107 Debian/1.5-3");
这样就欺骗了服务器了,哈哈

2.第二部就是代码下载
byte[] myDataBuffer = myWebClient.DownloadData(remoteUri);
 download = Encoding.Default.GetString(myDataBuffer);

3.第3部就是数据的匹配了,我是将流读取到数据里,然后用IndexOf得到2个关键字段的位置,然后用Substring取出来的,我知道这很笨,但用正则表达式难啊(谁会的指点我下),匹配完了得到的字符串我就用以下的函数去掉了HTML代码:
private string StripHTML(string strHtml)
  {
   string [] aryReg ={
          @"<script[^>]*?>.*?</script>",
          @"<(///s*)?!?((/w+:)?/w+)(/w+(/s*=?/s*(([""'])(//[""'tbnr]|[^/7])*?/7|/w+)|.{0})|/s)*?(///s*)?>",
          @"([/r/n])[/s]+",
          @"&(quot|#34);",
          @"&(amp|#38);",
          @"&(lt|#60);",
          @"&(gt|#62);",
          @"&(nbsp|#160);",
          @"&(iexcl|#161);",
          @"&(cent|#162);",
          @"&(pound|#163);",
          @"&(copy|#169);",
          @"&#(/d+);",
          @"-->",
          @"<!--.*/n"        
         };

string [] aryRep = {
           "",
           "",
           "",
           "/"",
           "&",
           "<",
           ">",
           " ",
           "/xa1",//chr(161),
           "/xa2",//chr(162),
           "/xa3",//chr(163),
           "/xa9",//chr(169),
           "",
           "/r/n",
           ""
          };

string newReg =aryReg[0];
   string strOutput=strHtml;
   for(int i = 0;i<aryReg.Length;i++)
   {
    Regex regex = new Regex(aryReg[i],RegexOptions.IgnoreCase );
    strOutput = regex.Replace(strOutput,aryRep[i]);
  
   }

strOutput.Replace("<","");
   strOutput.Replace(">","");
   strOutput.Replace("/r/n","");

return strOutput;
  }

4.到了后面就是入库了,这个大家都懂了吧.但是我还有点问题就是,在我写数据的时候,出了EXCEPTION,说我的字段太长了,不能写进到数据库,我用的是ACCESS,我试验下用SQL吧.

5.大家有什么好的建议给我留个言赛.共同进步嘛.

数据采集程序(网页小偷)点滴心得相关推荐

  1. 用javascript实现网页小偷程序

    所谓网页小偷程序,其实就是网页部分内容的抓取器,通过了XMLHTTP组件调用其它网站上的网页,通过过虑网页内容,来得到自己所需信息,例如获取新闻内容,获取网站用户信息等等. 下面将通过一段javasc ...

  2. 中学计算机教师论文,信息技术教师论文 中学计算机教学之点滴心得

    文章摘要: 快速发展的信息社会,给计算机教育教学带来了巨大的压力.如何让学生在快乐轻松的氛围中掌握计算机相关理论和实践操作知识,是我们这些计算机教师一直研究和探讨的问题,笔者从"课程设置的合 ...

  3. html5文字中加图片,5、手写HTML语言代码之《在文字中加条横线、插入图片》学习网页制作的心得体会...

    千里之堤始于足下!! 学习网页制作的心得体会5.........手写HTML语言代码之<在文字中加条横线.插入图片> 一.运用 给网页加条横线 在以下"教师自制教学软件的背景&q ...

  4. html网页制作体会,网页制作的心得体会

    <网页制作的心得体会.doc>由会员分享,可免费在线阅读全文,更多与<网页制作的心得体会>相关文档资源请在帮帮文库(www.woc88.com)数亿文档库存里搜索. 1.相知, ...

  5. iOS微信小程序网页请求走error问题

    场景:微信小程序webview外链网页 在Android微信网页 浏览器 iOS浏览器都是好的 但是一到iOS微信就出问题了 请求一直发不出去 ajax 错误码一直报 0 0:请求未初始化(还没有调用 ...

  6. 入职后端程序员的一些心得

    入职后端程序员的一些心得 本来打算上床睡觉,但是想到这段时间的所作所为,有许多值得反省的地方.曾子有言:吾日三省吾身,我虽然做不到曾子的程度,不过也尽量在工作之余好好反思,争取少犯错误,提高工作效率. ...

  7. 微信小程序/网页/app/android等各种bar图标导航图标文章图标标题图标下拉/检索收藏上传客服等图标整理

    在做微信小程序的时候,需要给底部放置图标.但是找了好久都没有找到自己想要的,适合的.后来我就把所有的小程序的图标都看了下.后来想想还是整理出来,方便自己以后用,也方便大家一下.我敢保证有你想要的,适合 ...

  8. SICK LMS200激光数据采集程序说明

    转自:http://www.cnblogs.com/qq78292959/archive/2009/09/22/2077085.html SICK LMS200激光数据采集程序说明 1.设计功能 SI ...

  9. Java小程序|网页后台 物流查询 第三方平台:极速数据物流查询

    Java小程序|网页后台 物流查询 第三方平台:极速数据物流查询 注:采用jfinal框架,代码有一丢丢差别,基本上就是接收参数区别,无影响, 与SSM框架无异. 1.主体代码 /*** 提供物流单号 ...

  10. java 网页空白_win8系统运行Java程序网页会出现空白的解决方法

    我们在操作win8系统电脑的时候,常常会遇到win8系统运行Java程序网页会出现空白的问题.那么出现win8系统运行Java程序网页会出现空白的问题该怎么解决呢?很多对电脑不太熟悉的小伙伴不知道wi ...

最新文章

  1. WMI技术介绍和应用——查询磁盘分区和逻辑磁盘信息
  2. java detach_线程 (detach的作用)
  3. 今天碰到一道比较有趣的面试题,大家来探讨一下。
  4. 致Python学习者,该跟大佬学习做项目了
  5. 《硝烟中的Scrum和XP》书摘(1)
  6. asp.net core web api之异常
  7. java中的单例模型
  8. mysql加上判断_在mysql中where加if判断
  9. 【原理+实战+视频+源码】docker映射端口教程
  10. 2016年世界编程大赛_2016年热门编程趋势
  11. 【msdn】配置 ReportViewer 以进行远程处理
  12. 2345等浏览器主页劫持的解决办法
  13. python调用virustota接口api实现上传文件返回查毒结果
  14. 神马不是浮云,有未来就能改变世界
  15. [irisctf 2023] rev
  16. 51 单片机 点阵 LED 显示屏程序
  17. dingding for Ubuntu: Ubuntu中钉钉安装包资源及安装
  18. iOS 探讨之 mach_absolute_time
  19. 赵小楼:《天道》《遥远的救世主》深度解析(18)细说丁元英中止私募基金的必然性
  20. [规范资料]Excel文件格式

热门文章

  1. php 同义词词库,php如何实现同义词替换
  2. 【U3D】推荐一些不错的Unity游戏开发素材资源
  3. C4—Qt实现记事本(一)2021-11-16
  4. (最新版 易卷/自动出题平台)自动阅卷系统 | 自动阅卷机 | 网络阅卷系统
  5. NTKO控件安装:“不能装载文档控件,请在检查浏览器的选项中检查浏览器的安全设置”问题
  6. Java毕业设计-医院药品管理系统
  7. 卡BIN指的是发卡行识别码
  8. 国内银行卡BIN号速查简表(2016)
  9. 解决报错(4种情况):0x00007FF614F73B96 处(位于 XXX.exe 中)引发的异常: Microsoft C++ 异常: cv::Exception,位于内存位置 0x000XXX
  10. python制作的炫酷动画_【实战】这个炫酷的播放粒子效果,你也可以学会!使用Web动画API制作...