实现功能:去一个url抓取页面,在页面的内容里面在去找另一个url。找到这个这url之后经过一系列操作后再去重组的url去抓取内容。

第一、写出c#抓取页面的代码

c#抓取页面

  1 using System;
  2 using System.Collections.Generic;
  3 using System.Linq;
  4 using System.Web;
  5 using System.IO;
  6 using System.Net;
  7 using System.Text;
  8
  9 /// <summary>
 10 ///abc 的摘要说明
 11 /// </summary>
 12 public static class abc
 13 {
 14     /// <summary>
 15     /// webRequest 模拟http get请求
 16     /// </summary>
 17     /// <param name="strUrl">请求的url</param>
 18     /// <param name="encoding">编码</param>
 19     /// <returns>返回字符串</returns>
 20     public static string GetHttpResponse(this string strUrl, Encoding encoding)
 21     {
 22         string strResult = string.Empty;
 23         try
 24         {
 25             HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(strUrl);
 26             HttpWebResponse HttpWResp = (HttpWebResponse)myReq.GetResponse();
 27             Stream myStream = HttpWResp.GetResponseStream();
 28             StreamReader sr = new StreamReader(myStream, encoding);
 29             strResult = sr.ReadToEnd();
 30
 31         }
 32         catch (Exception ex)
 33         {
 34             WriteLog(ex.Message, strUrl);
 35         }
 36
 37         return strResult;
 38     }
 39
 40     /// <summary>
 41     /// webRequest 模拟http post请求
 42     /// </summary>
 43     /// <param name="url">请求的url</param>
 44     /// <param name="val">post 的数据</param>
 45     /// <returns>返回字符串</returns>
 46     public static string GetHttpPostResponse(this string url, string val, Encoding encoding)
 47     {
 48         string strResult = string.Empty;
 49         try
 50         {
 51             HttpWebRequest myReq = (HttpWebRequest)HttpWebRequest.Create(url);
 52             myReq.Method = "Post";
 53             myReq.ContentType = "application/x-www-form-urlencoded";
 54             byte[] byteArray = encoding.GetBytes(val);
 55             myReq.ContentLength = byteArray.Length;
 56             Stream stream = myReq.GetRequestStream();
 57             stream.Write(byteArray, 0, byteArray.Length);
 58             stream.Close();
 59             HttpWebResponse HttpWResp = (HttpWebResponse)myReq.GetResponse();
 60             Stream myStream = HttpWResp.GetResponseStream();
 61             StreamReader sr = new StreamReader(myStream, encoding);
 62             strResult = sr.ReadToEnd();
 63
 64         }
 65         catch (Exception ex)
 66         {
 67             WriteLog(ex.Message + val, url);
 68         }
 69
 70         return strResult;
 71     }
 72
 73     public static void WriteLog(string sLog, string titleLog)
 74     {
 75         try
 76         {
 77             string logPath = System.AppDomain.CurrentDomain.BaseDirectory;//目录位置
 78
 79             DateTime dt = DateTime.Now;
 80             string logfile = new StringBuilder(logPath).Append("\\Log\\").Append(dt.ToString("yyyy-MM-dd")).Append("\\").Append(titleLog).Append("_").Append(dt.ToString("yyyyMMddHHmmss")).Append(".txt").ToString();
 81             if (!System.IO.Directory.Exists(System.IO.Path.GetDirectoryName(logfile)))
 82             {
 83                 System.IO.Directory.CreateDirectory(System.IO.Path.GetDirectoryName(logfile));
 84             }
 85             if (!File.Exists(logfile))
 86             {
 87                 FileStream fs = System.IO.File.Create(logfile);
 88                 fs.Close();
 89             }
 90             using (StreamWriter sw = new StreamWriter(logfile, true))
 91             {
 92                 sw.WriteLine(DateTime.Now.ToString("yyyy-MM-dd HH:mm:ss") + ":");
 93                 sw.WriteLine(sLog);
 94                 sw.WriteLine();
 95                 sw.Close();
 96             }
 97         }
 98         catch
 99         {
100
101         }
102     }
103 }

第二、调用里面的方法GetHttpResponse去抓取页面(注这是get方式,如果是post方式可以选择post方式)

第三、用正则匹配方式得到想要的URL(Match mc = Regex.Match(aa, "action=(.*)>", RegexOptions.IgnoreCase);)

第四、由于此时得到URL是经过浏览器处理的URL如果我们直接去抓取页面就会找不到页面。因为此时的URL的协议是Https协议。所以我们需要中间做一次跳转。

首先还是去抓aa = abc.GetHttpResponse(str, Encoding.UTF8);得到的URL里有一个将要跳转到的url目录。我们需要将主域名+刚刚得到的这个目录。

第五、然后再去抓取。就可以得到我们想要的内容!

转载于:https://www.cnblogs.com/honghong75042/archive/2013/04/28/3049201.html

c# 连续抓取页面内容相关推荐

  1. apache httpclient 工具类_Java教程分享使用HttpClient抓取页面内容

    Java教程分享使用HttpClient抓取页面内容,使用HttpClient工具来发送Http请求 1.简介 HttpClient 是 Apache Jakarta Common 下的子项目,用来提 ...

  2. java response 获得code_Java教程分享使用HttpClient抓取页面内容

    Java教程分享使用HttpClient抓取页面内容,使用HttpClient工具来发送Http请求 1.简介 HttpClient 是 Apache Jakarta Common 下的子项目,用来提 ...

  3. php登录页面后抓取页面内容,PHP模拟登陆抓取页面内容

    平时开发中经常会遇到抓取某个页面内容, 但是有时候某些页面需要登陆才能访问, 最常见的就是论坛, 这时候我们需要来使用curl模拟登陆. 大致思路:需要先请求提取 cookies 并保存,然后利用保存 ...

  4. php抓取页面内容乱码,如何解决抓取乱码php网页的问题

    爬行乱码php网页的解决方案:1.使用"mbconvertencoding"来转换编码:2.设置并添加"curl _ setopt ($ ch,curl opt _ en ...

  5. 7.正则抓取页面内容

    文章目录 请求方法: GET请求: POST请求: 二者之间的区别: GET爬取xazlsec.com页面内容: POST爬取页面信息: 用脚本爬取页面内容: 正则匹配: 元字符 (参见 python ...

  6. php抓取页面生成html,PHP smiple html dom抓取页面内容

    之前做页面抓取,数据采集等功能的时候,第一个想到的就是用正则表达式去匹配页面内容.但是对于像我这种,正则只懂皮毛的人来说,写正则是真的很恶心的一件事.去网上找,也不一定能改成自己需要的正则. 今天给大 ...

  7. php 正则抓取页面内容_PHP_php获取网页内容方法总结,抓取到的内容在通过正则表达 - phpStudy...

    php获取网页内容方法总结 抓取到的内容在通过正则表达式做一下过滤就得到了你想要的内容,至于如何用正则表达式过滤,在这里就不做介绍了,有兴趣的,以下就是几种常用的用php抓取网页中的内容的方法. 1. ...

  8. php 正则抓取页面内容_php 正则表达式抓取网页内容

    php 抓取网页内容优化 我想在youku网抓取高清视频的链接,然后发到手机客户端那里,可是抓取的时间不理想(大概50个视频,电脑抓取显示在网页都要6秒多,发送到手机更要30秒),想问有什么优化方法呢 ...

  9. php 正则抓取页面内容_php使用curl和正则表达式抓取网页数据示例

    session_start(); //封装成类 开启这些自动抓取文章 #header("Refresh:30;http://www.test.com:8080"); class S ...

最新文章

  1. Flex Javascript 交互实现代码
  2. 织梦html不能生成,内容预览及生成HTML
  3. js函数 Number()、parseInt()、parseFloat()的区别:
  4. Couldn‘t find grammar element for class javax.ws.rs.core.Response
  5. [转]关于多线程并发:每个开发人员都应了解的内容(转自Mainz's)
  6. Drainage Ditches POJ1273
  7. java实体类中有枚举类型_当实体类中entity/DTO/VO等类中,有枚举值,应该怎么输出?...
  8. Lucas(卢卡斯)定理
  9. 大白话讲解Promise(三)搞懂jquery中的Promise
  10. 局网满猿关不住,一波码农出墙来。
  11. 3.3 基于GMM-HMM的语音识别
  12. mysql 5.6 默认密码_mysql5.6配置及修改密码
  13. 电脑桌面录屏软件大全,给大家推荐一波优秀的屏幕录像工具!
  14. opengl 中的透视除法和NDC
  15. pythonQQ连连看秒杀脚本
  16. Arthas线上问题定位神器
  17. android技术篇(三)解密data区
  18. 硬币翻转倍数递增试算
  19. Android开发-Handler引起的内存泄漏-实验、分析、总结。
  20. 070-JAVA项目实训:仿QQ即时通讯软件系列讲座五(讲解用户注册功能)

热门文章

  1. 关于格雷码的规律、转换
  2. 近期发现的一些-20190519
  3. 3d饼图 vue_Vue+Echarts构建可视化大数据平台实战项目分享(附源码)(上)
  4. php soap自动wsdl,在使用PHP的本机SOAP类时生成WSDL?
  5. android sync manager wifi pc,Android SyncManager 实现
  6. 001_Maven入门
  7. 011_CSS子元素选择器
  8. 064_html音频
  9. java panel 左对齐,将Shape的中心与JPanel的中心对齐 - java
  10. linux x window system下载,为Ubuntu 添加 KDE X WINDOW SYSTEM