c# 抓取数据的3种方法
搜索网络,发现C#通常有三种方法获取网页内容,使用WebClient、WebBrowser或者HttpWebRequest/HttpWebResponse。。。
方法一:使用WebClient (引用自:http://fbljava.blog.163.com/blog/static/265211742008712105145244/)
static void Main(string[] args)
{
try {
WebClient MyWebClient = new WebClient();
MyWebClient.Credentials = CredentialCache.DefaultCredentials;//获取或设置用于向Internet资源的请求进行身份验证的网络凭据
Byte[] pageData = MyWebClient.DownloadData(“http://www.163.com”); //从指定网站下载数据
string pageHtml = Encoding.Default.GetString(pageData); //如果获取网站页面采用的是GB2312,则使用这句
//string pageHtml = Encoding.UTF8.GetString(pageData); //如果获取网站页面采用的是UTF-8,则使用这句
Console.WriteLine(pageHtml);//在控制台输入获取的内容
using (StreamWriter sw = new StreamWriter("c:\\test\\ouput.html"))//将获取的内容写入文本
{
sw.Write(pageHtml);
}
Console.ReadLine(); //让控制台暂停,否则一闪而过了
}
catch(WebException webEx) {
Console.WriteLine(webEx.Message.ToString());
}
}
方法二:使用WebBrowser (引用自:http://topic.csdn.net/u/20091225/14/4ea221cd-4c1e-4931-a6db-1fd4ee7398ef.html)
WebBrowser web = new WebBrowser();
web.Navigate("http://www.xjflcp.com/ssc/");
web.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(web_DocumentCompleted);
void web_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e)
{
WebBrowser web = (WebBrowser)sender;
HtmlElementCollection ElementCollection = web.Document.GetElementsByTagName("Table");
foreach (HtmlElement item in ElementCollection)
{
File.AppendAllText("Kaijiang_xj.txt", item.InnerText);
}
}
方法三:使用HttpWebRequest/HttpWebResponse (引用自:http://hi.baidu.com/onlyafar/blog/item/7ac4c6bf92d4810019d81f98.html)
HttpWebRequest httpReq;
HttpWebResponse httpResp;string strBuff = "";
char[] cbuffer = new char[256];
int byteRead = 0;string filename = @"c:\log.txt";
///定义写入流操作
public void WriteStream()
{
Uri httpURL = new Uri(txtURL.Text);///HttpWebRequest类继承于WebRequest,并没有自己的构造函数,需通过WebRequest的Creat方法 建立,并进行强制的类型转换
httpReq = (HttpWebRequest)WebRequest.Create(httpURL);
///通过HttpWebRequest的GetResponse()方法建立HttpWebResponse,强制类型转换httpResp = (HttpWebResponse) httpReq.GetResponse();
///GetResponseStream()方法获取HTTP响应的数据流,并尝试取得URL中所指定的网页内容///若成功取得网页的内容,则以System.IO.Stream形式返回,若失败则产生ProtoclViolationException错 误。在此正确的做法应将以下的代码放到一个try块中处理。这里简单处理
Stream respStream = httpResp.GetResponseStream();///返回的内容是Stream形式的,所以可以利用StreamReader类获取GetResponseStream的内容,并以
StreamReader类的Read方法依次读取网页源程序代码每一行的内容,直至行尾(读取的编码格式:UTF8)
StreamReader respStreamReader = new StreamReader(respStream,Encoding.UTF8);byteRead = respStreamReader.Read(cbuffer,0,256);
while (byteRead != 0)
{
string strResp = new string(cbuffer,0,byteRead);
strBuff = strBuff + strResp;
byteRead = respStreamReader.Read(cbuffer,0,256);
}respStream.Close();
txtHTML.Text = strBuff;
}
c# 抓取数据的3种方法相关推荐
- 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法
halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...
- mysql 随机取几万数据,mysql随机取数据的几种方法
摘要 腾兴网为您分享:mysql随机取数据的几种方法,周公解梦,小t智联,图乐,千题库等软件知识,以及2018酷狗音乐vip,集装箱之家,兄弟3150驱动,听书,熊猫办公,四年级上册语文书,winma ...
- PHP抓取页面的几种方式
我们在开发网络程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容 ...
- 爬取网页后的抓取数据_3种抓取网页数据方法
1. 正则表达式 (1) re.findall('<tr id="places_area__row">.*?<td\s*class=["\']w2p_f ...
- php curl_setopt抓取内容,PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便),curl_setopt 是php的一个扩展库 使用条件:需要在php.ini 中配置开启.(PHP 4 >= 4.0.2) ...
- 从网页抓取数据的一般方法
首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据.这两个工具应该说是比较简单易懂的.这里就不再介绍了.主要关注的内容是header和pos ...
- 数据抓取软件是如何抓取数据的?
数据抓取现在是大多数企业公司都会使用的一种批量集成获取数据的技术手段.他能高效快捷的帮助企业获取想要的信息.也是有着人工无法比拟的优势.那么爬虫软件是怎么抓取数据的?使用过程中又是如何检测爬虫ip的? ...
- Python爬虫入门之爬虫解析提取数据的四种方法
本文主要介绍了Python爬虫入门之爬虫解析提取数据的四种方法,通过具体的内容向大家展现,希望对大家Python爬虫的学习有所帮助. 基础爬虫的固定模式 笔者这里所谈的基础爬虫,指的是不需要处理像异步 ...
- 基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口 统一输出接口数据api.适合正在学习Vue,AngularJs框架学习 开发demo,需要接口并保证接口不跨 ...
- python爬虫抓取数据的步骤-Python爬虫抓取手机APP的传输数据
大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包 得到超级课程表登录的地址:http://120.55 ...
最新文章
- idea如何打war包?(部署tomcat后具有class文件)
- 苹果看好医疗健康产业 AI技术将变革
- TP5与TP3.X对比
- 蜜蜂性别调控又有新机制?
- [转]G++与GCC的区别
- PowerShell 笔记
- ctfshow-萌新-web6( 利用二进制绕过获取网站敏感信息)
- 项目进度计划表(模板)_开工必备!excel表一键绘图,施工进度计划横道图从此不用愁...
- Linux 系统编程技巧与概念 第14章 字节次序
- 黄聪:Wordpress3.2去除url中的category(不用插件实现)
- 447.回旋镖的数量
- JSON对象如何转化为字符串?
- VL1_四选一多路器(完整RTL、Testbench和覆盖率)
- MyScript 手写识别数学公式、图形 自动计算
- stm32f103——基本定时器与定时器中断
- 【稳定性day4】美团外卖高可用的演进之路 - 日活两千万的挑战
- IDEA怎么查看还有多久到期
- linux计算器界面代码,linux 日历,计算器,nano编辑器,开关机、重启,(示例代码)...
- 基于python设计的宾馆管理系统 课程论文
- 根据主机名来查找ip或者根据ip来查看主机名(nbtstat)