从网页抓取数据的一般方法
首先要了解对方网页的运行机制 ,这可以用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比较简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。一般会包括cookie,Referer页面和其他一些乱其八糟可能看不懂的变量,还有就是正常交互的参数,比如需要post或者get的querystring所包含的东西。
httplook和httpwacth 网上有很多下载的,这里推荐使用httpwach,因为可以直接嵌入到ie中,个人觉得这个比较好用。这两个工具可以到我上传在csdn的资源中下载,地址为
http://download.csdn.net/user/jinjazz
这里简单给出一段可以抓取数据的c#代码,比如登录某个网站,获取登录成功后的html代码,供数据分析使用。
... {
System.Net.WebClient wb = new System.Net.WebClient();
System.Collections.Specialized.NameValueCollection header = new System.Collections.Specialized.NameValueCollection();
header.Add( " Cookie " , " czJ_cookietime=2592000; czJ_onlineusernum=1651; czJ_sid=w4bGJd " );
header.Add( " Referer " , @" http://www.test_by_jinjazz.com.cn/bbs/login.php " );
wb.Headers.Add(header);
System.Collections.Specialized.NameValueCollection data = new System.Collections.Specialized.NameValueCollection();
data.Add( " formhash " , " ebd2faac " );
data.Add( " referer " , " http://www.test_by_jinjazz.com.cn/bbs/search.php " );
data.Add( " loginfield " , " username " );
data.Add( " username " , " jinjazz " );
data.Add( " password " , " 999 " );
data.Add( " questionid " , " 0 " );
data.Add( " answer " , "" );
data.Add( " cookietime " , " 2592000 " );
data.Add( " loginmode " , "" );
data.Add( " styleid " , "" );
data.Add( " loginsubmit " , " 提交 " );
byte [] b = wb.UploadValues( " http://www.test_by_jinjazz.com.cn/bbs/login.php " , " Post " , data);
string strData = System.Text.Encoding.Default.GetString(b);
Console.WriteLine(strData);
}
以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。
从网页抓取数据的一般方法相关推荐
- 网页抓取/数据抽取/信息提取软件工具包MetaSeeker
MetaSeeker是一个Web网页抓取/数据抽取/页面信息提取工具包,能够按照用户的指导,从Web页面上筛选出需要的信息,并输出含有语义结构的提取结果文件(XML文件),众所周知,Web页面显示的信 ...
- 如何进行网页抓取数据??
最近老是做导数据,有时候没有旧库了,我们可以从老网页抓取数据 主要思路:通过把网页转换成doc式的html,然后进行获取元素的值 我来写个案例: 这是目标网页: http://zxjg.yn.gov. ...
- 网页抓取数据-网页抓取数据的软件免费
在互联网络的时代,信息如同大海般没有边际.甚至我们获取信息的方法已经发生改变:从传统的翻书查字典,继而变成通过搜索引擎进行检索.我们从信息匮乏的时代一下子走到了信息极大丰富今天. 随着互联网的发展及普 ...
- git-history:一款用于分析保存在Git和SQLite中的网页抓取数据的工具
大多数人都知道Git scraping,这是一种网页抓取工具编程技术,你可以定期将数据源快照抓取到Git存储库来跟踪数据源随时间的变化. 如何分析这些收集到的数据是个公认的难题.git-history ...
- 系统检测到您正在使用网页抓取工具访问_从网站抓取数据的3种最佳方法
halo,大家好,我是特仑苏,今天呢给大家分享一些Python从网站抓取数据的一些方法,希望可以给大家带来一些帮助! 原作者:Octoparse团队 原出处:作品文(从网站抓取数据的3种最佳方法)/网 ...
- python爬虫怎么爬同一个网站的多页数据-如何用Python爬数据?(一)网页抓取
如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...
- python爬网站数据实例-如何用Python爬数据?(一)网页抓取
如何用Python爬数据?(一)网页抓取 你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. 需求 我在公众号后台,经常可以收到 ...
- vs用Python爬数据?(一)网页抓取
你期待已久的Python网络数据爬虫教程来了.本文为你演示如何从网页里找到感兴趣的链接和说明文字,抓取并存储到Excel. (由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开.如有需要,请 ...
- python爬虫抓取数据的步骤-Python爬虫抓取手机APP的传输数据
大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1.抓取APP数据包 得到超级课程表登录的地址:http://120.55 ...
最新文章
- 【web】将一个jar包更改成war包
- 看到这一幕,我甚至都想戒烟了。。 | 今日最佳
- c语言去空格换行符,关于文件操作,碰到空格就换行
- POS机移动刷卡机自适应网站源码 dedecms织梦模板
- 机器学习——对三种模式的看法
- antlr4做一个计算器
- ASP.NET Core学习——7
- iOS label显示不同颜色的字体
- Mac 有道词典 无法取词、划词
- jQuery fadeIn淡入的使用
- educoder Git进阶之合并远程分支、rebase、储藏
- ps抠图都有哪些方面,有哪些相关教程呢
- 用pandas进行数据分析实战
- 前端利用高德实时定位_web使用高德地图
- 郭德纲绝句,没有一句不让你笑的
- Android 权限被拒绝,跳转至权限设置界面
- 记录:remote: You are not allowed to push code to this project...【亲测有效】
- 泰拉瑞亚修改器服务器能用吗,泰拉瑞亚修改器使用方法详细讲解
- QTextEdit和QTextDocument(ZZ)
- Flume监控软件——Ganglia安装与部署