个人公众号 yk 坤帝
后台回复 python金融基础 获取源代码

1. 爬虫基础1 - 网页结构基础

1.1 浏览器F12的运用,以及如何看网页源代码
首先安装谷歌浏览器:从官网https://www.google.cn/chrome/下载
当然用别的浏览器,比如火狐浏览器等都是可以。

按F12(有的电脑要同时按住左下角的Fn键)能弹出如下图的内容即可。

百度搜索“阿里巴巴”,然后按一下F12,弹出如下页面:

这个按住F12弹出来的东西叫做开发者工具,是进行数据挖掘的利器,对于爬虫来说,只需要会用下图的这两个按钮即可。


(1)选择按钮 :

点击一下它,发现它会变成蓝色,然后把鼠标在页面上移动移动,会发现页面上的颜色机会发生改变。如下一页图所示,当移动鼠标的时候,会发现界面上的颜色会发生变化,并且Elements里的内容就会随之发生变化。


如果没看到中文,点击下下图那个箭头把内容展开即可。


(2) Elements元素按钮:

Elements元素按钮里面的内容可以理解为就是网站的源码,最后爬虫爬到的内容大致就是长这个样子的。在下图阿里那个地方鼠标双击俩下,这两个字变成可编辑的格式。


可以把它改成“工作”,然后同样双击下面一行的“baba_上”使它变成可编辑的格式,把“baba_上”中的“baba”删掉,可以看到第一个的标题变成下图了:

还可以用同样的操作,先选
择选择按钮,点击下面的
阿里股价:
用同样的方法可以在
Elements里将这个数字
改成所想改的数据,
如下图所示:
1.2 查看网页源码的另外一个方式

另外一个获取网页源码的方式是在网页上右击选择“查看网页源代码


1.3 网址构成及http与https协议

如果在Python里输入

www.baidu.com

它是不认识的,应为他会以为是http://,我们得把“https://”加上才行,如下面所示。


其实最简单的办法,就是直接浏览器访问该网址,然后把链接复制下来就行。

1.4 网页结构初步了解

结构其实很简单,就是一个大框套着一个小框,一个小框再套着一个小小框,一般文本内容都是在最后的小框里。

个人公众号 yk 坤帝
后台回复 python金融基础 获取源代码

系统学习金融数据挖掘 之爬虫技术基础(附源代码)(网页结构基础)相关推荐

  1. 实际的网络爬虫系统通常是几种爬虫技术相结合实现的。

    分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler).聚焦网络爬虫(Focused Web Crawler).增量式网 ...

  2. python 网页版笔记_系统学习下python网络爬虫 笔记一

    系统学习下python网络爬虫的知识 1.爬虫的定义 Web Spider,把互联网定义为一个蜘蛛网,网络蜘蛛通过网页的链接地址来寻找网页. 具体过程:从网站的某一个网页(通常是首页)开始,读取网页的 ...

  3. python爬虫数据分析系统_2小时精通python爬虫技术 带你打造Bug系统数据抽取及统计分析...

    在测试工作中,对缺陷进行统计分析是非常重要的一个环节.通过对bug的实时统计分析可以及时有效的对测试工作的重点进行调整.比如通过"二八原则"-发现bug越多的模块,隐藏的bug也会 ...

  4. 全网最全python爬虫精进(体系学习)学完可就业(附源代码)

    之前我们讨论了一下请求和响应,接下来几天我们都会讨论对数据的处理. 接触了爬虫这个领域,大家肯定都听过正则表达式的鼎鼎大名,不过今天我们暂时不谈正则,我们先来讨论一下数据的简单处理,为之后的正则表达式 ...

  5. 使用爬虫时,怎么分析网页结构

    爬虫,运行的本质就是模拟人访问网页,只不过不需要通过网页界面进行操作. 因此,要写出爬虫程序,我们就需要了解网页的结构. 以chrome为例,我们打开并分析一个网页的结构,这个网页是爱词霸的翻译界面, ...

  6. 安卓TV开发(八) 移动智能终端多媒体爬虫技术 获取加载网页视频源

    转载请标明出处:http://blog.csdn.net/sk719887916/article/details/40049137,作者:skay 从上一篇学习中,学习了多媒体技术中的怎么去用josu ...

  7. 移动智能终端多媒体爬虫技术 获取加载网页视频源

    转载请标明出处:http://blog.csdn.net/sk719887916/article/details/40049137,作者:skay 从上一篇学习中,学习了多媒体技术中的怎么去用josu ...

  8. 【03】基础:同种网页结构套用采集规则

    请先安装爬虫软件.爬虫软件安装 经过上个教程小试牛刀之后就可以尝到获得数据的喜悦了. 回顾一下,上个教程主要了解了MS谋数台的工作职责-定义采集规则,测试规则无误之后点击MS谋数台右上角的" ...

  9. JSP双语字典查询系统myeclipse开发sql数据库bs框架java编程web网页结构

    一.源码特点      JSP 双语字典查询系统是一套完善的web设计系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发.开发环境为 TOMCAT ...

最新文章

  1. Jenkins 快速上手指南
  2. laravel 登录失效
  3. 模板初步——定义模板
  4. 获取返回值作为变量_解决多线程间共享变量线程安全问题的大杀器——ThreadLocal...
  5. Servlet第二篇【Servlet调用图、Servlet细节、ServletConfig、ServletContext】
  6. 图表展示结果开发(一)
  7. java项目部署运行
  8. 2017-2018-1 20155220 《信息安全系统设计基础》第十四周学习总结
  9. Java线程池ThreadPoolExecutor使用与解析
  10. MVC中验证码的生成
  11. 向视图中插入的数据能进入到基本表中去吗?_数据库调优,调的是什么及常见手法...
  12. 于仕琪老师的人脸检测库
  13. 英文数字验证码识别包
  14. C#反编译工具:.NET Reflector导出代码
  15. JAVA架构师实战第二章 HTMLCSSJAVASCRIPT
  16. 计算机c盘无法扩展,C盘不够大怎么办 怎么扩展C盘容量合并硬盘分区
  17. 01.Windows系统安装
  18. 我的hihocoder存代码
  19. 群晖NAS搭建web服务器并公网可访问 1-4
  20. 聚类评估算法-轮廓系数(Silhouette Coefficient )

热门文章

  1. Java实现一个订餐外卖系统
  2. JAVA Calendar详解
  3. 程序员学英语 英语语法框架 10种词性 9种成分 8种句型
  4. 微信小程序实现直播间点赞飘心效果的示例代码
  5. Unity小技巧——Inspector中插入数组元素
  6. 国仁网络资讯:视频号怎么剪辑制作视频;都有哪些剪辑软件好用。
  7. 新人小白如何快速适应职场 怎么更好学习技术
  8. 如何搭建一套在线网校系统?需要哪些功能?
  9. k8s(八):核心技术helm
  10. 单元测试中使用Mock对象