1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业。

4.提供图片或网站显示的学习进度,证明学习的过程。

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

《Python网络爬虫与信息提取》的学习笔记

首先,这是第一次使用MOOC,并参与学习了北京理工大学崇天老师的课程。这是一个非常便捷的网站,可以从中学习很多知识。

通过这一门课程的学习,我更加了解了《Python网络爬虫与信息提取》,主要学习了requests库,Beautiful Soup库等知识。其实本身的Python没有很好,有一些知识点还是没有很清楚,需要自己独立的去写完整的代码还是有所难度。老师课上有一些具体的代码,自己再去敲一遍理解个代码意思,这样自己相对的也会记住一些,没有那么的困难。因为爬虫本身就是需要在实际操作中去学习python中相关的知识,这样反复的记忆才能让我们识记并运用。爬虫分为五个基本构架:调度器,URL管理器,网页下载器,网页解析器,数据存储器。对爬虫有了比较清晰的认识,不再是对他只有一个模糊的概念。也学习到了爬取网页的过程:发送请求和获取相应,对获取的response进行想要的信息的提取,对信息进行存储。scrapy框架,它是一个快速功能强大的网络爬虫框架。HTML解析网页内容,网络爬虫,是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据,而不需要一步步人工去操纵浏览器获取。分析就是抓取之后就是对抓取的内容进行分析,你需要什么内容,就从中提炼出相关的内容来。常见的分析工具有正则表达式,BeautifulSoup,lxml等等。分析出我们需要的内容之后,接下来就是存储了。我们可以选择存入文本文件,也可以选择存入。从这一周的学习,让我了解到Python的学习是一个漫长的过程,它包含太多的知识点,对于我来说有些复杂,需要掌握的东西也很多。在这个课程中也了解网络爬虫在现今生活中的广泛运用。今天是互联网的时代,网络爬虫也成为自动获取互联网数据的一种主要方式。Python对于我们学习和工作都起到了很重要的作用,大大的降低了我们的时间,更快更好的对信息进行提取。通过这次课程的学习,使我受益匪浅。接下来我会继续对Python网络爬虫与信息提取这门课程的学习,在未来有更好的发展。

requests库的七种方法

request.request()      构造一个请求,支撑以下各方法的基础

request.get()             获取HTML网页的主要方法,对应于HTTP的GET

request.head()          获取HTML网页头信息的方法,对应于HTTP的HEAD

request.post()           向HTML网页提交POST请求的方法,对应于HTTP的POST

request.put()             向HTML网页提交PUT请求的方法,对应于HTTP的PUT

request.patch()         向HTML网页提交局部修改请求的方法,对应于HTTP的PATCH

request.delete()        向HTML网页提交删除请求的方法,对应于HTTP的DELETE

Beautiful Soup库解析器:

bs4的HTML解析器

lxml的HTML解析器

lxml的XML解析器

html5liblxml的解析器

BeautifulSoup类的基本元素:

Tag:标签

Name:标签名

Attributes:标签属性

NavigableString: 标签内非属性字符串

python 网页爬虫作业调度_第3次作业-MOOC学习笔记:Python网络爬虫与信息提取相关推荐

  1. python语言的33个保留字的基本含义_Python学习笔记——Python的33个保留字及其意义,python,pythone33,含义...

    Python学习笔记--Python的33个保留字及其意义,python,pythone33,含义 发表时间:2020-03-27 笔记走起 正文 序号 保留字 含义 1 and 用于表达式运算,逻辑 ...

  2. 唤醒手腕Python全栈工程师学习笔记(网络爬虫篇)

    唤醒手腕Python爬虫学习笔记,喜欢的同学们可以收藏下,谢谢支持. 01.基础语法知识点 字符串的分割 webString = 'www.baidu.com' print(webString.spl ...

  3. 爬虫神经网络_股市筛选和分析:在投资中使用网络爬虫,神经网络和回归分析...

    爬虫神经网络 与AI交易 (Trading with AI) Stock markets tend to react very quickly to a variety of factors such ...

  4. Python学习笔记之网络爬虫

    网络爬虫 URL格式 protocol(协议)

  5. python绘制直方图的函数_(六)pyplot基础图表函数(学习笔记)|python数据分析与展示...

    1.pyplot基础图表函数概述 2.pyplot图饼的绘制 3.pyplot直方图的绘制 4.pyplot极坐标图的绘制 5.pyplot散点图的绘制 6.单元小结 [网页链接[Python数据分析 ...

  6. python学习笔记 2 - 网络爬虫

    用python对页面进行爬取 例 1 以下是一个简单的python爬取demo,将url中的内容存储到bridge.png中: import requests import jsonif __name ...

  7. python小车行驶路线图_基于opencv-Python小车循线学习笔记

    基于opencv-Python小车循线学习笔记 加入摄像头模块,让小车实现自动循迹行驶 思路为:摄像头读取图像,进行二值化,将白色的赛道凸显出来 选择下方的一行像素,黑色为0,白色为255 找到白色值 ...

  8. python nlp 句子提取_自然语言16.1_Python自然语言处理学习笔记之信息提取步骤分块(chunking)...

    QQ:231469242 欢迎喜欢nltk朋友交流 http://www.cnblogs.com/undercurrent/p/4754944.html 一.信息提取模型 信息提取的步骤共分为五步,原 ...

  9. (学习笔记)Python3网络爬虫(三):漫画下载,动态加载、反爬虫这都不叫事!

    昨天看到了这篇文章,大有收获,通过查阅资料等方式,自己给代码添加了更多的注释,解释了其中一些函数的使用. 原文链接:https://jackcui.blog.csdn.net/article/deta ...

最新文章

  1. CVPR 2022 | 室外多模态3D目标检测(DeepFusion)
  2. Combiner合并案例
  3. SQL Server 数据库设计
  4. xib中Autolayout的使用
  5. 从一段代码的汇编看计算机的工作原理
  6. Hackbar PJ
  7. android 添加桌面快捷方式
  8. python 分组箱线图_Python数据科学实践 | 绘图模块4
  9. 啊哈算法—解救小哈(深度优先搜索)
  10. chrome浏览器打开axure原型图的方法
  11. Tungsten Fabric入门宝典丨TF组件的七种“武器”
  12. U盘格式化后容量变小了_内存丢失如何恢复?
  13. 2011年11月编程语言排行榜:Objective-C有望成为2011年年度编程语言。
  14. 华为交换机配置consol密码及vty密码
  15. 看到它,让我想起了帅出天际的精灵王子……
  16. CF 1720 D1. Xor-Subsequence (easy version) dp 1800
  17. 关于RedisInsight 创建数据库时 connection time out 连接超时的问题
  18. Remote table-valued function calls are not allowed.
  19. matlab怎么生成三维等值线图,matlab画三维等值线图
  20. Go Dumpling! 让导出数据更稳定丨TiDB 工具

热门文章

  1. Ubuntu14.04安装Matlab R2013b
  2. 清除无用工具栏:CommandbarCleaner下载
  3. 百度地图api公交路线,IE下跳转百度地图后中文变成乱码的解决办法
  4. [HDU 3555] Bomb
  5. 【Linux】字符转换命令join
  6. 不行!不能这样下去!
  7. Android基础 获取屏幕的宽与高
  8. Standard Deviation Normal Distribution
  9. 【转】Python学习路线
  10. Postman从入门到入门