在知乎上有一位同学提出的问题:用Python爬网页需要了解什么背景知识,恰好我对爬虫有所了解,所以昨天晚上做了回答,今天放到公众号上面希望对大家有所帮助,如有帮助欢迎转发。

文中涉及到一些教程链接在本篇文章无法打开,可以点击阅读原文查看我在知乎上的原回答,也欢迎大家给我的回答点赞。

要学会使用Python爬取网页信息无外乎以下几点内容:

1、要会Python
2、知道网页信息如何呈现
3、了解网页信息如何产生
4、学会如何提取网页信息

第一步Python是工具,所以你必须熟练掌握它,要掌握到什么程度呢?如果你只想写一写简单的爬虫,不要炫技不考虑爬虫效率,你只需要掌握:

  • 数据类型和变量

  • 字符串和编码

  • 使用list和tuple

  • 条件判断、循环

  • 使用dict和set

你甚至不需要掌握函数、异步、多线程、多进程,当然如果想要提高自己小爬虫的爬虫效率,提高数据的精确性,那么记住最好的方式是去系统的学习一遍Python,去哪儿学习?Python教程

假设你已经熟悉了最基础的Python知识,那么进入第二步:知道网页信息如何呈现?你首先要知道所需要抓取的数据是怎样的呈现的,就像是你想要学做一幅画,在开始之前你要知道这幅画是用什么画出来的,铅笔还是水彩笔...等等,可能种类是多样的,但是放到网页信息来说这儿只有两种呈现方式:
1、HTML (HTML 简介)
2、JSON  (JSON 简介)
HTML是用来描述网页的一种语言
JSON是一种轻量级的数据交换格式

假设你现在知道了数据是由HTML和JSON呈现出来的,那么我们紧接着第三步:数据怎么来?数据当然是从服务器反馈给你的,为什么要反馈给你?因为你发出了请求。

“Hi~ ,服务器我要这个资源”
“正在传输中...”
“已经收到HTML或者JSON格式的数据”

这是什么请求?要搞清楚这一点你需要了解一下http的基础知识,更加精确来说你需要去了解GET和POST是什么,区别是什么。也许你可以看看这个:浅谈HTTP中Get与Post的区别 - hyddd - 博客园

很高兴你使用的是Python,那么你只需要去掌握好快速上手 - Requests 2.10.0 文档,requests可以帮你模拟发出GET和POST请求,这真是太棒了。

饭菜已经备好,两菜一汤美味佳肴,下面就是好好享受了。现在我们已经拿到了数据,我们需要在这些错乱的数据中提取我们需要的数据,这时候我们有两个选择。

第一招:万能钥匙

Python正则表达式指南 ,再大再乱的内容,哪怕是大海捞针,只要告诉我这个针的样子我都能从茫茫大海中捞出来,强大的正则表达式是你提取数据的不二之选。

第二招:笑里藏刀

Beautiful Soup 4.2.0 文档,或许我们有更好的选择,我们把原始数据和我们想要的数据的样子扔个这个Beautifulsoup,然后让它帮我们去寻找,这也是一个不错的方案,但是论灵活性,第二招还是略逊于第一招。

第三招:双剑合璧

最厉害的招式莫过于结合第一招和第二招了,打破天下无敌手。

基础知识我都会,可是我还是写不了一个爬虫啊!

客观别急,这还没完。

以下这些项目,你拿来学习学习练练手。
两个教学项目你值得拥有:

  • 03. 豆瓣电影TOP250

  • 04. 另一种抓取方式

还不够?这儿有很多:

  • 知乎--你需要这些:Python3.x爬虫学习资料整理

  • 如何学习Python爬虫[入门篇]? - 知乎专栏

  • 知乎--Python学习路径及练手项目合集

用Python爬网页需要了解什么背景知识相关推荐

  1. 网页版python叫什么-用Python爬网页需要了解什么背景知识?

    要学会使用Python爬取网页信息无外乎以下几点内容: 1.要会Python 2.知道网页信息如何呈现 3.了解网页信息如何产生 4.学会如何提取网页信息 第一步Python是工具,所以你必须熟练掌握 ...

  2. python快速爬虫视频_“python怎么快速爬虫视频“python 爬网页视频教程

    用python怎样爬网页 # coding:utf8 import cookielib import urllib2 url = "http://blog.uouo123.com" ...

  3. mac如何用python爬网页数据_Mac——利用Python进行网页爬取

    Mac--利用Python进行网页爬取 目标:利用Python爬取网页中的指定内容,例如,爬取百度百科网页中四川省的别名.html 输出:四川省的别名为:川.蜀.天府之国python 我的经验,网页爬 ...

  4. python爬网页统计数据_Python爬取阿拉丁统计信息过程图解

    背景 目前项目在移动端上,首推使用微信小程序.各项目的小程序访问数据有必要进行采集入库,方便后续做统计分析.虽然阿拉丁后台也提供了趋势分析等功能,但一个个的获取数据做数据分析是很痛苦的事情.通过将数据 ...

  5. python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?

    原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...

  6. python爬网页文字_怎么用python爬取网页文字?

    用Python进行爬取网页文字的代码:#!/usr/bin/python # -*- coding: UTF-8 -*- import requests import re # 下载一个网页 url  ...

  7. python爬网页源码_python爬虫爬取网页的内容和网页源码不同?

    可以看到这里id为k_total的元素值不同,爬出来是1,网页源码是55. 附还未完成的代码:import requests from bs4 import BeautifulSoup import ...

  8. python 爬网页 发布wordpress 包含图片_使用python批量插入wordpress-从理清表结构开始...

    python or php建站? 说实话,php能看懂,写的话就再需要熟悉一下语法.python建站需要从头开始.包括模板.cms.都没有php下的wordpress多.插件上也是wordpress有 ...

  9. python 爬网页通知_用Python实现一个爬取XX大学电费通知的小脚本

    内容简要 1分析网站 2简单爬取 3进阶自定义爬取 4保存进数据库 学校基础设施太差,宿舍电量过低提醒虽然贴在楼下,但是作为低头一族,经常忘记看提醒导致宿舍酣战时突然黑屏,为了避免这种尴尬的场景以及强 ...

最新文章

  1. mybaits二十八:逆向工程
  2. 实验五 输入输出练习_JAVA
  3. cacti监控添加thold插件
  4. Mantle For iOS
  5. 每天备份NAS上的www目录到一块单独的硬盘上
  6. SpringMVC——架构,搭建,SSM搭建,POST请求乱码问题,参数转换器
  7. pandas 调用mysql函数_pandas的连接函数concat()函数的具体使用方法
  8. 网页嵌入暴风影音播放插件
  9. 最大功率点跟踪测试软件,最大功率点跟踪(MPPT)
  10. BLE蓝牙模块NRF518/NRF281/NRF528/NRF284芯片方案对比
  11. 多媒体信息发布系统源码
  12. 如何用MATLAB加速,使用MATLAB加速C/C++算法开发
  13. Phyton学习笔记
  14. ipad iphone开发_如何在iPhone或iPad上删除电子邮件
  15. 更新驱动后重启黑屏且进不了bios时的一个解决办法
  16. Android 12 预览版发布,64g 手机用户哭了
  17. 如何插入文献及交叉引用
  18. 《我想进大厂》之kafka夺命连环11问
  19. 利用css做三线表格,如何快速制作三线表格式数据
  20. 比较传统数据与大数据

热门文章

  1. 【OpenCV3】cv::Mat中最值和均值的求解
  2. JAVAspringboot微服务b2b Spring MVC+mybatis+spring cloud+spring boot+spring security
  3. spring aop 注入源码解析 1
  4. python数据结构与算法(2)
  5. 如何在Hadoop上运行TensorFlow【部署】
  6. 团队项目个人进展——Day08
  7. git 客户端查看不同分支的文件
  8. [Android Pro] 利用tcpdump和wireshark对android网络请求进行分析
  9. Android开发 asmack断线收不到通知的BUG解决
  10. SAP HANA中创建与时间相关的数据及Time Attribute View(Gregorian)