python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

跟我学习Python爬虫系列开始啦。带你简单快速高效学习Python爬虫。

一、快速体验一个简单爬虫

以抓取简书首页文章标题和链接为例

简书首页

就是以上红色框内文章的标签，和这个标题对应的url链接。当然首页还包括其他数据，如文章作者，文章评论数，点赞数。这些在一起，称为结构化数据。我们先从简单的做起，先体验一下Python之简单，之快捷。

1）环境准备

当然前提是你在机器上装好了Python环境，初步掌握和了解Python语法。如果还没有装好Python环境，对Python语言法不了解，可以先看《然学科技 Python基础系列》文章：https://www.jianshu.com/nb/20496406

2）安装相应包

快速入门我们使用的是requests包和BeautifulSoup包。简单解释一下，requests功能强大，代码少，封装了网络请求request(发起请求)和response(网络响应)，request就像打开浏览器地址栏输入你想要访问的网站，浏览器中马上就可以看到内容一样(response)。

爬虫可以抓到大量数据（结构化的数据），存到数据库中（或excel, csv文件），再进行清洗整理，进行其他工作，如数据分析等。数据抓取也是数据分析前提和基础。

安装requests

pip install requests

安装beautifulsoup4

pip install beautifulsoup4

可以查看一下你安装了哪些包

pip list

3）代码：

# _*_ coding:utf-8 _*_

import requests

from bs4 import BeautifulSoup

URL='http://www.jianshu.com'

def simple_crawel():

html = requests.get(URL).content

soup = BeautifulSoup(html, 'lxml')

titles = soup.find_all('a',class_="title")

for t in titles:

print t.text+' -->>> '+'https://www.jianshu.com'+t['href']

if __name__ == '__main__':

simple_crawel()

运行这个文件：

python demo.py

结果：

抓取到的数据

代码解析：

html = requests.get(URL).content

发起一个请求，获到到页面的内容（文本），对的就是一行代码就抓取到网页的全部内容。下一步就是要对页面进行解析。

titles = soup.find_all('a',class_="title")

这行代码表示，寻找页面上所有class属性为title的a标签，就是文章标题所对应的标签。怎样才能找到文章标题对就是的哪个标题呢？很简单，在chrome浏览器中右键"检查”中查看就知道。看下图：

文章标题所对应的标签

然后再循环遍历，就得到每一个文章标题的a标签对象，在循环中取出文章标题的内容'text'和链接href就行了。

就这么简单，10行代码就抓取到首页热门文章的标题和URL打印在屏幕上。

二、学习爬虫需要的相关知识

代码很少，涉及到的知识点却很多。如果想要入门系统学习Python爬虫需要哪些知识呢？

Python语言基础

Python爬虫相关库

HTTP请求响应模式

HTML基础（HTML+CSS）

数据库基础

以上内容，都会在《跟我学Python爬虫》逐步讲。也可以把Python爬虫作为Python语言学习的起点，来了解和学习这门"人工智能的第一语言”，进而打开爬虫、数据分析、数据可视化、深度学习、人工智能的大门。

python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫相关推荐

爬虫python代码-Python爬虫入门(01) -- 10行代码实现一个爬虫
跟我学习Python爬虫系列开始啦.带你简单快速高效学习Python爬虫. 一.快速体验一个简单爬虫以抓取简书首页文章标题和链接为例简书首页就是以上红色框内文章的标签,和这个标题对应的url链接 ...
python加密敏感信息_仅需10行代码，使用python加密用户敏感数据
原标题:仅需10行代码,使用python加密用户敏感数据数据分析师必须要遵守的一个规则就是数据保密,但在跨部门沟通的时候,难免会有数据泄露的情况,所以,对于用户的姓名.手机号.地址等敏感信息,一般需 ...
Java学习的快速入门：10行代码学JQuery
生活在快速发展时代的我们,如果不提速可能稍不留神就被时代淘汰了.快节奏的时代成就了快餐,亦成就了速成教育.尤其是身处互联网行业的我们,更新换代的速度更是迅速,快速掌握一门技术已经成为潮流趋势.怎样才能 ...
Python+moviepy使用manual_tracking和headblur函数10行代码实现视频人脸追踪打马赛克
☞ ░ 前往老猿Python博文目录 ░ 一.背景知识 1.1.headblur简介追踪人脸打马赛克需要使用headblur函数. 调用语法: headblur(clip,fx,fy,r_zone, ...
10 行代码提取复杂 Excel 数据
[摘要] 把 Excel 文件导入关系数据库是数据分析业务中经常要做的事情,但许多 Excel 文件的格式并不规整,需要事先将其中的数据结构化后再用 SQL 语句写入数据库.而一般情况下,结构化的工作 ...
10行代码集2000张美女图，Python爬虫120例，再上征途
<Python 爬虫 120 例>专栏简介 Python 爬虫 100 例教程,编写自 2018-07-30 到 2020-10-28,将近 800 天,至今依旧是 Python 爬虫领域 ...
python爬虫爬取新闻实战01：小白如何迅速学会爬虫爬取上千条新闻
爬虫爬取新闻实战01:小白如何迅速学会爬虫爬取千条新闻文章目录爬虫爬取新闻实战01:小白如何迅速学会爬虫爬取千条新闻 1.前言 2 .爬虫原理介绍 2.1.图片爬虫 2.2 文字爬虫 3.用八爪鱼 ...
Python编程学习第一篇——Python零基础快速入门（三）——10行代码画朵花
上一节讲了一些Python编程的一些基础知识,从这节开始,我们将跟随一些实际的小程序示例,进入正式的编程学习. 下面我们就来介绍一下今天这个只有10行代码的小程序,先来看一下它的运行效果, ...
python 网页自动处理_推荐一款 10 行 Python 代码实现网页自动化工具
各种各样的网站在我们日常工作和学习中占据着举足轻重的地位,学习.影音娱乐.查询资料.协同办公,越来越多的任务都被迁移到浏览器因此,网页也蕴含着很多有价值.我们能够用得到的资源例如,数据.歌曲.影视 ...

python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫

python爬虫代码-Python爬虫入门(01) -- 10行代码实现一个爬虫相关推荐

最新文章

热门文章