python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

以前搞偷偷摸摸的事，不对，是搞爬虫都是用urllib，不过真的是很麻烦，下面就使用requests + BeautifulSoup 爬爬简单的网页。

详细介绍都在代码中注释了，大家可以参阅。

# -*- coding: utf-8 -*-
"""
Created on Thu Jul  5 20:48:25 2018
@author: brave-man
blog: http://www.cnblogs.com/zrmw/
python3 + anaconda（Spyder） + resquests + BeautifulSoup
这里环境用的就是昨天讲的 anaconda 下的 Spyder，非常方便，谁用谁知道
"""import requests
from bs4 import BeautifulSoup
# from termcolor import colored# 控制台输出文本颜色控制，网络不太好，没有安装termcolor，不过在公司测试过，函数传参应该没有问题
# print(colored("abc", "red"))# 通过requests库中的get方法获取整个响应页面，存放在res中
res = requests.get("https://www.cnblogs.com/zdong0103/p/8492779.html")
# (1) res.encoding = "utf-8"
soup = BeautifulSoup(res.text, "html.parser")
# 这时候如果打印的soup的话，会在控制台中输出整个响应页面的源代码
# print(soup)
# 如果打印的是乱码，则可以在 (1) 处添加 (1) 所示代码，设置编码格式，不过有时候是不需要的。# 接下来对网页的源码进行剖析
""" 在网页中按 F12 查看网页源代码，文章标题在 class = "block_title" 里面,
soup.select(".block_title") 获取的是一个列表，获取此列表的第一个元素，
所以 index = 0 ， 从标签中获取文本一般使用 text 方法即可
同上，正文在 class = "blogpost-body"
..."""
title = soup.select(".block_title")[0].text
texts = soup.select(".blogpost-body")[0].text
time = soup.select(".itemdesc span")[0].text
author = soup.select("#header")[0].textprint(title, author, time, texts)

发现自己表述能力真的是渣啊，慢慢提高吧。

转载于:https://www.cnblogs.com/zrmw/p/9270898.html

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例相关推荐

python 爬虫（一） requests+BeautifulSoup 爬取简单网页图片代码示例
最近学习了Python,借助各个大神的文章,自己写了以下代码,来爬取网页图片,希望可以帮助到大家. 工具是 idea #coding=utf-8 import requests from bs4 im ...
Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫：Selenium+ BeautifulSoup 爬取JS渲染的动态内容（雪球网新闻）
最近要有一个任务,要爬取https://xueqiu.com/#/cn 网页上的文章,作为后续自然语言处理的源数据. 爬取目标:下图中红色方框部分的文章内容.(需要点击每篇文章的链接才能获得文章内容) ...
03 Python爬虫之Requests网络爬取实战
目录实例1:京东商品页面的爬取实例2:亚马逊商品页面的爬取实例3:百度搜索关键字提交实例4:IP地址归属地的自动查询实例1:京东商品页面的爬取实例1:京东商品页面的爬取 https://i ...
Python爬虫脚本,利用Beautifulfly爬取动态网页网页(源码)
''' Created on 2019年12月23日@author: Zhangzhiwei ''' import datetime import threading import cx_Oracle ...
python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例

python 爬虫（一） requests+BeautifulSoup 爬取简单网页代码示例相关推荐

最新文章

热门文章