python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例
以前搞偷偷摸摸的事,不对,是搞爬虫都是用urllib,不过真的是很麻烦,下面就使用requests + BeautifulSoup 爬爬简单的网页。
详细介绍都在代码中注释了,大家可以参阅。
# -*- coding: utf-8 -*- """ Created on Thu Jul 5 20:48:25 2018 @author: brave-man blog: http://www.cnblogs.com/zrmw/ python3 + anaconda(Spyder) + resquests + BeautifulSoup 这里环境用的就是昨天讲的 anaconda 下的 Spyder,非常方便,谁用谁知道 """import requests from bs4 import BeautifulSoup # from termcolor import colored# 控制台输出文本颜色控制,网络不太好,没有安装termcolor,不过在公司测试过,函数传参应该没有问题 # print(colored("abc", "red"))# 通过requests库中的get方法获取整个响应页面,存放在res中 res = requests.get("https://www.cnblogs.com/zdong0103/p/8492779.html") # (1) res.encoding = "utf-8" soup = BeautifulSoup(res.text, "html.parser") # 这时候如果打印的soup的话,会在控制台中输出整个响应页面的源代码 # print(soup) # 如果打印的是乱码,则可以在 (1) 处添加 (1) 所示代码,设置编码格式,不过有时候是不需要的。# 接下来对网页的源码进行剖析 """ 在网页中按 F12 查看网页源代码,文章标题在 class = "block_title" 里面, soup.select(".block_title") 获取的是一个列表,获取此列表的第一个元素, 所以 index = 0 , 从标签中获取文本一般使用 text 方法即可 同上,正文在 class = "blogpost-body" ...""" title = soup.select(".block_title")[0].text texts = soup.select(".blogpost-body")[0].text time = soup.select(".itemdesc span")[0].text author = soup.select("#header")[0].textprint(title, author, time, texts)
发现自己表述能力真的是渣啊,慢慢提高吧。
转载于:https://www.cnblogs.com/zrmw/p/9270898.html
python 爬虫(一) requests+BeautifulSoup 爬取简单网页代码示例相关推荐
- python 爬虫(一) requests+BeautifulSoup 爬取简单网页图片代码示例
最近学习了Python,借助各个大神的文章,自己写了以下代码,来爬取网页图片,希望可以帮助到大家. 工具是 idea #coding=utf-8 import requests from bs4 im ...
- Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引 爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集 课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
- Python爬虫:Selenium+ BeautifulSoup 爬取JS渲染的动态内容(雪球网新闻)
最近要有一个任务,要爬取https://xueqiu.com/#/cn 网页上的文章,作为后续自然语言处理的源数据. 爬取目标:下图中红色方框部分的文章内容.(需要点击每篇文章的链接才能获得文章内容) ...
- 03 Python爬虫之Requests网络爬取实战
目录 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 实例3:百度搜索关键字提交 实例4:IP地址归属地的自动查询 实例1:京东商品页面的爬取 实例1:京东商品页面的爬取 https://i ...
- Python爬虫脚本,利用Beautifulfly爬取动态网页网页(源码)
''' Created on 2019年12月23日@author: Zhangzhiwei ''' import datetime import threading import cx_Oracle ...
- python爬取图片教程-推荐|Python 爬虫系列教程一爬取批量百度图片
Python 爬虫系列教程一爬取批量百度图片https://blog.csdn.net/qq_40774175/article/details/81273198# -*- coding: utf-8 ...
- python爬虫对炒股有没有用_使用python爬虫实现网络股票信息爬取的demo
实例如下所示: import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url ...
最新文章
- vista——最恰当的中文译名应该是“喂死它”
- 自定义元素探秘及构建可复用组件最佳实践
- shopify 开发_播客第57集:从Shopify的作家到开发人员,与Adam Hollett一起
- figma应用——面向用户的咖啡点单APP的设计过程记录
- WCF走你~一个简单的例子,根据用户ID,从用户模块(用户服务器)获得实体
- FIN7 正在转向密码重置和软件供应链攻击
- English trip V1 - 20.Look at me 看着我 Teacher:Solo Key: 声调(英语默认就声调[rising]和降调[falling]两种)...
- 盘点八个程序员必须知道的代码编辑器
- python二级考试选择题公共基础知识_计算机二级选择题(公共基础知识)
- c语言蛮力法实现背包问题
- OpenCV单目平面测距
- 在哪里设置自动锁定计算机,教你电脑锁屏怎么设置,让电脑自动锁屏
- 服务器宽带估算及选择
- linux系统的服务
- 铁蛋白-AHLL纳米颗粒|人表皮生长因子-铁蛋白重链亚基纳米粒子(EGF-5Cys-FTH1)|铁蛋白颗粒包载氯霉素Chloramphenicol-Ferritin
- ubuntu下点云库pcl错误问题集
- git基本操作及gitee仓库代码的拉取与上传
- EMV规范(一)——背景介绍
- git 拉取远端分支
- 论文总结(三)-- 超分辨算法基础与综述
热门文章
- workbench求解闭合状态尼龙槽环
- 好用的import: Vite的Glob 导入
- Python高级编专题 - 类的创建与销毁
- 2017c语言自学贴吧,【图片】17年1.9开启我的C语言学习之路—小白篇【c语言吧】_百度贴吧...
- 华为 台积电 高通申请_台积电/高通纷纷力挺华为!全面放下姿态:将不再断供华为芯片产品...
- 1. C++基础知识学习及其深入理解(面向对象部分还没学) -- 课程1完成
- 计算机的用户软件在哪,电脑自带录屏软件在哪?这里教你怎么找
- samba for linux下载,Samba 4.4.3 SMB for Linux 发布下载
- [Lydsy1805月赛]对称数 BZOJ5361
- ADO获取表的所有字段名