本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

from urllib import request

from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库

#构造头文件,模拟浏览器访问

url="http://www.jianshu.com"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}

page = request.Request(url,headers=headers)

page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody

# 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器

soup = BeautifulSoup(page_info, 'html.parser')

# 以格式化的形式打印html

#print(soup.prettify())

titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句

'''''

# 打印查找到的每一个a标签的string和文章链接

for title in titles:

print(title.string)

print("http://www.jianshu.com" + title.get('href'))

'''

#open()是读写文件的函数,with语句会自动close()已打开文件

with open(r"D:\articles.txt","w") as file: #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件

for title in titles:

file.write(title.string+'\n')

file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下:

希望本文所述对大家Python程序设计有所帮助。

基于python爬虫的论文标题_Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】...相关推荐

  1. 基于python爬虫————静态页面和动态页面爬取

    基于python爬虫----静态页面和动态页面爬取 文章目录 基于python爬虫----静态页面和动态页面爬取 1. 爬虫的原理 2. 用正则表达式匹配获取数据 3. 页面源码解析 4. 通过req ...

  2. python爬虫多久能学会-不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据...

    原标题:不踩坑的Python爬虫:如何在一个月内学会爬取大规模数据 Python爬虫为什么受欢迎 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方 ...

  3. Python爬虫《自动化学报》数据爬取与数据分析

    Python爬虫<自动化学报>数据爬取与数据分析 文章目录 Python爬虫<自动化学报>数据爬取与数据分析 前言 一.代码 二.结果展示 三.爬虫实现 1.准备 2.获取网页 ...

  4. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  5. python爬虫入门实战---------一周天气预报爬取_Python爬虫入门实战--------一周天气预报爬取【转载】【没有分析...

    Python爬虫入门实战--------一周天气预报爬取[转载][没有分析 Python爬虫入门实战--------一周天气预报爬取[转载][没有分析] 来源:https://blog.csdn.ne ...

  6. Python 爬虫 之 Selenium 模拟打开操作浏览器爬取斗鱼全部视播相关信息,并json保存信息

    Python 爬虫 之 Selenium 模拟打开操作浏览器爬取斗鱼全部视播相关信息,并json保存信息 基础: Python 爬虫 之 Selenium.webdriver 的安装,以及模拟打开操作 ...

  7. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  8. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

  9. selenium+python爬取简书文章

    页面加载逻辑 当你兴致勃勃地从网上学习了基本的爬虫知识后就像找个目标实践下,拥有大量文章的简书包含了大量的有价值信息,所以自然成为了你的选择目标,如果你尝试之后会发现并没有想象的那么简单,因为里面包含 ...

最新文章

  1. linux+bash+参数脚本名,linux – Bash中的脚本参数
  2. 网络推广下叮咚买菜已完成D轮融资,生鲜电商下一次融资又在何方?
  3. Caffe学习系列(2):数据层及参数
  4. P4770:你的名字(SAM、线段树合并)
  5. 干货分享,我是怎么寻找暴利赚钱项目的
  6. oc语言中的构造方法
  7. hdu5033 Building 单调队列
  8. mapinfo在线地图插件_利用开源软件下载地图和影像瓦片数据(修订版)
  9. 如何通过自学成为UI设计师?
  10. python小波去噪的方法_小波去噪基本概念
  11. 【PMP】PMBOK 笔记 第10章 项目沟通管理
  12. Tumblr 的架构演进过程
  13. Python数据分析(五) —— 绘制直方图
  14. python架构的抉择
  15. drill apache_大数据SQL:Apache Drill查询执行功能概述–白板演练
  16. 缺少dll文件怎么办?修复dll文件的多种方法
  17. 台式计算机系统错误,台式电脑开机蓝屏,代码是0×0000006B,怎么修复?
  18. 蓝桥杯python每日一题——圆的面积
  19. Intel RealSense(实感技术)概览
  20. [插件]_音游制作插件Koreographer(一)

热门文章

  1. 任务调度、磁盘、进程管理、PRM和YUM
  2. 5种速成数据分析方法
  3. 大数据分析平台具备什么功能特点
  4. 一个按键控制数码管的开和关_单片机是否能用一个按键控制数码管的显示图?...
  5. u 20ubuntu 安装 postfix_汽车天线安装指南
  6. node + ts读取csv文件为二维数组
  7. docker入门与实战pdf_Docker-Kubernetes-k8s微服务实战视频教程+Docker技术入门精讲课程资料分享...
  8. sqlserver201无效的许可证书_sql提示无效数字
  9. grpc python 负载均衡_Ambassador 0.52 新特性:会话亲和性、负载均衡控制、gRPC-Web
  10. Anaconda不同平台的安装方式