OpenAccessLibrary 网站简单爬取

目标

目标网站：Open Access Library
地址：https://www.oalib.com/
目标爬取内容
https://www.oalib.com/journal/3174/1 岩石力学与工程学报内容

代码

import requests
import time
from scrapy import Selectorclass OalibSpider:"""1、构造分页的urlhttps://www.oalib.com/journal/3174/1https://www.oalib.com/journal/3174/22、抓取每一个分页中论文的url3、抓取每一篇论文，解析论文内容"""def __init__(self):self.page_urls = ['https://www.oalib.com/journal/3174/{}'.format(i) for i in range(1,5)]def parse_page(self, page_url):"""解析每一个分页，获取当前分页中论文的url:param page_url::return:"""resp = requests.get(page_url)root = Selector(response=resp)art_urls = root.xpath('//div[@class="paperlist"]/h4//a/@href').getall()# //www.oalib.com/paper/1484325  处理为-- > https://www.oalib.com/paper/1484325art_urls = ['https:'+line for line in art_urls]return art_urlsdef parse_article(self, art_url):"""解析论文，获取所需要的数据"""resp = requests.get(art_url)resp.encoding = 'UTF-8'root = Selector(response=resp)title = root.xpath('//div[@class="contents"]/h1/text()').get()#print('标题', title)authors = root.xpath('//div[@id="author"]//text()').getall()authors = [line.strip()+' ' for line in authors]authors = ''.join(authors)#print('作者', authors)keyword = root.xpath('//p[@class="keyword"]/a//text()').getall()keyword = [line.strip()+' ' for line in keyword]keyword = ''.join(keyword)#print('关键词', keyword)content = root.xpath('//div[@class="contents"]/span/div//text()').get()#print('内容 ',content)return title, authors, keyword, contentdef save(self, title, authors, keyword, content):with open('岩石力学与工程学报.txt', 'a', encoding='utf8') as writer:s = '标题:{}\n作者:{}\n关键字:{}\n\n{}\n\n\n\n'.format(title, authors, keyword, content)writer.write(s)def run(self):for page_url in self.page_urls:art_urls = self.parse_page(page_url)# 睡眠1秒钟#time.sleep(1)for art_url in art_urls:title, authors, keyword, content = self.parse_article(art_url)print('岩石力学与工程学报论文', art_url)self.save(title, authors, keyword, content)spider = OalibSpider()
#spider.parse_page('https://www.oalib.com/journal/3174/1')
#spider.parse_article("https://www.oalib.com/paper/1484955")
spider.run()

爬取内容：

标题:TEST STUDY OF IMPACT FAILURE OF ROCK SUBJECTED TO ONE- DIMENSIONAL COUPLED STATIC AND DYNAMIC LOADS
作者:ZHAO J , LI Xibing , GONG Fengqiang , ZHAO J , GAO Ke , YIN Tubing , 李夕兵 , 宫凤强 , 高科 , 尹土兵
关键字:rock mechanics rock materials coupled static and dynamic loads dynamic strength absorption energy 岩石力学 岩石材料 动静组合加载 动态强度 吸收能 利用研制的岩石动静组合加载SHPB试验装置，系统研究岩石在一维动静组合加载下的冲击破坏特性。首先按照一维应力波传播理论，对动静组合加载的试验原理进行理论论证。试验过程中预先在轴向施加不同载荷，按照静载强度的20%，30%，40%，70%，80%和90%等6个系列进行，然后沿轴向进行冲击加载，考察岩石的临界破坏承载强度。研究结果表明：在临界破坏的情况下，动态冲击的应力–应变曲线(包括常规冲击和动静组合加载)最后都会出现总应变减小的现象，这是由于冲击过程中岩石内部储存弹性能释放所致。在轴向静压较小时，岩石的组合加载应力–应变曲线跟常规的冲击试验曲线类似；轴压较大时，岩石的组合加载应力–应变曲线没有初始的近似线弹性段，直接从非线性段开始。随着轴向静压的增大，岩石的抗冲击强度呈现出先增大后减小的趋势，大约在静载强度60%时，抗冲击强度达到最大值。在入射能较小时，岩石吸收的能量会缓慢增加，在入射能较高时，岩石吸能会快速增加。常规冲击下岩石的临界破坏模式为劈裂形式，动静组合加载下呈现压剪形式。标题:STUDY OF PREDICTION MODEL FOR TRIANGULAR WAVE LOADING SECTION DEFORMATION RATE OF YICHANG SANDSTONE
作者:刘杰 , 李建林 , 邓华锋 , 张超峰 , 李映霞
关键字:rock mechanics Yichang sandstone triangular wave loading section lag time segment apparent elastic modulus deformation rate 岩石力学 宜昌砂岩 三角波加载段 滞后时间段 表观弹性模量 变形速率 以RMT–150C岩土力学试验系统为试验平台，以宜昌砂岩为研究对象，开展三角波加载段变形速率预测模型的研究。将加载过程分为滞后时间段和非滞后时间段，建立分类标准。鉴于在滞后时间段中，可能出现 或 的现象，提出表观弹性模量的概念。通过对同一岩样在不破坏情况下进行不同波形不同频率的轴向力加载试验成果分析，确定表观弹性模量和即时垂向力的线性关系，并给出相关参数的物理意义。在此基础上，首先建立非滞后时间段三角波加载段变形速率预测模型，结合加载模式和相关参数给出算例，同时根据试验数据，给出滞后时间段的预测模型。对比研究发现，计算模型的预测变形速率和应力–应变曲线与实测值精确吻合，表明预测模型的合理性。

OpenAccessLibrary 网站简单爬取相关推荐

爬虫实战--简单爬取小说网站的小说（面对过程）
本篇博文为简单爬取小说网站的小说代码分为三种编程思想,面对过程,面对函数,面对对象,本篇为第一种,也是最简单的一种.面对过程即已过程为中心的编程思想.这里我们把爬取的详细分为以下几个步骤: 1.下载小 ...
Scrapy笔记十二：简单爬取苏宁书籍网站
文章目录简单爬取苏宁书籍网站参考网址: 整个爬取过程思路: 未解决的问题: 代码如下: 简单爬取苏宁书籍网站参考网址: 网址1:https://book.suning.com/ 网址2:http ...
python简单网站爬虫-爬取北京7天最高、最低气温
python简单网站爬虫-爬取北京7天最高.最低气温前置操作: 1.待爬取网站: 北京天气的网址: http://www.weather.com.cn/weather1d/101010100.sht ...
Python爬虫——简单爬取（从网站上爬取一本小说）
从笔下文学网站爬取一本名为<剑来>的小说,作者为烽火戏诸侯网站网址如下:https://www.bxwxorg.com/ ①通过查看网页源码找规律(在此之前请弄清楚网站允许爬取的部分,就 ...
python爬取豆瓣影评生成词云的课程设计报告_简单爬取《小丑》电影豆瓣短评生成词云...
导语在前段时间看了杰昆菲尼克斯的小丑电影,心里很好奇大部分观众看完这部电影之后对此有什么评价,然后看了看豆瓣短评之后,觉得通过python把短评中出现最多的单词提取出来,做成一张词云,看看这部电影给 ...
Scrapy学习之第一个简单爬取小程序
1.首先,先安装scrapy模块,使用命令:pip install scrapy,安装如果出现error: Microsoft Visual C++ 14.0 is required错误的话可参考文章 ...
爬虫实战：链家租房数据爬取，实习僧网站数据爬取
前面已经进行了爬虫基础部分的学习,于是自己也尝试爬了一些网站数据,用的策略都是比较简单,可能有些因素没有考虑到,但是也爬取到了一定的数据,下面介绍两个爬过的案例. 爬虫实战链家网站爬取实习僧网站爬 ...
基于python的数据爬取与分析_基于Python的网站数据爬取与分析的技术实现策略
欧阳元东摘要:Python为网页数据爬取和数据分析提供了很多工具包.基于Python的BeautifulSoup可以快速高效地爬取网站数据,Pandas工具能方便灵活地清洗分析数据,调用Python ...
（55）-- 简单爬取人人网个人首页信息
# 简单爬取人人网个人首页信息 from urllib import requestbase_url = 'http://www.renren.com/964943656' headers = {&q ...
python爬虫下载小说_用PYTHON爬虫简单爬取网络小说
用PYTHON爬虫简单爬取网络小说. 这里是17K小说网上,随便找了一本小说,名字是<千万大奖>. 里面主要是三个函数: 1.get_download_url() 用于获取该小说的所有章节 ...

OpenAccessLibrary 网站简单爬取

目标

代码

OpenAccessLibrary 网站简单爬取相关推荐

最新文章

热门文章