谷歌学术首页url爬取
小Demo
- 因为涉及到js加密,所以写了练练手
- 直接上代码
import requests
import re
import execjsurl = 'https://ac.scmor.com/'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36',
}response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
page_text = response.text
# print(page_text)# 因为需要解析出的数据不是标签信息,所以用了正则
pattern = re.compile('autourl\=\[(.*?)\]',re.S)
tag = re.findall(pattern,page_text)[0]
detail_pattern = re.compile('\"(.*?)\"')
tag_list = re.findall(detail_pattern,tag)
print(tag_list)
node = execjs.get()cxt = node.compile(open("./JsTest1.js",encoding='utf8').read())
for i in tag_list:js = 'strdecode("{0}")'.format(i)ret_url = cxt.eval(js)print(ret_url)
解析结果
谷歌学术首页url爬取相关推荐
- java网络编程---使用URL爬取歌曲
前言 最近在学习狂神老师所讲的网络编程,get到了很对新技能.今天我跟大家分享一下如何使用URL爬取歌曲 1. URL 在WWW上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Unif ...
- python从入门到放弃篇40(selenium库,lxml库,requests库,time库,构造url)爬取列表中的象棋视频
今天先把昨天的发文补上再说,昨天在搞Flask框架搭建,并且尝试批量爬取视频,遇到了一些坑,跟大家分享一下. 这次我们案例的网址是: https://haokan.baidu.com/v?vid=13 ...
- python百度搜索url爬取 图片
这里以百度搜索为案例,搜索并下载图片 import requests # python HTTP客户端库,编写爬虫和测试服务器响应数据会用到的类库 import re # 导入正则表达式模块 impo ...
- 【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)
严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途! 首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj 页面的样子是这样的: 红色圈出来的部分就是我们所要爬取的内容信息 ...
- 用python3爬取百度首页
用python3读取百度首页 代码 爬取百度首页 import urllib.request import urlliburl="http://www.baidu.com/" ht ...
- python3爬虫豆瓣_Python3 爬虫实例(三) -- 爬取豆瓣首页图片
序 前面已经完成了简单网页以及伪装浏览器的学习.下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下. 首先,豆瓣首页部分图片展示 这只是截取的一部分.下面给出,整个爬虫程序. 爬虫程序 ...
- 土拨鼠网站日记管理(分析推送二合一)】宝塔插件之自动爬取全站URL推送说明书
自动爬取全站URL推送说明书: 此功能将会针对爬取的站点进行全站URL爬取并且进行推送,爬取的每一条URL都会只推送一次,不会重复推送. 1.设置爬取的URL尽量是本服务器的站点,如果要推送别的站点可 ...
- Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?
作者 | 月小水长 责编 | 伍杏玲 2019程序员转型学什么? https://edu.csdn.net/topic/ai30?utm_source=csdn_bw 通过分页.线程池.代理池等技术, ...
- Python爬虫爬取微博评论案例详解
文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中 ...
- python爬考研_Python爬取考研必备单词
参考链接:(https://blog.csdn.net/OnlyloveCuracao/art0icle/details/80768334) 原博主的代码可能因为单词发音的音频爬取有问题,导致无法将单 ...
最新文章
- mysql 分页有数据没了_mysql分页丢数据的分析
- linux下安装mysql57_Linux——CentOS7之mysql5.7安装与配置
- map可以用结构体作为健值吗?
- Linux之grep:过滤器按照字符进行过滤 选项规定内容样式 模式规定内容
- DTCC 2020 | 阿里云梁高中:DAS基于Workload的全局自动优化实践
- 如何在面试中通过工厂模式来给自己加分?逆袭面经分享
- 《基于ArcGIS的Python编程秘笈(第2版)》——第1章 面向ArcGIS的Python语言基础
- 计算机组成与系统结构习题
- 利用diyUpload做多图片上传及预览
- 房地产管理系统的核心技术与功能
- 更改文件扩展名HTML,文件的后缀名怎么改|更改文件后缀名的方法
- vs+qt 人脸识别GUI
- Laya位图字体制作
- orange软件使用
- CSR8610 入门操作(BlueSuite 2.6.2和CSRXX_ROM_ConfigTool_3.0.64使用)
- 戴尔t3500服务器系统安装,Dell Precision T3500 工作站系统指南
- python 列表嵌套 元素全部相同
- SEO网站内部优化包含哪些内容
- 最难学的七大编程语言,VB 第一,Python垫底,看你学的排第几
- 超全万字汇总!科研论文绘图实操干货!11类Matplotlib图表,含代码