小Demo

  • 因为涉及到js加密,所以写了练练手
  • 直接上代码
import requests
import re
import execjsurl = 'https://ac.scmor.com/'headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36',
}response = requests.get(url=url,headers=headers)
response.encoding = 'utf-8'
page_text = response.text
# print(page_text)# 因为需要解析出的数据不是标签信息,所以用了正则
pattern = re.compile('autourl\=\[(.*?)\]',re.S)
tag = re.findall(pattern,page_text)[0]
detail_pattern = re.compile('\"(.*?)\"')
tag_list = re.findall(detail_pattern,tag)
print(tag_list)
node = execjs.get()cxt = node.compile(open("./JsTest1.js",encoding='utf8').read())
for i in tag_list:js = 'strdecode("{0}")'.format(i)ret_url = cxt.eval(js)print(ret_url)

解析结果

谷歌学术首页url爬取相关推荐

  1. java网络编程---使用URL爬取歌曲

    前言 最近在学习狂神老师所讲的网络编程,get到了很对新技能.今天我跟大家分享一下如何使用URL爬取歌曲 1. URL 在WWW上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Unif ...

  2. python从入门到放弃篇40(selenium库,lxml库,requests库,time库,构造url)爬取列表中的象棋视频

    今天先把昨天的发文补上再说,昨天在搞Flask框架搭建,并且尝试批量爬取视频,遇到了一些坑,跟大家分享一下. 这次我们案例的网址是: https://haokan.baidu.com/v?vid=13 ...

  3. python百度搜索url爬取 图片

    这里以百度搜索为案例,搜索并下载图片 import requests # python HTTP客户端库,编写爬虫和测试服务器响应数据会用到的类库 import re # 导入正则表达式模块 impo ...

  4. 【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)

    严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途! 首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj 页面的样子是这样的: 红色圈出来的部分就是我们所要爬取的内容信息 ...

  5. 用python3爬取百度首页

    用python3读取百度首页 代码 爬取百度首页 import urllib.request import urlliburl="http://www.baidu.com/" ht ...

  6. python3爬虫豆瓣_Python3 爬虫实例(三) -- 爬取豆瓣首页图片

    序 前面已经完成了简单网页以及伪装浏览器的学习.下面,实现对豆瓣首页所有图片爬取程序,把图片保存到本地一个路径下. 首先,豆瓣首页部分图片展示 这只是截取的一部分.下面给出,整个爬虫程序. 爬虫程序 ...

  7. 土拨鼠网站日记管理(分析推送二合一)】宝塔插件之自动爬取全站URL推送说明书

    自动爬取全站URL推送说明书: 此功能将会针对爬取的站点进行全站URL爬取并且进行推送,爬取的每一条URL都会只推送一次,不会重复推送. 1.设置爬取的URL尽量是本服务器的站点,如果要推送别的站点可 ...

  8. Python 爬取分析全国 12 个城市 4 万条房价信息,告诉你该怎样买房?

    作者 | 月小水长 责编 | 伍杏玲 2019程序员转型学什么? https://edu.csdn.net/topic/ai30?utm_source=csdn_bw 通过分页.线程池.代理池等技术, ...

  9. Python爬虫爬取微博评论案例详解

    文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 前几天,杨超越编程大赛火了,大家都在报名参加,而我也是其中的一员. 在我们的项目中 ...

  10. python爬考研_Python爬取考研必备单词

    参考链接:(https://blog.csdn.net/OnlyloveCuracao/art0icle/details/80768334) 原博主的代码可能因为单词发音的音频爬取有问题,导致无法将单 ...

最新文章

  1. mysql 分页有数据没了_mysql分页丢数据的分析
  2. linux下安装mysql57_Linux——CentOS7之mysql5.7安装与配置
  3. map可以用结构体作为健值吗?
  4. Linux之grep:过滤器按照字符进行过滤  选项规定内容样式 模式规定内容
  5. DTCC 2020 | 阿里云梁高中:DAS基于Workload的全局自动优化实践
  6. 如何在面试中通过工厂模式来给自己加分?逆袭面经分享
  7. 《基于ArcGIS的Python编程秘笈(第2版)》——第1章 面向ArcGIS的Python语言基础
  8. 计算机组成与系统结构习题
  9. 利用diyUpload做多图片上传及预览
  10. 房地产管理系统的核心技术与功能
  11. 更改文件扩展名HTML,文件的后缀名怎么改|更改文件后缀名的方法
  12. vs+qt 人脸识别GUI
  13. Laya位图字体制作
  14. orange软件使用
  15. CSR8610 入门操作(BlueSuite 2.6.2和CSRXX_ROM_ConfigTool_3.0.64使用)
  16. 戴尔t3500服务器系统安装,Dell Precision T3500 工作站系统指南
  17. python 列表嵌套 元素全部相同
  18. SEO网站内部优化包含哪些内容
  19. 最难学的七大编程语言,VB 第一,Python垫底,看你学的排第几
  20. 超全万字汇总!科研论文绘图实操干货!11类Matplotlib图表,含代码

热门文章

  1. 2022年最新软件测试面试题,自动化测试面试题,接口自动化测试面试题详解,对标大厂。
  2. 西安电子科技大学计算机系分数线,西安电子科技大学2017年分专业录取分数
  3. Kubernetes Pod调度策略
  4. 2018款macbook pro如何安装windows双系统
  5. iOS Info.plist知多少
  6. Structured Streaming任务GC问题
  7. 卫星影像去雾与色彩复原
  8. sublime使用指南
  9. 透视相机(PerspectiveCamera)
  10. mongodb数据检索大全