本次主要针对python对上次抖音分享的页面中的_signature进行解析并完成抖音视频的下载。源码:https://github.com/limingios/dockerpython.git (源码/「「docker实战篇」python的docker- 抖音视频抓取(下)(24))
https://github.com/limingios/dockerpython.git (谷歌插件)

找到方法,完成本地的html的生成

其实就是复制出来分享页面的函数,然后通过函数,调用的方式完成_signature的生成。

html_foot.txt

<!DOCTYPE html>
<html lang="en">
<head><meta charset="UTF-8"><title>Title</title>
</head>
<body>
</body>
</html>
<script type="text/javascript">

html_foot.txt

!function(t) {if (t.__M = t.__M || {},!t.__M.require) {var e, n, r = document.getElementsByTagName("head")[0], i = {}, o = {}, a = {}, u = {}, c = {}, s = {}, l = function(t, n) {if (!(t in u)) {u[t] = !0;var i = document.createElement("script");if (n) {var o = setTimeout(n, e.timeout);i.onerror = function() {clearTimeout(o),n()};var a = function() {clearTimeout(o)};"onload"in i ? i.onload = a : i.onreadystatechange = function() {("loaded" === this.readyState || "complete" === this.readyState) && a()}}return i.type = "text/javascript",i.src = t,r.appendChild(i),i}}, f = function(t, e, n) {var r = i[t] || (i[t] = []);r.push(e);var o, a = c[t] || c[t + ".js"] || {}, u = a.pkg;o = u ? s[u].url || s[u].uri : a.url || a.uri || t,l(o, n && function() {n(t)})};n = function(t, e) {"function" != typeof e && (e = arguments[2]),t = t.replace(/\.js$/i, ""),o[t] = e;var n = i[t];if (n) {for (var r = 0, a = n.length; a > r; r++)n[r]();delete i[t]}},e = function(t) {if (t && t.splice)return e.async.apply(this, arguments);t = e.alias(t);var n = a[t];if (n)return n.exports;var r = o[t];if (!r)throw "[ModJS] Cannot find module `" + t + "`";n = a[t] = {exports: {}};var i = "function" == typeof r ? r.apply(n, [e, n.exports, n]) : r;return i && (n.exports = i),n.exports && !n.exports["default"] && Object.defineProperty && Object.isExtensible(n.exports) && Object.defineProperty(n.exports, "default", {value: n.exports}),n.exports},e.async = function(n, r, i) {function a(t) {for (var n, r = 0, h = t.length; h > r; r++) {var p = e.alias(t[r]);p in o ? (n = c[p] || c[p + ".js"],n && "deps"in n && a(n.deps)) : p in s || (s[p] = !0,l++,f(p, u, i),n = c[p] || c[p + ".js"],n && "deps"in n && a(n.deps))}}function u() {if (0 === l--) {for (var i = [], o = 0, a = n.length; a > o; o++)i[o] = e(n[o]);r && r.apply(t, i)}}"string" == typeof n && (n = [n]);var s = {}, l = 0;a(n),u()},e.resourceMap = function(t) {var e, n;n = t.res;for (e in n)n.hasOwnProperty(e) && (c[e] = n[e]);n = t.pkg;for (e in n)n.hasOwnProperty(e) && (s[e] = n[e])},e.loadJs = function(t) {l(t)},e.loadCss = function(t) {if (t.content) {var e = document.createElement("style");e.type = "text/css",e.styleSheet ? e.styleSheet.cssText = t.content : e.innerHTML = t.content,r.appendChild(e)} else if (t.url) {var n = document.createElement("link");n.href = t.url,n.rel = "stylesheet",n.type = "text/css",r.appendChild(n)}},e.alias = function(t) {return t.replace(/\.js$/i, "")},e.timeout = 5e3,t.__M.define = n,t.__M.require = e}
}(this)__M.define("douyin_falcon:node_modules/byted-acrawler/dist/runtime", function(l, e) {Function(function(l) {return 'e(e,a,r){(b[e]||(b[e]=t("x,y","x "+e+" y")(r,a)}a(e,a,r){(k[r]||(k[r]=t("x,y","new x[y]("+Array(r+1).join(",x[y]")(1)+")")(e,a)}r(e,a,r){n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t<b;t)s[n="$"+t]=r[n];for(t=0,b=s=a;t<b;t)s[t]=a[t];c(e,0,s)}c(t,b,k){u(e){v[x]=e}f{g=,ting(bg)}l{try{y=c(t,b,k)}catch(e){h=e,y=l}}for(h,y,d,g,v=[],x=0;;)switch(g=){case 1:u(!)4:f5:u((e){a=0,r=e;{c=a<r;c&&u(e[a]),c}}(6:y=,u((y8:if(g=,lg,g=,y===c)b+=g;else if(y!==l)y9:c10:u(s(11:y=,u(+y)12:for(y=f,d=[],g=0;g<y;g)d[g]=y.charCodeAt(g)^g+y;u(String.fromCharCode.apply(null,d13:y=,h=delete [y]14:59:u((g=)?(y=x,v.slice(x-=g,y:[])61:u([])62:g=,k[0]=65599*k[0]+k[1].charCodeAt(g)>>>065:h=,y=,[y]=h66:u(e(t[b],,67:y=,d=,u((g=).x===c?r(g.y,y,k):g.apply(d,y68:u(e((g=t[b])<"<"?(b--,f):g+g,,70:u(!1)71:n72:+f73:u(parseInt(f,3675:if(){bcase 74:g=<<16>>16g76:u(k[])77:y=,u([y])78:g=,u(a(v,x-=g+1,g79:g=,u(k["$"+g])81:h=,[f]=h82:u([f])83:h=,k[]=h84:!085:void 086:u(v[x-1])88:h=,y=,h,y89:u({e{r(e.y,arguments,k)}e.y=f,e.x=c,e})90:null91:h93:h=0:;default:u((g<<16>>16)-16)}}n=this,t=n.Function,s=Object.keys||(e){a={},r=0;for(c in e)a[r]=c;a=r,a},b={},k={};r'.replace(/[-]/g, function(e) {return l[15 & e.charCodeAt(0)]})}("v[x++]=v[--x]t.charCodeAt(b++)-32function return ))++.substrvar .length(),b+=;break;case ;break}".split("")))()('gr$Daten Иb/s!l y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&effkx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[ c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$jl  s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o ]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"jl  s&l&z0l!$ +["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l 6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l 4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+ s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{cm,)|yn~Lij~em["cl$b%@d<l&zl\'l $ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [Object.defineProperty(e, "__esModule", {value: !0})])
});dycs = __M.require("douyin_falcon:node_modules/byted-acrawler/dist/runtime")signc = dycs.sign(&&&&)document.title = signc
document.write(signc)</script>

handle_douyin_movie.py 下载代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2019/2/20 17:39
# @Author  : Aries
# @Site    :
# @File    : handle_douyin_movie.py.py
# @Software: PyCharm
import json
import osimport requests
import re
import timefrom selenium import webdriver
from selenium.webdriver.chrome.options import Options#分享ID
share_id = "89923219116"
share_url = "https://www.douyin.com/share/user/"+share_idheader = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36"
}#dytk 和tac的正则表达式
dytk_search = re.compile(r"dytk: '(.*?)'")
tac_search = re.compile(r"<script>tac=(.*?)</script>")
response = requests.get(url=share_url,headers=header)#处理获取dytk 和tac
dytk = re.search(dytk_search,response.text).group(1)
tac = re.search(tac_search,response.text).group(1)#tac封装成为js的格式
tac = "var tac="+tac+";"# html页面的编写合成 header + tac+ foot
with open("html_head.txt") as f1:f1_read = f1.read()with open("html_foot.txt") as f2:f2_read = f2.read().replace("&&&&","89923219116")with open("test.html","w") as f_w:f_w.write(f1_read+"\n"+tac+"\n"+f2_read)# signature = input("秘钥为:")chrome_options = Options()
chrome_options.add_argument("--headless")
abspath = os.path.abspath(r"D:\Program Files\chromedriver\chromedriver.exe")
douyin_driver = webdriver.Chrome(executable_path=abspath,chrome_options=chrome_options,)
douyin_driver.get("file:///E:\\dockerpython\\python\\douyin\\test.html")
signature = douyin_driver.title
douyin_driver.quit()
movie_url = "https://www.douyin.com/aweme/v1/aweme/post/?user_id="+share_id+"&count=21&max_cursor=0&aid=1128&_signature="+signature+"&dytk="+dytk#接口不太稳定,所以要使用while循环一直调用
while True:movie_reponse = requests.get(url=movie_url,headers=header)if json.loads(movie_reponse.text)["aweme_list"] == []:#time.sleep(1)continueelse:print(movie_reponse.text)for item in json.loads(movie_reponse.text)["aweme_list"]:video_url = item["video"]["play_addr"]["url_list"][0]video_response = requests.get(url=video_url,headers=header)with open("douyin.mp4","wb") as v:#不能使用video_response.text,必须使用content才可以把内容写进去v.write(video_response.content)break

最终结果

里面关于chromedriver的配置直接引入他的路径最稳了,我比较喜欢这种方式网上很多搞环境变量的导致电脑很慢不建议。

PS:基本上抖音视频下载的都已经完成了,下次对于需要注意的做下总结。

「docker实战篇」python的docker- 抖音视频抓取(中)(25)相关推荐

  1. python docker自动化_「docker实战篇」python的docker爬虫技术-移动自动化控制工具appium工具(17)...

    原创文章,欢迎转载.转载请注明:转载自 IT人故事会,谢谢! 原文链接地址: 「docker实战篇」python的docker爬虫技术-移动自动化控制工具appium工具(17) Appium是一个开 ...

  2. python docker自动化_「docker实战篇」python的docker爬虫技术-移动自动化控制工具安卓ADB的使用(15)...

    原创文章,欢迎转载.转载请注明:转载自 IT人故事会,谢谢! 原文链接地址: 「docker实战篇」python的docker爬虫技术-移动自动化控制工具安卓ADB的使用(15) adb(Androi ...

  3. 「docker实战篇」python的docker爬虫技术-在linux下mitmproxy介绍和安装(四)

    原创文章,欢迎转载.转载请注明:转载自IT人故事会,谢谢! 原文链接地址:「docker实战篇」python的docker爬虫技术-在linux下mitmproxy介绍和安装(四) 上次说了fiddl ...

  4. 「docker实战篇」python的docker爬虫技术-安卓模拟器(二)

    原创文章,欢迎转载.转载请注明:转载自IT人故事会,谢谢! 原文链接地址:「docker实战篇」python的docker爬虫技术-安卓模拟器(二) 为什么要手机模拟器,如果有条件正好有不使用的安卓手 ...

  5. bat 自动输入密码_「docker实战篇」python的docker爬虫技术移动自动化uiautomator工具(16)...

    uiautomator 是 安卓4.3之后发布的测试工具,uiautomator是用来做UI测试的.也就是普通的手工测试,点击每个控件元素 看看输出的结果是否符合预期.比如 登陆界面 分别输入正确和错 ...

  6. python爬虫灰产_「docker实战篇」python的docker爬虫技术-在linux下mitmproxy介绍和安装(四)...

    上次说了fiddler的抓包和参数介绍,通过fiddler抓包工具可以完成app和web端的数据,这次介绍另一款抓包公司mitmproxy,可以和python语言结合通过爬虫抓取数据. 源码:http ...

  7. python抓包工具_「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置(七)...

    挑选常用的功能给各位老铁介绍下. fiddler第一次进入fiddlerfiddler会请求fiddler的官网,检查更新操作布局分布 工具栏File -capture traffic开启爬虫File ...

  8. python爬虫抓包工具_「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置(七)...

    挑选常用的功能给各位老铁介绍下. fiddler 第一次进入fiddler fiddler会请求fiddler的官网,检查更新操作 布局分布 工具栏 File -capture traffic 开启爬 ...

  9. python抓包程序_「docker实战篇」python的docker爬虫技术-fiddler抓包软件详细配置(七)...

    fiddler 第一次进入fiddler fiddler会请求fiddler的官网,检查更新操作 布局分布 工具栏 File -capture traffic 开启爬虫 File -new Viewe ...

  10. 「docker实战篇」python的docker-打造多任务端app应用数据抓取系统(下)(35)

    上次已经把python文件挂载到虚拟机上了,这次主要设置下虚拟机通过docker容器的方式. 运行 python 代码运行 >启动一个crt的会话 docker run -it -v /root ...

最新文章

  1. 【SICP练习】111 练习3.24
  2. python dpkt解析ssl流
  3. 怎样保证客户端和服务器端数据的一致性(数据的同步)
  4. C#---HTML 转文本及HTML内容提取
  5. 箭头函数的使用用法(一)
  6. 爬取w3c课程—Urllib库使用
  7. python绘画音频_人工智能下的音频还能这样玩!!!!
  8. windows系统bat批处理 清理注册表与蓝屏补丁
  9. 【Flutter】微信项目实战【04】发现界面搭建
  10. nvidia-smi 重置GPU
  11. python 手机摄像头文字识别软件_手机上有哪些好用的文字识别工具?
  12. redis案例1--标签实现
  13. 【书单】程序设计好书推荐
  14. 凯云水利水电工程造价管理系统 技术解释(十三) 中间单价(四)
  15. keepalived脑裂现象
  16. 从哪里租vps远程桌面服务器,vps远程桌面服务器出租
  17. 苹果和小虫编程c语言,【OJ题库C/C++】Day12-苹果和虫子2
  18. 【docker】基础操作
  19. MacOS清空图标缓存
  20. RSSNewser 1.0

热门文章

  1. 弘扬时代新风建设网络文明,小趣带你揭秘肾透明细胞癌致瘤机制
  2. Android Room 数据实体类详解
  3. linux强制修改只读文件权限
  4. C语言自学记录-Class6-函数
  5. 李开复创业两年记:创新工场的孵化之困
  6. zeplin 登录效果实现
  7. uiautomatorviewer 定位提示Error obtaining UI hierarchy
  8. 会议panel是什么意思中文_会议形式有哪些?
  9. java 去掉图片水印文字_Java实现图片水印工具类
  10. 知云文献翻的一些使用