前言

其实在以前就盯上有道翻译了的,但是由于时间问题一直没有研究(我的骚操作还在后面,记得关注),本文主要讲解如何用python调用有道翻译,讲解这个爬虫与有道翻译的js“斗争”的过程!

当然,本文仅供交流学习使用,适合自己做一些小东西娱乐,禁止用于商业用途!转载请注明微信公众号:bigsai。项目github地址:https://github.com/javasmall/python

在这里插入图片描述

分析

对于一个网站,首先肯定要的就是分析,分析其中的网页规则

分析url

进入有道翻译你会发现它的url是没有变化的,也就是说它的请求是通过ajax异步交互的。点击F12,很容易在XHR中找到这个交互的请求,点击查看信息,你会发现一串参数,其中有几个还是加密了的,啥salt盐啥的。先有个数。

在这里插入图片描述

分析参数01

可以大胆猜测:这个关键参数肯定在一块。我们搜索salt,然后正常的点击,格式化展开,在js中再次搜索salt。想找相关salt附近看看能不能找到断点进行调试!当然,最终你可以找到11个相关内容可以在每个附近进行断点调试。你这样乐意找到相关位置关键加密字段和函数。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

分析参数02

这次,咱们使用浏览器调用堆栈的功能,查看js执行的堆栈进行查找。直接点击到对应模块打断点即可进行观察。最终你会找到这个位置generateSaltSign(n)的这个函数,主要加密函数都在里面执行

在这里插入图片描述

在这里插入图片描述

加密分析

其实有道翻译的加密是比较简单的了,你一看,

不知道navigator.appVersion是啥是吧,我打印一看。就是浏览器头进行md5加密的嘛,可以固定不变的,也就是说这个bv(t)参数它可以是固定不变的。

这个ts不就是13位当前时间戳吗!

这个salt不就是时间戳后面加上100内的随机数吗,随便取一个就行。

这个sign不就是"fanyideskweb" + 翻译的字符串 + salt + "n%A-rKaT5fb[Gy?;N5@Tj"这么一串串数字然后md5加密的嘛!

通过后面的分析发现这些参数并没有变化。所以这次生成的是唯一的,但是有一个前提是5000字以内,如果超出5000字他会截取前5000字,这点需要注意一下。

在这里插入图片描述

模拟请求

注意点

既然有了上面的规则,那么咱们就可以通过这部分的规则和抓包的信息整合用python模拟完成js的事件,发送请求。这里面有几点需要注意的。

Fristly,你要搞定python中md5加密模块,时间time模块,能够做出一些等价的一些转化。刚好,py的hashlib和time模块 can fullfill 你。这个问题解决。

In addition,post请求的主体data字典需要进行url编码才能当成data发送请求发过去。

last but not least,解决完加密最重要的就是header,大家一定不要麻批大意。这个content—length,经过我的经验告诉我它如果填错了就会报错,并且不填经过抓包分析系统会自动生成。所以不要计算主体长度的,这个参数一定要省略。不放cookie会报错,放了cookie经过测试你会发现有些可以该甚至可有可无,有些必须遵从其样式。而cookie中必须遵从的就是OUTFOX_SEARCH_USER_ID=-1053218418@117.136.67.240即数字+@+ip形式地址。可能是为了检验而用,这个可以直接进行模拟。

在这里插入图片描述

请求代码

返回结果是一串json,直接拿即可!

import requests

import hashlib

import time

import urllib.parse

# 创建md5对象

def nmd5(str):

m = hashlib.md5()

# Tips

# 此处必须encode

# 若写法为m.update(str)  报错为: Unicode-objects must be encoded before hashing

# 因为python3里默认的str是unicode

# 或者 b = bytes(str, encoding='utf-8'),作用相同,都是encode为bytes

b = str.encode(encoding='utf-8')

m.update(b)

str_md5 = m.hexdigest()

return  str_md5

def formdata(transtr):

# 待加密信息

headerstr = '5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'

#print(round(time.time()*1000))

bv=nmd5(headerstr)

ts=str(round(time.time()*1000))

salt=ts+'90'

strexample='fanyideskweb'+transtr+salt+'n%A-rKaT5fb[Gy?;N5@Tj'

sign=nmd5(strexample)

#print(sign)

i=len(transtr)

#print(i)

# print('MD5加密前为 :' + headerstr)

# print('MD5加密后为 :' + bv)

dict={'i':transtr,'from':'AUTO','TO':'AUTO','smartresult': 'dict',

'client':'fanyideskweb',

'salt':salt,

'sign':sign,

'ts':ts,

'bv':bv,

'doctype':'json',

'version':'2.1',

'keyfrom':'fanyi.web',

'action':'FY_BY_REALTlME'

}

return dict

url='http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule'

header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',

'Referer':'http://fanyi.youdao.com/',

'Origin': 'http://fanyi.youdao.com',

'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',

'X-Requested-With':'XMLHttpRequest',

'Accept':'application/json, text/javascript, */*; q=0.01',

'Accept-Encoding':'gzip, deflate',

'Accept-Language':'zh-CN,zh;q=0.9',

'Connection': 'keep-alive',

'Host': 'fanyi.youdao.com',

'cookie':'_ntes_nnid=937f1c788f1e087cf91d616319dc536a,1564395185984; OUTFOX_SEARCH_USER_ID_NCOO=; OUTFOX_SEARCH_USER_ID=-10218418@11.136.67.24; JSESSIONID=; ___rl__test__cookies=1'

}

input=input("请输入翻译内容:")

dict=formdata(input)

dict=urllib.parse.urlencode(dict)

dict=str(dict)

#dict=urllib.parse.urlencode(dict).encode('utf-8')

req=requests.post(url,data=dict,headers=header)

val=req.json()

print(val['translateResult'][0][0]['tgt'])

执行结果

在这里插入图片描述

结语

就这样,我们从0开始优雅的揭开有道翻译的面纱!你可以利用这个做一些有趣的事情(待续------)

当然,这个可能难度不大,对于老鸟老说很简单(勿喷),但是对于新手来说特别适合练手,如果感觉有问题或者不理解的可以通过公众号交流!当然,这个代码不知道能保存多久会失效。所以请抓紧收藏尝试!如果感觉可以还请奉献爱心点点赞!当然,这个只是我脑洞的一个开端,好玩的还在后面!

欢迎关注一波公众号:bigsai 一起学习,一起进步!长期分享更多乐趣!

关于找一找教程网

本站文章仅代表作者观点,不代表本站立场,所有文章非营利性免费分享。

本站提供了软件编程、网站开发技术、服务器运维、人工智能等等IT技术文章,希望广大程序员努力学习,让我们用科技改变世界。

[如何用python“优雅的”调用有道翻译?]http://www.zyiz.net/tech/detail-97655.html

python调用有道翻译_如何用python“优雅的”调用有道翻译?相关推荐

  1. python简单可视化聊天界面_如何用Python制作可视化输入界面

    继续研究Python的应用,我们在有些程序中需要输入一些参数,可由几种方式实现 1.直接写在程序里,适合编程使用 2.使用input()函数,运行程序时输入 3.做成可视化界面,然后让程序获得 今天主 ...

  2. python write 写多行_如何用 Python 执行单行命令

    一般来说,面对日常处理的一些小任务,直接用 sed,grep 之类的就可以搞定,更复杂一点的就会考虑 awk 或者用一些现成的轮子,要是 awk 搞不定我就只好用 Python 了.但有些时候,我仅仅 ...

  3. 用python做舆情分析系统_如何用Python做舆情时间序列可视化?

    如何批量处理评论信息情感分析,并且在时间轴上可视化呈现?舆情分析并不难,让我们用Python来实现它吧. 痛点 你是一家连锁火锅店的区域经理,很注重顾客对餐厅的评价.从前,你苦恼的是顾客不爱写评价.最 ...

  4. python情绪分析的意义_如何用Python和R对故事情节做情绪分析?

    想知道一部没看过的影视剧能否符合自己口味,却又怕被剧透?没关系,我们可以用情绪分析来了解故事情节是否足够跌宕起伏.本文一步步教你如何用Python和R轻松愉快完成文本情绪分析.一起来试试吧. 烦恼 追 ...

  5. python能制作游戏吗_如何用python写一个小游戏

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 引言最近python语言大火,除了在科学计算领域python有用武之地之外,在游 ...

  6. python批量resize图片大小_如何用Python智能批量压缩图片?

    本文一步步为你介绍,如何用Python自动判断多张图片中哪些超出阈值需要压缩,且保持宽高比.如果你想了解Python图像处理的基础知识,欢迎动手来尝试. 痛点 我喜欢用Markdown写文稿,然后发布 ...

  7. python提取pdf文件内容_如何用Python批量提取PDF文本内容?

    本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题 最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...

  8. python判断素数的函数_如何用python求素数

    如何用python求100以内的素数? 质数(primenumber)又称素数,有无限个.质数定义为在大于1的自然数中,除了1和它本身以外不再有其他因数的数称为质数,如:2.3.5.7.11.13.1 ...

  9. python向数据库写入数据_如何用Python向Mysql中插入数据

    我们使用Python经常会和Postgresql进行搭配,很少将python和mysql进行搭配.下面小编给大家分享如何用Python向Mysql中插入数据. 工具/原料 Pycharm 方法/步骤 ...

最新文章

  1. 【c语言】蓝桥杯算法提高 7-1用宏求球的体积
  2. 什么是事务(transaction)?它有什么好处
  3. android项目中导入opencv库,将第二个JNI库包含到我的Android项目(OpenCV)后...
  4. Delphi xe7 android实现透明度可以调整的对话框
  5. Ubuntu16.04能识别U盘,但无法识别光盘
  6. druid 多数据源_Spring Boot + Mybatis 中 配置Druid多数据源并实现自由切换
  7. Python的程序结构[4] - 函数/Function[2] - 匿名函数
  8. dm数据库 linux版下载,linux环境搭建DM数据库
  9. Windows Phone 更改datePicker的显示格式
  10. java工程师简历例子_Java开发工程师简历优秀简历(50份)
  11. 3GPP LTE/NR信道模型
  12. 银行业数据安全建设要点分析2022
  13. CTS测试中testYuvBurst[1]项
  14. 如何在指板上寻找特殊和弦
  15. maven的下载和安装教程
  16. 【腾讯TMQ】做测试计划需要考虑的方方面面
  17. 【PTA】输入一个正整数n(1≤n≤9),打印一个高度为n的、由“*”组成的直角三角形图案。当n=3时,输出如下直角三角形图案:
  18. android 9.0音量键功能开关(屏蔽音量加减功能)
  19. centOS7服务管理与启动流程
  20. macOS+matlab 2020b matlab_bgl工具箱使用时 MEX文件编译出错

热门文章

  1. Cisco(37)——BGP的十三条选路原则演示
  2. 2022暑期项目实训(二)
  3. Ubuntu设置终端打开时的默认窗口大小和位置坐标
  4. STM32入门-学习STM32要掌握的内容
  5. python 3d图表_matplotlib 三维图表绘制方法简介
  6. NVIDIA NeMo学习笔记
  7. 加壳工具WinLicense使用教程,以v2.3.9.0为例
  8. 自制的MATLAB拼图游戏GUI界面版详解(上篇)
  9. 《机动车交通事故责任强制保险费率浮动暂行办法》媒体见面会实录
  10. 控制面板有u盘显示,可是计算机不显示u盘符