通过爬虫使用百度翻译
在NLP任务中,通过数据增强(例如EDA、回译等)的方式增加训练集是一个非常常用的trick。其中回译就需要用到翻译系统。但由于构建翻译系统需要大规模的语料和算力,所以不如直接使用现有的翻译系统。除此之外,还有很多的场景均需要翻译,所以为了满足大家的需求,特花时间来给大家写一篇通过爬虫使用百度翻译的博客。
这次的天选之子就是百度翻译,但事先说明下该脚本只是为了学习,请勿滥用、商用,否则后果自负。
虽然在网上有很多类似的博客,但绝大多数讲的过粗,不利于新手的学习。所以就给大家准备一篇极为详细的博客。
文章目录
- 1. 搭建环境
- 1.1 安装Python库
- 1.2 安装nodejs
- 2. 原理分析和实战操作
- 2.1 寻找对应的XHR项
- 2.2 破解参数
- 3. 代码
1. 搭建环境
1.1 安装Python库
pip install PyExecJS
pip install requests
1.2 安装nodejs
nodejs下载地址为:
通过爬虫使用百度翻译相关推荐
- python百度翻译爬虫_Python爬虫教程-05-python爬虫实现百度翻译
使用python爬虫实现百度翻译功能 python爬虫实现百度翻译: python解释器[模拟浏览器],发送[post请求],传入待[翻译的内容]作为参数,获取[百度翻译的结果] 通过开发者工具,获取 ...
- python爬百度翻译-Python爬虫实现百度翻译功能过程详解
首先,需要简单的了解一下爬虫,尽可能简单快速的上手,其次,需要了解的是百度的API的接口,搞定这个之后,最后,按照官方给出的demo,然后写自己的一个小程序 打开浏览器 F12 打开百度翻译网页源代码 ...
- python爬百度翻译-python爬虫实现百度翻译
简述: 最近在学习python,就开始研究爬虫,写了个简单的程序 实现功能: 百度翻译 思路: 通过浏览器的开发者工具,发现百度翻译的接口和翻译所需要发送的数据包,通过python实现模拟浏览器进行百 ...
- python实现翻译功能_Python爬虫实现百度翻译功能过程详解
首先,需要简单的了解一下爬虫,尽可能简单快速的上手,其次,需要了解的是百度的API的接口,搞定这个之后,最后,按照官方给出的demo,然后写自己的一个小程序 打开浏览器 F12 打开百度翻译网页源代码 ...
- python怎么读发音百度翻译-python爬虫--调用百度翻译进行文本翻译
里面会有一些表单数据,query:你好,这个你好就是我们刚刚输入翻译的内容,有了这些信息,我们就可以写爬虫调用了 代码如下#!/usr/bin/envpython #coding:utf-8 __au ...
- Python爬虫:百度翻译接口获取翻译结果
分析百度翻译接口,使用python获取翻译结果 目标:获取百度翻译结果 工具:chrome/firefox浏览器.pychram.python3.7 模块:requests.re.execjs 开始分 ...
- Python3爬虫——利用百度翻译实现中文翻译英文
~ 天才不过是百分之一的灵感加上百分之九十九的汗水,但那百分之一的灵感远远比那百分之九十九的汗水重要. ~ 由于现在不知道如何获取sign,导致只能翻译一个句子就很尴尬,希望在后面的学习中可以解决此问 ...
- 爬虫调用百度翻译API
1. 分析 1.1 寻找点击翻译时发送的请求 按照图示操作,发现在输入文字点击翻译之后,一共发送了四个请求. 分别点开三个查看返回响应,可以发现有用的为第一个langdetect和第四个v2trans ...
- python爬虫高级教程,JS逆向之百度翻译
环境 python版本号 系统 游览器 python 3.7.2 win7 google chrome 关于本文 本文将会通过爬虫的方式实现简单的百度翻译.本文中的代码只供学习,不允许作为于商务作用. ...
最新文章
- leangoo里怎么邀请成员加入看板?
- this Activity.this Activity.class
- 淘宝旺铺基础版装修出专业版效果(不花钱也一样做到)
- 计蒜客NOIP模拟赛(2) D2T2紫色百合
- 【Linux系统编程】IO多路复用之epoll
- 关于 Node.js scoped module 的一些理解
- 基于 HTML5 Canvas 绘制的电信网络拓扑图
- aMDcpu不支持mysql_Oracle 11.2.0.1在AMD CPU 64位硬件,32位操作系统下的BUG 8670579
- 自动开票失败可能出现的错误信息
- ROSTCM6情感分析结果乱码
- linux 五笔输入法下载软件,极点五笔Linux版|极点五笔输入法官方linux版_最火软件站...
- linux系统测网速工具
- CodeForces - 1144C Two Shuffled Sequences【优先队列】
- (31)Java基础语法 --接口
- linux终端分屏工具tumx
- 佳能2420报错代码E000007-0000
- 企业选择局域网即时通讯软件的必要性是什么?
- [jzoj 5353] 村通网 {kruskal算法}
- 利息积数的计算方法及应用
- 最新 济南软件公司 不完全列表 及 全国百强表[2008-12-06]