php 获取有道翻译,python爬虫 身边的翻译专家——获取有道翻译结果
[导读]有道翻译可以直接翻译内容,观察它的网页内容以及URL可以发现,它的基本url 和将要翻译的内容...
本文目的:使用python 实现翻译效果
思路:有道翻译可以直接翻译内容,观察它的网页内容以及URL可以发现,它的基本url 和将要翻译的内容组合起来就是最后翻译的页面
比如: 有道中英文翻译的网址是:http://dict.youdao.com/
将要翻译的内容是: I'm a Chinese
点击一下翻译,然后出现的含有翻译结果页面的地址是: http://dict.youdao.com/w/eng/I'm%20a%20chinese/#keyfrom=dict2.index
虽然这个网址后面跟了“#keyfrom=dict2.index” 但是不影响
直接访问 http://dict.youdao.com/w/eng/I'm%20a%20chinese 也能看到翻译结果
因此总体思路如下:
1.获取将要翻译的内容
2.将翻译的内容和有道翻译网址组成新的url
3.获取这个url的页面内容
4.根据这个页面内容获取翻译结果
代码如下:
#!/usr/bin/python
#coding:utf-8
import HTMLParser
import urllib2
import re
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
class BaiduFanyi:
def __init__(self,url):
self.url=url
def get_html_Pages(self,url):
try:
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0'}
#构建请求的request
request=urllib2.Request(url,headers=headers)
#利用urlopen获取页面代码
response=urllib2.urlopen(request)
#将页面转化为UTF-8编码格式
html=response.read().decode('utf-8')
html=HTMLParser.HTMLParser().unescape(html)#处理网页内容, 可以将一些html类型的符号如" 转换回双引号
return html
#捕捉异常,防止程序直接死掉
except urllib2.URLError,e:
print u"连接失败,错误原因",e.reason
return None
except urllib2.HTTPError,e:
print u"连接失败,错误原因:%s " % e.code
return None
def get_finally_result(self,html):
result_pattern=re.compile('
(.*?)
.*?
',re.S)
result=re.search(result_pattern,html)
trans_result= result.group(1)
return trans_result
def run(self):
html=self.get_html_Pages(self.url)
self.get_finally_result(html)
if __name__ == '__main__':
author_content='''
*****************************************************
welcome to spider of baidufanyi
modify on 2017-05-11
@author: Jimy_Fengqi http://blog.csdn.net/qiqiyingse?viewmode=contents
*****************************************************
'''
print author_content
keywords=raw_input('please input the sentence that need translate:')
if not keywords:
keywords="I'm a Chinese"
base_url='http://www.youdao.com/w/eng/%s' % (keywords)
print base_url
mybaidufanyi=BaiduFanyi(base_url)
mybaidufanyi.run()
php 获取有道翻译,python爬虫 身边的翻译专家——获取有道翻译结果相关推荐
- Python爬虫之Js逆向案例(6)-某道翻译
Python爬虫之Js逆向案例(6)-有道翻译 声明:某道翻译加密逆向分析仅用于研究和学习,如有侵权,可联系删除 大家好,距离上次分享js逆向案例已经有一个月了,在这期间每次在快要揭秘出来时.整理文章 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息
python爬虫爬猎聘网获取多条职责描述中有Linux需求的招聘信息 下列是我爬虫的作业 摘 要 随着现代化社会的飞速发展,网络上巨大信息量的获取给用户带来了许多的麻烦.由于工作和生活节奏的需求,人们 ...
- python爬虫之基于JS加密破解--有道翻译/百度翻译
有道翻译破解案例(post) 目标 破解有道翻译接口,抓取翻译结果 # 结果展示 请输入要翻译的词语: elephant 翻译结果: 大象 ************************** 请输入 ...
- python爬百度翻译-python爬虫实现百度翻译
简述: 最近在学习python,就开始研究爬虫,写了个简单的程序 实现功能: 百度翻译 思路: 通过浏览器的开发者工具,发现百度翻译的接口和翻译所需要发送的数据包,通过python实现模拟浏览器进行百 ...
- python读取html_从零开始的Python爬虫教程(一):获取HTML文档
前言:在上一节从零开始的Python爬虫教程(零):粗识HTML结构中,粗略给大家介绍了一下HTML文档,是为了在接下来的教程中让大家更容易理解和掌握.在接下来的教程中,需要大家提前安装python3 ...
- Python爬虫入门实战2:获取CSDN个人博客文章基础信息
☞ ░ 老猿Python博文目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036 ░ 一.引言 当爬取博文内容时,有时需要进行 ...
- python爬虫学校正方教务系统获取全部成绩
python爬虫正方教务系统许昌学院 来自许昌学院的大四小菜鸡,疫情封在宿舍,闲来无事在宿舍爬了一下之前没成功的教务系统爬虫,当时觉得挺难的,今天发现这个还是挺简单的,这个程序参考了很多前辈大佬们的程 ...
- Python爬虫:二十行代码获取某知名网站高质量视频,带视频讲解
文章目录 一.写在前面 二.爬虫原理 三.案例实现 四.视频讲解 一.写在前面 兄弟们,自从上次爬虫热门后,我就没发高质量爬虫了,看的人都少了,唉~ 原来你们都是这样的人 二.爬虫原理 作用: 批量获 ...
最新文章
- python npz文件_numpy的文件存储 .npy .npz 文件
- 史上最全Android开发中100%会用到的开源框架整理(1/5)
- 中国风力发电行业需求前景预测与投资战略规划分析报告2022-2028年版
- ABAP-DOI技术的优化
- tracert和traceroute使用
- 中立时滞matlab,中立型时滞系统的稳定性改进判据
- [转载]Manually configuring Microsoft Internet Information Services (IIS)
- 关于“Exchange Server 地址列表服务未能响应”的错误解决方法。
- 自己动手做cpu_如何建立一个自己动手做心动追踪装置
- 【转】const_cast
- CUDA Fortran for Scientists and Engineers第二版翻译
- contenteditable
- iphone12是双卡双待吗
- STC15学习笔记 第一章 流水灯与数码管
- 基于Proteus学习单片机系列(五)——定时器实现电子表
- Terraform 基础 定义阿里云资源 VPC、安全组
- c语言处理nc程序,NC程序的语言问题
- 张爱玲经典爱情语录大全
- VC中 WM_SHOWWINDOW 与ShowWindow()的区别
- WinDbg 命令学习 - !list
热门文章
- 【linux】dpkg info修复及dpkg: warning: files list file for package
- JS-元素大小深入学习-offset、client、scroll等学习研究笔记
- mysql sql优化及注意事项
- angular 实现modal windows效果(即模态窗口,半透明的遮罩层),以及bootstrap(css,components,js)的初步学习...
- 手把手让你实现postfix+extmail+mysql虚拟用户邮件体系
- oracle 索引快速全扫描,用Oracle 9i全索引扫描快速访问数据
- 基于linux桌面3d面打印机,基于DLP技术的桌面级3D打印机研发
- 通信原理眼图画法_光纤通信链路入侵与检测技术研究综述
- 报警服务器物理内存,服务器内存使用率优化
- devexpress html编辑器,DevExpress 通用控件系列:TextEdit(2)