爬虫入门-爬取有道在线翻译结果(1)
参考小甲鱼的视频,爬取有道在线翻译结果
注意:原视频中的request url地址目前已被反爬虫,不过将地址中的_o删除后就可以实现爬虫(截至2018.4.2),查找网络,貌似是还未封闭的旧接口。
import urllib.request
import urllib.parsecontent=input('请输入需要翻译的内容:')
url='http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
data={'i': content,
'from': 'AUTO',
'to': 'AUTO',
'smartresult': 'dict',
'client': 'fanyideskweb',
'salt': '1522597233542',
'sign': '520f9eb5cefff7d528e25e43a47bc2e7',
'doctype': 'json',
'version': '2.1',
'keyfrom': 'fanyi.web',
'action': 'FY_BY_CLICKBUTTION',
'typoResult': 'false'
}
data=urllib.parse.urlencode(data).encode('utf-8')#python本身字符串是unicode,需要转换为网页默认的utf-8
response=urllib.request.urlopen(url,data)
html=response.read().decode('utf-8')#实际上是个json结构,网页本身是utf-8,需要转换为python的unicode#json的运用:轻量级数据交换
import json
target=json.loads(html)#转换成字典格式
print('翻译结果:%s' % target['translateResult'][0][0]['tgt'])
输入翻译的英文,即可爬取到对应的中文翻译。
知识点:json(待完善)
JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
爬虫入门-爬取有道在线翻译结果(1)相关推荐
- 爬虫入门-爬取有道在线翻译结果(2)
由于服务器会识别访问的对象是否为代码并加以限制,所以需要加上一定的措施隐藏代码身份.以上节有道为例: 1.添加headers信息: 在生成request对象时添加headers信息中的User-Age ...
- 爬虫入门--爬取就业网站上的岗位信息构造数据集
爬虫入门--爬取就业网站上的岗位信息.解析爬取的数据构造数据集 爬虫入门实践 爬虫的基本概念 爬虫的技术实现 爬虫入门实践 大家好!随着大数据分析逐渐火热的今天,爬虫技能也成了数据分析师一项不可或缺的 ...
- 爬虫实践:爬取有道翻译(附带UI界面)
1.爬取分析 实现一键翻译功能,最简单的方案当然是我们的爬虫啦,这里,我选择的是 有道翻译 这个页面,在左边输入文字,那么浏览器会把你输入的信息传输给服务器.再返回对应的内容.这就是一个典型的Post ...
- python爬取豆瓣电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
- python爬虫电影信息_Python爬虫入门 | 爬取豆瓣电影信息
这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑动手实践,平均45分钟就能学完一节,如果你愿意,今天内你就可以迈入爬 ...
- Python简单爬虫入门-爬取链家租房网上的租房信息
.又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码: #coding:utf-8 ...
- 爬虫入门——爬取QQ音乐某一歌手前五首歌曲信息及相关评论
文章目录 前言 一.查看信息 二.代码实现 总结 前言 python课作业 请使用爬虫Selenium模拟浏览器获取爬取QQ音乐中你喜欢的某位歌手(可以是任意歌手)最受欢迎的前5首歌曲的歌词.流派.歌 ...
- Python爬虫入门——爬取贴吧图片
最近忽然想听一首老歌,"I believe" 于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的<我的野蛮女友>电影主题曲的哪个版本 ...
- 使用python爬取有道词典翻译
```python```python```python import requests # 导入requests 模块 import json # 导入json# 有道里面的响应的xhr地址 # 将下 ...
- 简单的爬虫入门--爬取百度股票信息--来自mooc嵩老师视频
这个仅仅作为自己做这个项目的一些过程的记录和理解吧~~~ 1.import 部分,将使用到的一些库引入进来 import requests import re from bs4 import Beau ...
最新文章
- Java异常ClassCastException
- 我最印象深刻的编程错误经历
- Spring AOP基础—JDK动态代理
- TD-SCDMA成为我国通信行业标准
- Mina Protocol将主网候选版本发布时间延后一小时至3月17日8点
- 安装Numpy的简单方法
- 数值计算原理_数值方法中的有限元法、有限差分法、有限体积法的区别
- 【和76】龙头企业在区域市场中竞合关系分析样例(温微观察13-6)
- 英语水平测试项目(黄军威、殷乐乐、张益维20180531)
- 计算机毕业设计Java新生报到管理(源码+系统+mysql数据库+lw文档)
- mysql 公历变农历_经过完整测试的农历-公历相互转换
- 华为手机滑动速度设置_用华为手机的人,这个设置赶紧关了!速度流畅告别卡顿...
- Java经典面试题—— int 和 Integer 有什么区别?谈谈 Integer 的值缓存范围
- pyton--解决pycharm控制台中文显示unicode \xe6\x9d\x8e\xe7\x99\xbd\xe9\xa3\x9e码问题
- Android高德地图使用自定义指南针
- php输出语句,php中输出语句有哪些?
- 如何为 Exchange 用户添加联系人头像
- 利用ip-subnet-vlan(基于ip子网划分vlan) 技术 实现一根网线多VLAN业务
- Why Docker is Not Yet Succeeding Widely in Production
- 2021-08-10校网比赛D题
热门文章
- Python遇到的问题:IndentationError: expected an indented block
- 人工智能--学术会议排名
- C语言 逻辑运算符与逻辑表达式
- iOS修改生成的APP名称
- 学习笔记(26):玩转Python-Python3基础入门-案例-快递价格计算器(1)
- 为什么 AI 犯的错有时会很“瘆人”?
- 域名购买之后怎么使用
- ubuntu20.04上编译android 7.1
- 计算机蓝屏一直重启,笔记本电脑开机蓝屏不断重启问题的解决方法
- AVS2 有点令人不敢相信