Python脚本抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）

在 https://danbooru.donmai.us 搜索色图的时候,因为老美的网站的缘故,不支持中文和日文输入，只能输入平假名对应罗马音来寻找人物.像我虽然日语N1了,但是遇到人名有时依然会念错.所以需要一个可以直接翻译角色名的API.不过找了一圈，什么有道翻译，谷歌翻译（googleTranslate for py），都是坑=，=
例如:宝多六花->Treasure six flowers
我佛了，什么精致翻译
所以不考虑机翻考虑人翻，立刻想到可以用百度百科或者萌娘百科的翻译,于是不用翻译直接用爬虫爬下来不就好了吗？
所以立刻写完测试，拿来使用（好像没啥问题）
图一:输入框中输入角色的罗马音

图二:百科翻译

测试结果

1.动漫角色

其他

另外，还能搜现实人物的外文名。因为百度百科的网页样式比较统一，所以不用修改爬虫就能得到，但是萌百的页面普遍有三种1.角色 2.重名->重定向 3.现实人物，而这里只做了对角色的搜索页面，所以现实人物会GG。另外没有对没有平假名的页面也会GG

我觉得可以走NLP方向研究下平假名翻译这个问题

Python代码

import requests
from lxml import etree
import reheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36'
}def get_name_from_baidu(name):try:res = requests.get("https://baike.baidu.com/item/" + name, headers=headers)if res.status_code == 404:raise Exception("百度百科找不到信息")res.encoding = res.apparent_encodinghtml = etree.HTML(res.text)name_str = html.xpath('//dd[@class="basicInfo-item value"]')[1].xpath('text()')return re.search("[a-zA-Z](.*)[a-zA-Z]", ''.join(name_str)).group()except Exception as e:print(e)def get_name_from_moe(name):try:res = requests.get("https://zh.moegirl.org/" + name, headers=headers)if res.status_code == 404:raise Exception("萌娘百科找不到信息")res.encoding = res.apparent_encodinghtml = etree.HTML(res.text)name_str = html.xpath("//span[@itemprop='name']/text()")[0]return re.search("\w(.*)\w", name_str).group()except Exception as e:print(e)if __name__ == '__main__':name = input("输入名字:   ")print("从百度百科得到:")print(get_name_from_baidu(name))print("从萌娘百科得到:")print(get_name_from_moe(name))

Python脚本抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）相关推荐

Python脚本抓取大乐透开奖结果核对定投号码邮件通知
最近学习了一下Python的基础,想写个东西练练手.正好每次跟号的大乐透还需要手动兑奖或者去彩票站兑奖,自己写一个脚本自动抓取开奖结果,核对开奖金额后邮件通知. 整体思路: 找可抓取开奖结果网站找可 ...
python爬虫-抓取acg12动漫壁纸排行设置为桌面壁纸
ACG-wallpaper 初学python,之前想抓取P站的一些图片来着,然后发现acg12这里有专门的壁纸榜单,就写了个抓取壁纸作为mac桌面壁纸玩玩. 功能:抓取acg12壁纸榜单的动漫壁纸,并 ...
如何写python脚本抓取数据并计算_【小工具】利用Python脚本从Gaussian计算结果中提取信息...
1.前言高斯(Gaussian)是一个功能强大的量子化学综合软件包,所有从事计算化学相关领域的科研工作者应该都使用或者了解过这个软件.它的输出文件(.log文件)是一个文本文件,可以利用文本工具打开 ...
Python爬虫 - 抓取divnil动漫妹子图
目标网站 https://divnil.com 首先看看这网站是怎样加载数据的; 打开网站后发现底部有下一页的按钮,ok,爬这个网站就很简单了; 我们目标是获取每张图片的高清的源地址,并且下载图片到桌 ...
python Web抓取（一）[没写完]
需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...
python爬虫抓取网站技巧总结
不知道为啥要说是黑幕了??哈哈哈-..以后再理解吧 python爬虫抓取网站的一些总结技巧学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛 ...
Python学习教程：Python爬虫抓取技术的门道
Python学习教程:Python爬虫抓取技术的门道 web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展.然而,正所谓成也萧何败也萧何,开放的特性.搜索引擎以及简单 ...
python爬取小说出现乱码_详解Python解决抓取内容乱码问题（decode和encode解码）
一.乱码问题描述经常在爬虫或者一些操作的时候,经常会出现中文乱码等问题,如下原因是源网页编码和爬取下来后的编码格式不一致二.利用encode与decode解决乱码问题字符串在Python内部的 ...
编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法
这篇文章主要介绍了编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法,用到了Python的urllib和urllib2模块,需要的朋友可以参考下抓取豆瓣电影TOP100 一.分析豆瓣top ...

Python脚本抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）

测试结果

其他

Python代码

Python脚本抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）相关推荐

最新文章

热门文章

Python脚本 抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）

测试结果

其他

Python代码

Python脚本 抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）相关推荐

最新文章

热门文章

Python脚本抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）

Python脚本抓取/翻译动漫角色名字的罗马音或外文名（用于搜索图片）相关推荐