用selenium玩的是精准打击.
这是爬取指定汉字的笔顺拼音声音的小爬虫。速度慢,但是指向很灵活。只需要调整 yourtxt.txt 里面的
文件内容即可。

#coding:utf-8
from urllib.request import urlretrievefrom selenium import webdriver
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from time import sleep
import readdress = 'https://hanyu.baidu.com/'
shz = ' '
url = ' 'op = webdriver.FirefoxOptions()
op.add_argument("--headless")   #等效于 ———— op.set_headless()
op.add_argument("--disable-gpu")    #禁用GPU加速
driver = webdriver.Firefox(firefox_options = op)
driver.get(address)
ele = WebDriverWait(driver,10,0.2).until(ec.title_contains('百度汉语'))def getvalue(shz):try:#ele = WebDriverWait(driver,10,0.2).until(ec.title_contains('百度汉语'))trg = driver.find_element_by_id('kw')trg.clear()trg.send_keys(shz)trg = driver.find_element_by_id('su')trg.click()print(shz)except:print('程序出现错误,请调试解决后运行')exit()quit()try:trg = driver.find_element_by_id('pc--body')trg = driver.find_element_by_xpath(r'//*[@id="data-container"]/div[1]/div[1]/a')trg.click()print('有夹层')except:print('无夹层')finally:ele = WebDriverWait(driver,10).until(ec.visibility_of(driver.find_element(by=By.ID,value='pc-word-body')))trg = driver.find_element_by_xpath(r'//*[@id="word_bishun"]')       #抓取字符动画url = trg.get_attribute('src')urlretrieve(url,'./image/'+ shz + '.gif')                           #保存为以字符为名字的gif动图print(url)trg = driver.find_element_by_xpath(r'//*[@id="pinyin"]/span/a')     #抓取读音url= trg.get_attribute('url')urlretrieve(url,'./mp3/'+ shz + '.mp3')                             #保存为以字符为名字的mp3格式print(url)pinyin = driver.find_element_by_xpath(r'//*[@id="pinyin"]/span/b').textprint(pinyin)driver.back()with open('pinyi.txt','a+',encoding = ('UTF-8-sig')) as f:f.writelines(shz + ',' + pinyin + '\n')ele = WebDriverWait(driver,10,0.2).until(ec.title_contains('百度汉语'))print('抓取成功')#   main():
txt = []
with open('yourtxt.txt','r',encoding = ('UTF-8-sig')) as f:txt = f.readlines()for i in range(len(txt)):try:print(i + 1)d = txt[i][-2]getvalue(d)except Exception as e:print(e)driver.close()
driver.quit()

python+selenium的一个小蜘蛛相关推荐

  1. 用python selenium实现一个简单的考试系统的自动做题

    xuefa考试,很实用的东西,不需要废话,直接上代码: # encoding:utf-8 import sys reload(sys) sys.setdefaultencoding('utf8') f ...

  2. 四、使用python+selenium搭建一个ppt翻译小程序(将ppt中的中文翻译为英文)

    一.前言 本翻译小程序功能为将ppt中的中文翻译称为英文.项目文件结构如下: 1.newppt:转换成英文之后所存的ppt: 2.oldppt:需要转换的ppt: 3.chromedriver:需要自 ...

  3. python selenium自动化框架_一文讲透!实现一个Python+Selenium的自动化测试框架如此简单!...

    首先你得知道什么是Selenium? Selenium是一个基于浏览器的自动化测试工具,它提供了一种跨平台.跨浏览器的端到端的web自动化解决方案.Selenium主要包括三部分:Selenium I ...

  4. Python selenium —— 将你的自动化脚本打包成一个exe

    写好了Python selenium脚本,到其他机器上运行,还得要在其他机器上也装一套Python的环境,尤其在你用了一些第三方库的时候,甚至还要顾及操作系统是32位还是64位,是不是很坑,如果能打成 ...

  5. Python:Selenium和PhantomJS

    Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上, ...

  6. Python+selenium+firefox模拟登录微博并爬取数据(1

    1:环境python3.5,最新 firefox,selenium-3.14.0. 本来准备用无界面的,但是感觉效果不好看出来所以先用有界面的浏览器来做.分几次来慢慢写.这节先配置好环境. 2:安装: ...

  7. python selenium p_Python爬虫(二十一)_Selenium与PhantomJS

    本章将介绍使用Selenium和PhantomJS两种工具用来加载动态数据,更多内容请参考:Python学习指南 Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试 ...

  8. mac 搭建python+selenium+chromedriver环境

    mac 搭建python+selenium+chromedriver环境 有关配置默认python3,请查看:https://blog.csdn.net/qq_35098526/article/det ...

  9. Python+Selenium自动化

    2019独角兽企业重金招聘Python工程师标准>>> 1,什么是selenium selenium是一个开源的自动化测试框架,主要适用WEB测试,可以支持多种语言(Java, C# ...

最新文章

  1. TLU-Net:表面缺陷自动检测的深度学习方法
  2. 深度神经网络在基于视觉的目标检测中的应用
  3. hdu3117 斐波那契前后4位
  4. RH442-3 队列技术
  5. 初次使用nginx 搭建http2.0
  6. 判断日期是否为当月最后一天_对比Excel,怎么用Python获取指定月最后一天的日期...
  7. 微信小程序云开发教程-JavaScript入门(3)-数据类型
  8. 2019基金行业变革之年
  9. OpenCV 人脸识别DNN face detector文件下载(opencv_face_detector.pbtxt;opencv_face_detector_uint8.pb;。。。。)
  10. matlab及系统仿真期末试题,matlab与系统仿真综合试题
  11. HTML+CSS(part 1)
  12. wifidog 整体分析
  13. 微信公众号开发之用户分组
  14. 七月上伴奏计算机按键,数字化音乐专业教室配备方案(7页)-原创力文档
  15. redis从db0迁移数据至db1
  16. 【Win】全角半角切换 | 解决英文字符变宽
  17. Hungry Student Problem_Codeforces
  18. 云和恩墨大讲堂电子期刊第四期
  19. 硫酸软骨素-聚乙二醇-卵清蛋白,Chondroitin sulfate-PEG-OVA/Ovalbumin
  20. 让IE8兼容console

热门文章

  1. 基于nodejs+vue+mysql在线化妆品购物商城网站设计
  2. lgv30屏幕参数_LGV30配置曝光:新旗舰终于用上骁龙835
  3. 使用Python制作中文词云
  4. SSD 之BBM坏块管理机制
  5. Qt终极教程——用Qt编程实现中国象棋游戏(提供源代码和程序编译运行教程)
  6. 排课表--拓扑排序【自己写的拓扑排序方法】[1]
  7. 惠普打印机HP 1010在WIN7(64位系统)下面的网络安装
  8. Linux 环境变量配置的 6 种方法,建议收藏!
  9. MySql命令-公司总结
  10. html js 图片放大效果,JavaScript实现图片放大预览效果