PYTHON SELENIUM的学习笔记

1

trg = driver.find_element_by_xpath(’//*[@id=“jb”]/div[2]’)
上句中的XPATH语句是从chrome的F12中直接右键目标得到的。以后可以作为参考样例。

2

ele = WebDriverWait(driver,20,0.2).until(ec.text_to_be_present_in_element((By.XPATH,"//td[@class=‘t1’]"),u’字典搜索’))
这个语句能正常工作，然而屏蔽掉它程序依然可以正常操作，真的需要吗？等报错再用吧。

3

st = strs.splitlines() 这个语句是split()函数的多行版，很好用哦！可以自动将内嵌多行的string分解成列表。

4 火狐无头浏览器的设置

from selenium import webdriver
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.ui import WebDriverWait #非无头设置的必须
from selenium.webdriver.common.by import By #非无头设置的必须
op = webdriver.FirefoxOptions()
op.add_argument("–headless") #等效于 ———— op.set_headless()
op.add_argument("–disable-gpu") #禁用GPU加速
driver = webdriver.Firefox(firefox_options = op)
driver.get(address)
以上是火狐无头浏览器设置。
要记得火狐的无头浏览器名称是：geckodriver.exe 一定要记得下载合适的版本并将其放置在：C:\Users\mlong\AppData\Local\Programs\Python\Python37\Scripts文件夹下(随个人设置而不同)。

5

import time
start = time.clock()
end = time.clock()
print(end-start)
以上可以用来测试程序某段的运行时间。time.time()也可以。

6

with open(“cww.txt”,“a”,encoding=“utf-8”) as f:
以上用来打开文件不需要最后调用close()函数。优先使用。

7

模式可做操作若文件不存在是否覆盖
r 只能读报错 -
r+ 可读可写报错是
w 只能写创建是
w+　可读可写创建是
a　　只能写创建否，追加写
a+ 可读可写创建否，追加写

8

str.replace(‘～’,strs) 用前面的参数替换后面的字符串里面的所有字符。

9

string.punctuation 是python内置的标点符号的合集

10

t = t.translate(str.maketrans(’’,’’,‘s’))查找并干掉字符串t里面的所有指定字符s

11

if re.match(r"[\u4e00-\u9fa5]",strs): 如果strs是汉字字符那么。。。。。。

12

handles = driver.window_handles
for t in handles:
print(t)
以上获取全部窗口句柄

13

driver.execute_script(‘arguments[0].scrollIntoView();’,trg)
以上将选定的元素（trg)定位到屏幕中间。

14 网摘笔记

以百库文库为例(https://wenku.baidu.com/view/217d303c76eeaeaad0f33075.html),较大的文档的展示一般是通过分页展示,并且每一页的内容不会全部加载,要在浏览到当前页才会加载当前几页的内容。像这个文档,一次显示五十页,但是只会加载当前浏览进度处的三叶内容。因此要自动抓取这个内容需要实现滚动功能。
selenium有两种滚动方式:
第一种,滚动到特定位置“:
driver.execute_script(‘var q=document.body.scrollTop=3500’) 滚动到页面的3500像素处(从上往下)(通过网页审查可以看到整个网页的像素大小) 第二种,以当前位置为参照,滚动一定距离: driver.execute_script(‘window.scrollBy(0, 1000)’) 从当前位置向下滚动1000像素。第三种,定位到特定的元素:element = driver.find_element_by_xpath("//span[@class=‘fc2e’]") 先找到特定的web元素(与beautifulsoup中的元素概念不同)。driver.execute_script(‘arguments[0].scrollIntoView();’,element) 把特定的元素滚动到页面的顶部/底部,但不一定能被点击到。实现点击: element.click()值得注意的是:目标元素经常会被一些内容遮挡,另外注意设置等待时间。网页的解析还是使用beautifulsoup:html = driver.page_source bf1 = BeautifulSoup(html, ‘lxml’) result = bf1.find_all(class_=‘ie-fix’) for each_result in result: for singlecell in each_result.find_all(‘p’): if ‘left:907px’ in str(singlecell[‘style’]): f.write(’/n’) f.write(singlecell.string+’#’)
11.1.使用JavaScript操作页面元素
#构造JavaScript查找百度首页的搜索输入框的代码字符串： searchImputBoxJS = “document.getElementById(‘kw’).value = ‘你的意义’;”
#构造JavaScript查找百度首页的搜索按钮代码字符串：searchButtonJS = “document.getElementById(‘su’).click()”
11.2.操作Web页面的滚动条
#使用javaScript的scrollTo函数和document.body.scrollHeight参数
#将页面的滚动条滑动到页面的最下方：self.driver.execute_script(“window.scrollTo(100, document.body.scrollHeight);”)
#使用JavaScript的scrollIntoView函数将被遮挡的元素滚动到可见屏幕上
#scrollIntView(true)表示将元素滚动屏幕中间
#scrollView(false)表示将元素滚动到屏幕底部
self.driver.execute_script(“document.getElementById(‘choice’).scrollIntoView(true);”)
#使用JavaScript的scrollBy方法，使用0和400横纵坐标参数

15 解决’\ufeff’

当用以下语句读TXT文件时会遇到首字是预期之外的’\ufeff’时候…
with open(‘linshiaaa.txt’,‘r’,encoding=“UTF-8”) as f:
解决方法很简单，只要把字符编码改成这样：
encoding = “UTF-8-sig”

16 有序地分割字符串

tdict[tx[i].split(’,’)[0]] = tx[i].split(’,’)[1][:-1]
嗯，这玩意就是用的split将字符串有序分割成为字典的。

17 理解main

'''if __name__ == '__main__'的意思是：当.py文件被直接运行时，
if __name__ == '__main__'之下的代码块将被运行；
当.py文件以模块形式被导入时，if __name__ == '__main__'之下的代码块不被运行。'''

18 重启脚本程序

import os
import sys
def restart_program():python = sys.executableos.execl(python, python, * sys.argv)

使用中确实可以重启脚本，但是貌似会出很多意外，不是什么程序都可以用它。

懒汉伸手之删除所有非中英文字符

day = re.sub('[^\w\u4e00-\u9fff]+', "", time.strftime("%F"))