标题Python的下载、安装、运行

官方下载地址：https://www.python.org/downloads/
如果操作系统为Windows，可以直接点黄色按钮下载最新版的Python。如果是其它操作系统，或者想要下载旧版本，点击白色框框里的链接，找到想要的版本下载即可。
双击安装包，进入安装界面。可以选择直接安装或自定义安装。记得勾选安装界面底下两个选项，方便日后安装第三方库
安装第三方库
【开始】菜单——运行——输入CMD——确定
在打开的窗口中输入【pip install lxml】，回车，等待第三方库安装成功

恭喜，你已经成功安装了Python，并且安装了接下来要用到的第三方库lxml，还学会了安装第三方库的方法。下面我们开始搜索并提取信息吧

搜索与信息提取

在谷歌上搜索一个关键词。为了一次性获取更多结果，我把搜索结果数量设置为100个
结果页空白处右击——查看源文件——复制全文【Ctrl+A】——粘贴到txt文件，保存为【html.txt】
在【开始】菜单找到IDLE，单击打开
新建一个py文件。在菜单栏依次点击File——New File，或者使用快捷键【Ctrl+N】
把以下代码粘贴到新文件里，然后按快捷键【Ctrl+S】保存，文件名为【test.py】

from lxml import etreedef collect_domains():html = open("html.txt", 'rb').read()html = etree.HTML(html)path = '//*[@id="rso"]/div[*]/div/div/div[1]/a/div/cite'elements = html.xpath(path)urls = [element.text for element in elements]rows = ""for url in urls:domain = url.split("/")[-1]if domain.startswith("www."): domain = domain[4:]rows = rows + f"{url}\t{domain}\n"open("结果.txt","w").write(rows)collect_domains()

把【test.py】和【html.txt】放在同一个文件夹下，如【文件夹1】，双击运行【test.py】
在【文件夹1】下出现一个【结果.txt】，里面储存着提取到的所有url和域名。可以把结果复制到Excel或WPS表格中，作进一步的处理。

无代码版本（免安装）

如果你不想安装Python，不想写代码，也可以用这个封装好的【信息提取】程序
下载地址：https://shimo.im/files/jHTYXvCKKtQ3PCxW

完整代码

from lxml import etree
import os, time
from tkinter import *
from tkinter import ttk           def get_only(old_list):L = []for row in old_list:if row not in L:L.append(row)return L #new_listdef collect_domains(filename, path, content, only):html = open(filename, 'rb').read()html = etree.HTML(html)elements = html.xpath(path)urls    = [element.text for element in elements]domains = [url.split("/")[-1] for url in urls]domains = [domain[4:] if domain.startswith("www.") else domain for domain in domains]if content == "仅网址":        rows = urlselif content == "仅域名":      rows = domainselif content == "网址+域名":   rows = [f"{urls[i]}\t{domains[i]}" for i in range(len(urls))]if only == "是": rows = get_only(rows)        open(f"结果{time.strftime('%Y-%m-%d %H-%M-%S')}.txt","w").write("\n".join(rows))def create_win():def command1():filename, path, content, only = [D[key].get() for key in D]collect_domains(filename, path, content, only)win = Tk()win.title("信息收集")frame = Frame(win)frame.pack(padx=20, pady=20)D = {}texts = ['文件名', 'path', '提取内容', '去重']for r in range(4):Label(frame, width=10, text=texts[r]).grid(row=r, column=0)D[f'{r}1'] = ttk.Combobox(frame, width=40)D[f'{r}1'].grid(row=r, column=1)D[f'01']["values"] = [name for name in os.listdir() if name.endswith(".txt") and name.startswith("结果") is False]D[f'11']["values"] = ['//*[@id="rso"]/div[*]/div/div/div[1]/a/div/cite']D[f'21']["values"] = ["仅网址", "仅域名", "网址+域名"]D[f'31']["values"] = ["是", "否"]Button(win, text="确认", width=15, command=command1).pack(pady=20)win.mainloop()create_win()

从浏览器中提取xpath

如果你想要从其它网页收集网址或域名，只需要手动修改路径。分享一种获取路径的简单方法。

在Chrome或搜狗浏览器按【F12】调出控制台，进行选择模式，点击需要收集的元素
在控制台选中该元素——右键菜单——复制Xpath。
复制2个元素的Xpath，粘贴到txt文件中，比较两者差异
差异部分（数字）用【*】代替，得到xpath

注意：浏览器控制台给出的xpath有时不准，可能需要自己在源文件中查找识别
视频演示：https://shimo.im/files/kVH6G38YCKwDJRRc

从谷歌搜索结果页中提取url与域名相关推荐

一种精确从文本中提取URL的思路及实现
在今年三四月份,我接受了一个需求:从文本中提取URL.这样的需求,可能算是非常小众的需求了.大概只有QQ.飞信.阿里旺旺等之类的即时通讯软件存在这样的需求.在研究这个之前,我测试了这些软件这块功能,发 ...
php提取字符串连接,如何从PHP中的字符串中提取URL？
我正在使用PHP的"simplexml_load_file"从Flickr获取一些数据. 我的目标是获取照片网址. 我能够得到以下值(分配给PHP变量): codewrecker ...
Excel中提取url的文件名
完整公式: =MID(A1,FIND("@",SUBSTITUTE(A1,"/","@",LEN(A1)-LEN(SUBSTITUTE(A1 ...
python输入文字字符串、如何提取字符_如何使用python从字符串中提取url？
例如: string = "This is a link http://www.google.com" 我怎样才能提取"http://www.google.com&quo ...
VirusTotal api 在 python 中的 URL，域名使用
URL 发送并扫描URL 首先发送扫描一个url,要向https://www.virustotal.com/vtapi/v2/url/scan 发送一个http post 请求, 其中api 接受请求 ...
python提取excel数据-代码详解：使用Python从不同表格中提取数据
常用的表格数据存储文件格式--CSV,Microsoft Excel,Google Excel . Python通常称为粘合语言.这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良 ...
python处理表格数据教程_代码详解：使用Python从不同表格中提取数据
常用的表格数据存储文件格式--CSV,Microsoft Excel,Google Excel . Python通常称为粘合语言.这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良 ...
Python实现从url中提取域名的几种方法
这篇文章主要介绍了Python实现从url中提取域名的几种方法,本文给出了3种方法实现在URL中提取域名的需求,需要的朋友可以参考下. 从url中找到域名,首先想到的是用正则,然后寻找相应的类库.用正 ...
python3 提取url中域名部分_python 从网址(url)中提取域名和path
python 从url中提取域名和path python2代码 from urlparse import * url='http://www.chenxm.cc/post/719.html' res= ...
使用python提取url中的顶级域名及其后缀
提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名.参考博文:https://blog.csdn.net/weixin_44799217/arti ...

从谷歌搜索结果页中提取url与域名