标题Python的下载、安装、运行

  1. 官方下载地址:https://www.python.org/downloads/
    如果操作系统为Windows,可以直接点黄色按钮下载最新版的Python。如果是其它操作系统,或者想要下载旧版本,点击白色框框里的链接,找到想要的版本下载即可。
  2. 双击安装包,进入安装界面。可以选择直接安装或自定义安装。记得勾选安装界面底下两个选项,方便日后安装第三方库
  3. 安装第三方库
    【开始】菜单——运行——输入CMD——确定
    在打开的窗口中输入【pip install lxml】,回车,等待第三方库安装成功

恭喜,你已经成功安装了Python,并且安装了接下来要用到的第三方库lxml,还学会了安装第三方库的方法。下面我们开始搜索并提取信息吧

搜索与信息提取

  1. 在谷歌上搜索一个关键词。为了一次性获取更多结果,我把搜索结果数量设置为100个
  2. 结果页空白处右击——查看源文件——复制全文【Ctrl+A】——粘贴到txt文件,保存为【html.txt】
  3. 在【开始】菜单找到IDLE,单击打开

  4. 新建一个py文件。在菜单栏依次点击File——New File,或者使用快捷键【Ctrl+N】
  5. 把以下代码粘贴到新文件里,然后按快捷键【Ctrl+S】保存,文件名为【test.py】
from lxml import etreedef collect_domains():html = open("html.txt", 'rb').read()html = etree.HTML(html)path = '//*[@id="rso"]/div[*]/div/div/div[1]/a/div/cite'elements = html.xpath(path)urls = [element.text for element in elements]rows = ""for url in urls:domain = url.split("/")[-1]if domain.startswith("www."): domain = domain[4:]rows = rows + f"{url}\t{domain}\n"open("结果.txt","w").write(rows)collect_domains()
  1. 把【test.py】和【html.txt】放在同一个文件夹下,如【文件夹1】,双击运行【test.py】
  2. 在【文件夹1】下出现一个【结果.txt】,里面储存着提取到的所有url和域名。可以把结果复制到Excel或WPS表格中,作进一步的处理。

无代码版本(免安装)

如果你不想安装Python,不想写代码,也可以用这个封装好的【信息提取】程序
下载地址:https://shimo.im/files/jHTYXvCKKtQ3PCxW

完整代码

from lxml import etree
import os, time
from tkinter import *
from tkinter import ttk           def get_only(old_list):L = []for row in old_list:if row not in L:L.append(row)return L #new_listdef collect_domains(filename, path, content, only):html = open(filename, 'rb').read()html = etree.HTML(html)elements = html.xpath(path)urls    = [element.text for element in elements]domains = [url.split("/")[-1] for url in urls]domains = [domain[4:] if domain.startswith("www.") else domain for domain in domains]if content == "仅网址":        rows = urlselif content == "仅域名":      rows = domainselif content == "网址+域名":   rows = [f"{urls[i]}\t{domains[i]}" for i in range(len(urls))]if only == "是": rows = get_only(rows)        open(f"结果{time.strftime('%Y-%m-%d %H-%M-%S')}.txt","w").write("\n".join(rows))def create_win():def command1():filename, path, content, only = [D[key].get() for key in D]collect_domains(filename, path, content, only)win = Tk()win.title("信息收集")frame = Frame(win)frame.pack(padx=20, pady=20)D = {}texts = ['文件名', 'path', '提取内容', '去重']for r in range(4):Label(frame, width=10, text=texts[r]).grid(row=r, column=0)D[f'{r}1'] = ttk.Combobox(frame, width=40)D[f'{r}1'].grid(row=r, column=1)D[f'01']["values"] = [name for name in os.listdir() if name.endswith(".txt") and name.startswith("结果") is False]D[f'11']["values"] = ['//*[@id="rso"]/div[*]/div/div/div[1]/a/div/cite']D[f'21']["values"] = ["仅网址", "仅域名", "网址+域名"]D[f'31']["values"] = ["是", "否"]Button(win, text="确认", width=15, command=command1).pack(pady=20)win.mainloop()create_win()

从浏览器中提取xpath

如果你想要从其它网页收集网址或域名,只需要手动修改路径。分享一种获取路径的简单方法。

  1. 在Chrome或搜狗浏览器按【F12】调出控制台,进行选择模式,点击需要收集的元素
  2. 在控制台选中该元素——右键菜单——复制Xpath。
  3. 复制2个元素的Xpath,粘贴到txt文件中,比较两者差异
  4. 差异部分(数字)用【*】代替,得到xpath

注意:浏览器控制台给出的xpath有时不准,可能需要自己在源文件中查找识别
视频演示:https://shimo.im/files/kVH6G38YCKwDJRRc

从谷歌搜索结果页中提取url与域名相关推荐

  1. 一种精确从文本中提取URL的思路及实现

    在今年三四月份,我接受了一个需求:从文本中提取URL.这样的需求,可能算是非常小众的需求了.大概只有QQ.飞信.阿里旺旺等之类的即时通讯软件存在这样的需求.在研究这个之前,我测试了这些软件这块功能,发 ...

  2. php提取字符串连接,如何从PHP中的字符串中提取URL?

    我正在使用PHP的"simplexml_load_file"从Flickr获取一些数据. 我的目标是获取照片网址. 我能够得到以下值(分配给PHP变量): codewrecker ...

  3. Excel中提取url的文件名

    完整公式: =MID(A1,FIND("@",SUBSTITUTE(A1,"/","@",LEN(A1)-LEN(SUBSTITUTE(A1 ...

  4. python输入文字字符串、如何提取字符_如何使用python从字符串中提取url?

    例如: string = "This is a link http://www.google.com" 我怎样才能提取"http://www.google.com&quo ...

  5. VirusTotal api 在 python 中的 URL,域名使用

    URL 发送并扫描URL 首先发送扫描一个url,要向https://www.virustotal.com/vtapi/v2/url/scan 发送一个http post 请求, 其中api 接受请求 ...

  6. python提取excel数据-代码详解:使用Python从不同表格中提取数据

    常用的表格数据存储文件格式--CSV,Microsoft Excel,Google Excel . Python通常称为粘合语言.这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良 ...

  7. python处理表格数据教程_代码详解:使用Python从不同表格中提取数据

    常用的表格数据存储文件格式--CSV,Microsoft Excel,Google Excel . Python通常称为粘合语言.这个名称归因于人们逐渐开发出的大量接口库和特征,也得益于广泛的使用和良 ...

  8. Python实现从url中提取域名的几种方法

    这篇文章主要介绍了Python实现从url中提取域名的几种方法,本文给出了3种方法实现在URL中提取域名的需求,需要的朋友可以参考下. 从url中找到域名,首先想到的是用正则,然后寻找相应的类库.用正 ...

  9. python3 提取url中域名部分_python 从网址(url)中提取域名和path

    python 从url中提取域名和path python2代码 from urlparse import * url='http://www.chenxm.cc/post/719.html' res= ...

  10. 使用python提取url中的顶级域名及其后缀

    提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名.参考博文:https://blog.csdn.net/weixin_44799217/arti ...

最新文章

  1. 万字解读:预训练模型最新综述!
  2. Ubuntu 12.04下安装GTK 2.24.10
  3. CopyOnWriteArrayList源码
  4. slice切割数组arr=[[0,1],[2,3]]
  5. python计算方位角_实例讲解:用python 计算方位角(根据两点的坐标计算)记得收藏哦...
  6. 07.MyBatis中的关联查询
  7. 这道 Go 题目外网超过 80% 的人都答错了,你来试试...
  8. iOS 8 UI布局 AutoLayout及SizeClass(二)
  9. 内镜碎石术装置行业调研报告 - 市场现状分析与发展前景预测
  10. 有关两个jar包中包含完全相同的包名和类名的加载问题
  11. mysql 定时备份 空_如何在不停止Mysql服务的状况下,定时备份mysql数据库
  12. Learning Python 012 函数式编程 1 高阶函数
  13. php cimage类,强大的多功能的用VB编写的高速图像处理库Cimage简介! - 小志的日志 - 电子工程世界-论坛...
  14. 生成android toolchain
  15. smartdns使用指南_SmartDNS 使用教程(PLUS+版)
  16. 最大公约数和最小公倍数
  17. 工资12000扣多少税?--2020年个人所得税最新算法Excel表格
  18. 用灭点法提取的深度图
  19. C语言基础课 编写程序之1.编写一个判断素数的函数,并利用该函数输出100~200的所有素数2.编写一个函数fun(),函数功能是:判断一个整数是否既是5又是7的整倍数,若是,输出yes,不是,输出n
  20. 这些绿色也太好看了吧,这才是真正的高端审美

热门文章

  1. java识别音高_如何找出音乐的音高
  2. 台湾大学林轩田机器学习基石课程学习笔记4 -- Feasibility of Learning
  3. 图像放大的三种处理方法:最近邻插值,双线性插值 ,双三次插值算法
  4. 重邮python实验课之华氏温度转摄氏温度速查表
  5. 关于使用J-Flash直接烧录bin文件的方法
  6. 法制博览杂志法制博览杂志社法制博览编辑部2022年第24期目录
  7. order by a desc,b desc与order by a,b desc不同
  8. 小学教资——教育教学口诀
  9. MOSS Project Server 2007
  10. 关于标志信息ZF、OF、SF、CF的理解