python工具脚本，网站广告违禁词检测脚本源码

自从广告法公布以来，广告违禁词，极限词投诉愈发增多，不仅仅是电商广告，网站也开始收到投诉，处罚，其中也有不少同行蠢蠢欲动的投诉，举报，如果你有发现此类同行，不妨可以尝试一下，绝对会令对手焦头烂额！

不少网站也推出了此类检测工具，当然割韭菜的居多，要不让你注册会员，购买会员或者积分，实质上很难检测你的问题，处理掉违禁词，如果你公司配有程序员还好，没有的话，那就只能自己上手操作一番，好在有python，直接写脚本开撸！

广告违禁词图片

从上面的图片提取出广告违禁词，这里推荐QQ图片文字识别，应用python读取输出为列表！

违禁词获取参考源码：

#违禁词词库
# -*- coding: utf-8 -*-
#20210112 by 微信：huguo00289Zui="最佳、最具、最爱、最嫌、最优、最优秀、最好、最大、最人程度、最高、最高级、最高端、最耆侈、最低、最低级、最低价、最底、最便宜、史上最低价、最流行、最受欢迎、最时尚、最聚拢、最符合、最舒适、最先、最先进、最先进科学、最先进加工工艺、最先享受、最后、最后—波、最新、最新技术、最新科学"
Yi="第一、中国第一、全网第一、销量第一、排名第一、唯一、第一品牌、NO.1、TOP1、独一无二、全国第一、—流、一天、仅此一次、仅此一款、最后—波、大品牌之一"
Sj="首个、首选、独家、独家配方、首发、全网首发、全国首发、首家、全网首家、全国首家、网独家、网首发、首次、首款、全国销量冠军、国家级产品、国家、国家免检、国家领导人、填补、国内空白、中国驰名、驰名商标、国际品质"
Shj="随时结束、随时涨价、马上降价、倒计时、趁现在、特惠趴、购物大趴、闪购"
Zh="国家级、国家级产品、全球级、宇宙级、世界级、顶级、顶尖、尖端、顶级工艺、顶级享受、高级、极品、极佳、绝佳、绝对、终极、极致"
Pp="大牌、金牌、名牌、王牌、领袖品牌、世界领先、遥遥、领先、领导者、缔造者、创领品牌、领先上市、巨星、著名、掌门人、至尊、巅峰、者侈、优秀、资深、领袖、之王、王者、冠军"
Qw="老字号、中国驰名商标、特供、专供、专家推荐、质量免检、无需国家质量检测、免抽检、领导人推荐、机关推荐"
Qz="1点击领奖、恭喜获奖、全民免单、点击有惊喜、点击领取、点击转身、点击试穿、点击翻转、领取奖品、秒杀、抢爆、再不抢就没了、不会再便宜了.没有他就、错过就没机会了、万人疯抢、全民疯抢、抢购、卖疯了、抢疯了"def wj():wjc=f'{Zui}{Yi}{Sj}{Shj}{Zh}{Pp}{Qw}{Qz}'wjc=wjc.split("、")return wjcif __name__=="__main__":wj()

当然如果有其他违禁词需求，可以再继续添加到列表中，进行匹配！

违禁词的检测，其实就是一个简单的匹配处理，直接用in即可获取，然后进行判断选择输出即可！

检测效果

检测参考源码：

#违禁词处理筛选
#20210112 by 微信：huguo00289
# -*- coding: utf-8 -*-
import requests
from lxml import etree
from ck import wj
from fake_useragent import UserAgent#读取网页链接
def read_txt(path):with open(path) as f:urls=f.readlines()print(urls)return urls#写入txt
def save_txt(nr):with open(f"jjweijin.txt",'a+',encoding='utf-8') as f:f.write(f'{nr}\n')def jcwy(url):headers={"User-Agent":UserAgent().random,}html=requests.get(url,headers=headers,timeout=8,).content.decode('utf-8')#print(html)html_str=str(html)html_strs=html_str.split('\n')print(html_strs)cks=wj()k="**"*50j="--"*50print(k)save_txt(k)zzjc=f"正在检查网页:{url}"print(zzjc)save_txt(zzjc)for html_str in html_strs:for ck in cks:if ck in html_str:print(j)print(f"发现违禁词：{ck}")print(f'存在于：{html_str}')print(j)save_txt(f'{j}\n发现违禁词：{ck}\n存在于：{html_str}\n{j}')print(k)save_txt(k)#课程内容
def get_hrefs():headers={"User-Agent":UserAgent().random,}url="http://www.xxxx.com/curriculum/c-0.html"html=requests.get(url,headers=headers,timeout=5).content.decode('utf-8')tree=etree.HTML(html)hrefs=tree.xpath('//div[@class="courses-3"]/a/@href')for href in hrefs:href=f'http://m.xxx.com{href}'jcwy(href)def main():path = r'pinsuo.txt'urls = read_txt(path)for url in urls:url = url.strip()url=url.replace('https://www.','https://m.')print(url)jcwy(url)def jj():path = r'jj.txt'urls = read_txt(path)for url in urls:url = url.strip()print(url)jcwy(url)if __name__=='__main__':#get_hrefs()#jj()main()

需要说明的是，网站移动端如果是重写，也需要进行匹配处理，其实就是在PC端的基础上，www改成移动端，m端即可，其实也没有什么好说明的！

最后，收录的快照页面，需要进行投诉快照提交，这样在百度搜索的页面上才能看到更新效果！

微信公众号：二爷记

不定时分享python源码及工具

python工具脚本，网站广告违禁词检测脚本源码相关推荐

广告发布内容审核与广告违禁词检测工具的原理
检测广告内容是广告发布前后判断广告是否违反<广告法>的重要工作.随着广告业的快速发展,广告表达方式越来越复杂,传统的广告内容检测工具作用力也越来越小,因此,具有AI人工智能技术加持的广告内 ...
utils方法，时间工具,数组排序,违禁词检测
utils方法记录在线时间戳转换:https://tool.lu/timestamp 对象传参需要转义特殊字符[{.}.[.].".".'.']在线转义查看:https://ww ...
违禁词检测API - 私有化部署
违禁词检测API,支持私有化部署,开箱即用, 下载到本地直接运行,直接http json查询. 下载地址 https://github.com/bosnzt/wordscheck https://gi ...
autojs写脚本：天启app脚本源码
autojs写脚本:天启app脚本源码个人保存而已. 源码中涉及到广告关闭.控件点击等函数.自己使用的. 需要的话需付费.不免费. 如果真有心,想学,源码中的编写脚本的逻辑等完全够用. var 日常 ...
bat脚本保存dir结果_Tomcat的启停脚本源码解析
作者 | 程序员自由之路来源 | cnblogs.com/54chensongxia/p/13234398.html Tomcat的启停脚本源码解析 Tomcat是一款我们平时开发过程中最常用到的S ...
快克违禁词检测工具（支持百度搜狗）SEO工具
介绍: 本工具主要用于检测关键词是否违禁词,免费版可免费检测100个词. 工具支持百度和搜狗两大主流搜索引擎,后期可增加,授权之后永久可使用最新更新版本百度可使用本地模式,正常情况无需使用代理,根据 ...
瞎搞的，对，抄的，几个Python工具脚本！
txt关键词文档合并去重一堆关键词列表,格式为txt文档,在同一个目录内,全部读取再去重获得一个汇总关键词列表文档txt! #关键词整合过滤 # -*- coding: utf-8 -*- impo ...
php字典分词，广告违禁词模块
2023年2月23日13:37:54 php版本8.0 laravel8 https://github.com/lizhichao/VicWord composer require lizhichao ...
python爬虫获取网站销售情况（内置源码）
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的.而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程: 注:此处猫咪销售网站中的内容本来就可以免费 ...
COCO目标检测数据集的读取方法与Python工具脚本
COCO (Common Objects in COntext) 是一个大型的图像数据集,提供了目标检测.分割.看图说话等多个任务的标签.COCO的标注文件是用json格式编写的,初次接触时需要花十来 ...

python工具脚本，网站广告违禁词检测脚本源码

python工具脚本，网站广告违禁词检测脚本源码相关推荐

最新文章

热门文章