WSDM'23 | 工业界搜推广nlp论文整理
大家好,蘑菇先生。
WSDM'23已公布录用结果,共收到投稿690篇,录用123篇,录用率为17.8%,完整录用论文:
https://www.wsdm-conference.org/2023/program/accepted-papers
本篇文章主要关注工业界在搜索、推荐、广告、NLP以及图神经网络上的最新研究和落地进展。主要会按照国内外头部大厂分类整理,来盘点每个公司研究和应用的关注点:有哪些应用场景、有哪些核心技术方向和亮点等
阿里
阿里在WSDM2023上的工作主要有:
在推荐上,应用的场景包括:跨域推荐、端上推荐、多场景复购推荐、融合知识图谱的推荐等。核心的技术包括:对比学习、联邦学习等。
在NLP上,应用的场景包括:电商商品理解、图文检索。核心技术包括:多模态预训练、蒸馏、提示学习、对比学习。
在GNN上,应用的场景包括:快递配送时间预估。核心技术包括:归纳式图学习、图Transformer、图蒸馏等。
在广告上,应用的场景包括:拍卖广告。
来一览papers:
【跨域推荐】Towards Universal Cross-Domain Recommendation
【多场景/复购推荐】MUSENET: Multi-Scenario Learning for Repeat-Aware Personalized Recommendation
【联邦端上推荐】Federated Unlearning for On-Device Recommendation
【对比学习推荐】Knowledge-Adaptive Contrastive Learning for Recommendation
【拍卖广告】Boosting Advertising Space: On Designing Ad Auctions for Augment Advertising
【多模态商品理解】Multimodal Pre-Training with Self-Distillation for Product Understanding in E-Commerce
【prompt】Making Pre-trained Language Models End-to-end Few-shot Learners with Contrastive Prompt Tuning
【多模态图文检索】AGREE: Aligning Cross-Modal Entities for Image-Text Retrieval Upon Vision-Language Pre-trained Models
【图网络用于快递时间预测】Inductive Graph Transformer for Delivery Time Estimation
【图网络蒸馏】Learning to Distill Graph Neural Networks
百度
百度在WSDM2023上的工作主要有:
在搜索上:研究方向主要涉及搜索无偏学习。
在图神经网络上:研究GNN的鲁棒性训练方法。
来一览papers:
【图网络鲁棒性训练】Robust Training of Graph Neural Networks via Noise Governance
【搜索无偏LTR】Model-based Unbiased Learning to Rank
腾讯
腾讯在WSDM2023上的工作主要有:
在推荐上,应用场景是跨域推荐、列表整体(slate)推荐、CTR预估、端上推荐(和阿里合作)。核心技术包括:迁移学习、强化学习(列表整体生成)、图分解机、知识蒸馏、联邦学习等。
在NLP上,应用场景包括:实体检索、实体链接。核心技术包括:知识感知的多层次图网络。
在广告上,应用场景包括:用户生命周期价值(CLV)预测。
在图神经网络上,应用场景包括:黑市账户检测。核心技术:自监督图学习。
来一览papers:
【跨域推荐】One for All, All for One: Learning and Transferring User Embeddings for Cross-Domain Recommendation
【序列整体推荐】Slate-Aware Ranking for Recommendation
【CTR预估-知识蒸馏】Directed Acyclic Graph Factorization Machines for CTR Prediction via Knowledge Distillation
【联邦端上推荐】Federated Unlearning for On-Device Recommendation
【NLP/GNN知识图谱】Modeling Fine-grained Information via Knowledge-aware Hierarchical Graph for Zero-shot Entity Retrieval
【NLP实体链接】Hansel: A Chinese Few-Shot and Zero-Shot Entity Linking Benchmark
【广告用户生命周期价值预侧】Feature Missing-aware Routing-and-Fusion Network for Customer Lifetime Value Prediction in Advertising
【自监督图表征学习-黑市账户检测】Self-supervised Graph Representation Learning for Black Market Account Detection
美团
美团在WSDM2023上的工作主要有:
推荐:应用场景是POI推荐,涉及的核心技术点包括:解耦式学习。
paper如下:
-【解耦式POI推荐】DisenPOI: Disentangling Sequential and Geographical Influence for Point-of-Interest Recommendation
字节
字节在WSDM2023上的工作主要有:
推荐:两篇工作都是多样性推荐场景。涉及的核心技术点包括:解耦式学习、图神经网络。
来一览papers:
【解耦式多样性推荐】Disentangled Representation for Diversified Recommendations
【推荐/图网络-多样性表征生成】DGRec: Graph Neural Network for Recommendation with Diversified Embedding Generation
华为
华为在WSDM2023上的工作主要有:
推荐:研究推荐系统上的自动动态模型生成框架,听起来很高大上。
搜索:应用场景包括:适配手机上多分块页面布局的点击模型、无偏相关性排序学习、LTR排序学习。核心的技术包括:点/检模型、trust bias纠偏、将list level排序升级为page level页面级排序等。
NLP:应用场景包括:实体对齐。
来一览papers:
【推荐-自动动态模型生成框架】AutoGen: An Automated Dynamic Model Generation Framework for Recommender System
【搜索-适配手机上多分块页面布局的点击模型】An F-shape Click Model for Information Retrieval on Multi-block Mobile Pages
【搜索-无偏相关性排序】Separating Examination and Trust Bias from Click Predictions for Unbiased Relevance Ranking
【搜索-LTR升级成page-level】A Bird’s-eye View of Reranking: from List Level to Page Level
【NLP-弱监督实体对齐】Weakly Supervised Entity Alignment with Positional Inspiration
微软
微软在WSDM2023上的工作主要有:
推荐:应用场景包括:CTR预估(对比学习框架,听名字很高大上)、会话推荐、用户交互度预估等,核心技术是对比学习、建模多层次用户意图、用户意图漂移等。
搜索:应用场景包括:代码搜索。
NLP:应用场景包括:大规模多标签分类。核心技术是:负样本挖掘。
图网络:研究GNN中的邻域特征分布建模、社交网络影响力最大化中的对抗攻击。
来一览papers:
【对比学习-CTR预估】CL4CTR: A Contrastive Learning Framework for CTR Prediction
【会话推荐中多层级用户意图】Efficiently Leveraging Multi-level User Intent for Session-based Recommendation via Atten-Mixer Network
【用户egagement预估】DIGMN: Dynamic Intent Guided Meta Network for Differentiated User Engagement Forecasting in Online Professional Social Platforms
【代码搜索】Revisiting Code Search in a Two-Stage Paradigm
【图网络-领域特征分布建模】MM-GNN: Mix-Moment Graph Neural Network towards Modeling Neighborhood Feature Distribution
【图网络-对抗攻击】Scalable Adversarial Attack Algorithms on Influence Maximization
【NLP-大规模标签多分类】NGAME: Negative Mining-aware Mini-batching for Extreme Classification
亚马逊
亚马逊在WSDM2023上的工作主要有:
推荐:应用场景包括:CTR预估(和微软合作)、会话推荐、用户交互度预估等,核心技术是对比学习、建模多层次用户意图、用户意图漂移等。
搜索:应用场景包括:搜索行为预测、语义召回 (除了困难负样本,建模成one-class分类问题),听起来很有意思。
NLP:应用场景包括:商品对比可解释生成。
图网络:研究GNN中的有偏的邻域采样。
来一览papers:
【对比学习框架】CL4CTR: A Contrastive Learning Framework for CTR Prediction
【搜索行为预测】Search Behavior Prediction: A Hypergraph Perspective
【语义搜索-不仅仅是困难负样本,One-class建模】Beyond Hard Negatives in Product Search: Semantic Matching using One-Class Classification (SMOCC)
【NLP-可解释生成】Generating Explainable Product Comparisons for Online Shopping
【图网络-有偏邻域采样】BLADE: Biased Neighborhood Sampling based Graph Neural Network for Directed Graphs
Facebook(Meta)在WSDM2023上的工作主要有:
推荐:包括:基于因果推断的用户偏好研究,图协同过滤推荐,这两篇听起来都很厉害。
图网络:研究图协同过滤的简化方案以及符号图 (没太接触过)。
来一览papers:
【推荐-因果视角理解用户偏好】A Causal View for Item-level Effect of Recommendation on User Preference
【推荐/图协同过滤】Simplifying Graph-based Collaborative Filtering for Recommendation
【图网络-符号网络】Learning Topical Stance Embeddings from Signed Social Graphs
总结
WSDM2023工业界搜推广NLP的主要的应用场景包括:跨域推荐、点击率预估、无偏排序学习、语义搜索、用户意图建模、图文检索等。涉及的技术主要集中在图神经网络、知识蒸馏、对比学习、迁移学习、表征学习、多模态等。不同公司关注的场景或技术差异非常大,比如阿里有很多多模态的工作、字节有很多多样性推荐的工作、华为、百度和亚马逊有很多搜索无偏学习、语义搜索等工作,和各家的核心业务差异存在较大关系。
有一些方向延续了过去两年火热的趋势,比如图神经网络、跨域推荐、点击率预估等。不过研究集中点有一些变化,比如WSDM2022上图网络更多的是推荐上的应用文章,今年却涌现了不少基础研究,如鲁棒性训练、蒸馏、归纳式学习、邻域特征分布、对抗攻击等,说明越来越卷了。还比如跨域推荐目前很多是结合对比学习或迁移学习的研究等。
还有些方向属于一直都很火,如无偏排序学习、语义搜索等。最后,有些方向最近1-2年内很火,比如多模态、prompt、对比学习、因果推断等,大多数可能是工业界正在尝试落地的场景,比如WSDM2023上有不少文章研究用户意图和用户偏好,如微软、facebook等,是有一些借鉴意义的。
参考
[1] WSDM2023接收论文列表:https://www.wsdm-conference.org/2023/program/accepted-papers
[2] WSDM'23 推荐系统论文梳理:https://zhuanlan.zhihu.com/p/589002426
[3] WSDM2023推荐系统相关论文整理:https://zhuanlan.zhihu.com/p/582742341
WSDM'23 | 工业界搜推广nlp论文整理相关推荐
- KDD2021| 工业界搜推广nlp论文整理
本文整理了KDD21的Accepted Papers[1]中,工业界在搜索.推荐.广告.nlp上的文章.整理的论文列表比较偏个人口味,选取的方式是根据论文作者列表上看是否是公司主导的,但判断比较偏主观 ...
- 机器阅读理解MRC论文整理
机器阅读理解MRC论文整理 最近发现一篇机器阅读理解整理的博客机器阅读理解整理整理于2020年 论文代码查找网站: https://dblp.uni-trier.de/db/conf/acl/acl2 ...
- WSDM‘23 推荐系统论文梳理
之前把2022年已公布的推荐系统相关顶会梳理一遍 ,历史推荐系统顶会论文梳理系列文章可以参考公众号或知乎,快捷合辑详见<2022推荐系统顶会论文梳理系列>. WSDM'23已公布录用结果, ...
- PICASSO,一个高效的搜推广稀疏训练解决方案
作者:张远行,陈浪石,宋钺,袁满 来源:智能引擎事业部.阿里妈妈广告技术部.阿里云计算平台事业部 一.整体情况概述 近日,阿里巴巴自研稀疏训练引擎论文<PICASSO: Unleashing t ...
- 更加灵活、经济、高效的训练 — 新一代搜推广稀疏大模型训练范式GBA
作者:苏文博.张远行 近日,阿里巴巴在国际顶级机器学习会议NeurIPS 2022上发表了新的自研训练模式 Gloabl Batch gradients Aggregation(GBA,论文链接:ht ...
- 计算机维修知识综述论文,机器学习领域各领域必读经典综述论文整理分享
原标题:机器学习领域各领域必读经典综述论文整理分享 机器学习是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知 ...
- 关系抽取论文整理,核方法、远程监督的重点都在这里
来源 | CSDN 博客 作者 | Matt_sh,编辑 | Carol 来源 | CSDN云计算(ID:CSDNcloud) 本文是个人阅读文章的笔记整理,没有涉及到深度学习在关系抽取中的应用. 笔 ...
- 论文整理集合 -- 吴恩达老师深度学习课程
吴恩达老师深度学习课程中所提到的论文整理集合!这些论文是深度学习的基本知识,阅读这些论文将更深入理解深度学习. 这些论文基本都可以免费下载到,如果无法免费下载,请留言!可以到coursera中看该视频 ...
- 清华大学刘知远教授:如何写一篇合格的NLP论文
作者 | 刘知远 编辑 | NewBeeNLP 来源 | 左下角阅读原文处 周末重读&分享清华大学刘知远老师的干货文章,虽然题目是如何写一篇合格的NLP文章,但是可以适用于人工智能相关的其他领 ...
最新文章
- POJ 1410 Intersection
- js 前端操作的分页路由设计
- codeforces round 418 div2 补题 CF 814 A-E
- Ubuntu 中sendmail 的安装、配置与发送邮件的具体实现
- 二十六、数据挖掘电力窃漏电用户自动识别
- shutil.rmtree()
- 农历算法-ASP.NET(C#)(转)
- 极速体验:Oracle 18c 下载和Scalable Sequence新特性
- 应用filestream设置时存在未知错误_开机黑屏?常见启动黑屏错误的中文解释!学习电脑知识电脑小匠...
- 机器学习PAI快速入门
- cas-server Jdbc 连接读取用户(5)
- Q3D之多视图(左视图,正视图等)
- bzoj2286: [Sdoi2011消耗战] 虚树构造
- 自建网易云音乐解锁代理
- micropython 蓝牙音箱_Arduino从入门到创客带师(-1)—Hello World!
- java马士兵网络编程_学习笔记-马士兵java - 网络编程
- 计算机中丢失quartz dll,win10系统提示缺少quartz.dll文件的解决方法
- 如何选择适合的短信通道
- springboot整合i18n
- 手把手带你在集成SpringSecurity的SpringBoot应用中添加短信验证码登录认证功能