ChineseBERT:利用字形和拼音信息加强中文预训练

  • 摘要
  • 介绍
  • 相关工作
    • NLP中的大规模预训练模型
    • 学习字形信息
  • 模型
    • 概述
    • 输入
    • 输出
  • 预训练设置
    • 数据
    • 掩蔽策略
    • 预训练细节
  • 实验
    • 机器阅读理解(MRC)
    • 自然语言推断(NLI)
    • 文本分类(TC)
    • 句子对匹配(SPM)
    • 命名实体识别(NER)
    • 中文分词(CWS)
  • 消融研究
    • 字形嵌入和拼音嵌入的效果
    • 训练数据大小的影响
  • 总结

论文
源码


摘要

目前的中文预训练模型忽略了汉字特有的两个重要方面:字形和拼音,它们为语言理解提供了重要的句法和语义信息。

文章提出了ChineseBERT,它将汉字的字形和拼音信息结合到预训练语言模型中。

  • 字形嵌入基于汉字的不同字体,能够从视觉特征中捕捉汉字的语义;
  • 拼音嵌入刻画了汉字的读音,处理了汉语中普遍存在的异义词现象(同音异义)。

在大规模未标注中文语料库上进行了预训练,该模型以较少的训练步骤获得了比基准模型显著的性能提升。该模型在广泛的中文自然语言处理任务上取得了新的SOTA性能,包括机器阅读理解、自然语言推理、文本分类、句子对匹配以及命名实体识别和分词方面的竞争性性能。

介绍

大规模的预训练模型已经成为各种自然语言处理任务的基础,如自然语言理解、文本分类和问答。除了英文的自然语言处理任务外,预训练模型也证明了它们在各种中文自然语言处理任务中的有效性。

由于预训练模式最初是为英文设计的,目前大规模的预训练缺少两个针对中文的重要方面:基于字形的信息和基于拼音的信息。对于前者来说,中文区别于英文、德语等语言的一个关键因素是中文是一种标志语言。汉字的徽标对语义信息进行了编码。例如,“液(liquid)”, “河(river)” and “湖(lake)”都有部首“氵(水)”,这表明它们在语义上都与水有关。直观地说,汉字字形背后的丰富语义应该会增强中文自然语言处理模型的表现力。这一想法推动了学习汉字字形信息并将其融入神经模型的各种工作,但尚未进行大规模的预训练。

对于后者,拼音(代表其发音的汉字的罗马化序列)在对上下文或字形嵌入无法捕获的语义和语法信息进行建模时是至关重要的。考虑到中文中非常普遍的异义词现象,这方面尤其重要。在中文中,同一个字有多个发音,每个发音都有特定的含义。每个发音都与特定的拼音表达相关联。例如,在语义层面上,汉字“乐”有两个截然不同的发音:“乐”可以读成“yuù”,意思是“音乐”;“lè”,意思是“快乐”。在句法层面上,发音有助于识别字符的词性。例如,“还”字有“huán”和“hái”两种读音,前者意为动词“还”,后者意为副词“也”。同一字符的不同发音不能通过字形嵌入来区分,因为徽标相同,或者字符ID嵌入,因为它们都指向相同的字符ID,但是可以用拼音来表征。

本文提出了一种将汉字的字形和拼音信息融合到大规模预训练模型–ChineseBERT。字形嵌入基于汉字的不同字体,能够从视觉表面字形中捕捉字符语义。拼音嵌入模拟了具有相同字形的不同语义,从而绕过了在单个字后面交织语素的限制。对于汉字,将字形嵌入、拼音嵌入和字符嵌入组合在一起形成融合嵌入,该融合嵌入对汉字的独特语义属性进行建模。

随着更少的训练数据和更少的训练周期,ChineseBERT在广泛的中文NLP任务中实现了比基线显著的性能提升。该算法在机器阅读理解、自然语言推理、文本分类、句子对匹配等中文自然语言处理任务上取得了与SOTA相当的性能,在命名实体识别和分词方面取得了与SOTA相当的性能。

相关工作

NLP中的大规模预训练模型

近年来,NLP在大规模预训练方面做了大量工作。BERT建立在Transformer体系结构之上,以掩蔽语言模型(MLM)和下一句预测(NSP)的方式在大规模未标注文本语料库上进行预训练。顺应这一趋势,通过修改掩蔽策略、预训练任务或模型骨干,已经取得了相当大的进展。具体地说,Roberta建议取消NSP预训练任务,因为事实证明它对改善下游性能没有任何好处。GPT系列和其他BERT变体将大规模无监督预训练的范式适应于机器翻译、文本摘要和对话生成等文本生成任务,使生成模型能够享受大规模预训练的好处。

与英文不同,中文在句法、词汇和语音方面都有其独特的特点。因此,中文模式的预训练应与中国特色相适应。Li等人。建议以汉字为基本单位,而不是英文中使用的单词或子词。ERNIE采用了三种掩蔽策略–字符级掩蔽、短语级掩蔽和实体级掩蔽,以增强捕获多粒度语义的能力。Cui等人。使用全词掩蔽策略的预训练模型,其中中文单词内的所有字符都被完全掩蔽。通过这种方式,该模型正在学习解决一项更具挑战性的任务,而不是预测单词成分。最近,Zhang等人提出了迄今为止最大的中文预训练语言模型-CPM。它在100 GB中文数据上进行了预训练,其2.6B参数可与“GPT3 2.7B”相媲美。Xu等人发布了首个大规模汉语理解评估基准线索,促进了中文大规模预训练模型的研究。

学习字形信息

随着深层神经网络的普及,从表层汉字字形中学习字形信息越来越受到人们的关注。受单词嵌入的启发,Sun等人;Shih等人;Li等人;Yen 等人使用索引部首嵌入来捕获字符语义,提高了模型在广泛的中文NLP任务上的性能。另一种融合字形信息的方式是以图像的形式查看字符,通过图像建模可以自然地学习字形信息。然而,学习视觉特征的早期工作并不顺利。

Liu等人;Shao等人;Zhang和LeCun;Dai 和Cai使用CNN从字符图像中提取字形特征,但并没有在所有任务上取得一致的性能提升。Su和Lee;Tao等人在单词类比和单词相似任务上取得了积极的结果,但在更多的任务上没有进一步评估学习到的字形嵌入。Meng等人将字形嵌入应用于大量中文任务,他们设计了一种特殊的CNN结构来提取字符特征,并将图像分类作为辅助目标来规则化有限数量的图像的影响。Song 和 Sehanobish;Xuan 等人推广了Meng等人的观点,对于命名实体识别(NER)任务,显著提高了与Vanilla Bert模型的性能。

模型

概述

Figure1显示了提出的ChineseBERT模型的概述。对于每个汉字,先将汉字的字符嵌入、字形嵌入和拼音嵌入串联起来,然后通过全连通层映射到D维嵌入,形成融合嵌入。然后将融合嵌入与位置嵌入一起添加,位置嵌入作为输入输入到BERT模型。由于我们不使用NSP预训练任务,所以省略了分段嵌入。我们同时使用全字掩蔽(WWM)和字符掩蔽(CM)进行预训练。

输入

模型的输入是可学习的绝对位置嵌入和融合嵌入的相加,其中融合嵌入是基于相应汉字的字符嵌入、字形嵌入和拼音嵌入。字符嵌入的执行方式类似于BERT中使用的token嵌入,但以字符粒度执行。下面我们分别描述如何生成字形嵌入、拼音嵌入和融合嵌入。

  • 字形嵌入 延用了Meng等人使用三种类型的中文字体—仿宋、行楷、隶书,每种字体都实例化为24×24的图像,浮点像素范围从0到255。不同于Meng等人使用CNN将图像转换为表示,本文使用FC层。我们首先将24×24×3的向量转换为2352个向量。平坦化后的矢量被送到FC层以获得输出字形矢量。
  • 拼音嵌入每个字符的拼音嵌入用于分离属于同一字符形式的不同语义,如Figure3所示。我们使用开源的拼音包为其组成字符生成拼音序列。pypinyin是一个将机器学习模型与基于词典的规则相结合的系统,用于推断给定上下文中字符的拼音。汉字的拼音是罗马尼亚字母的序列,四个发音符号中的一个表示声调。我们使用特殊的标记来表示音调,这些音调被附加到罗马尼亚字符序列的末尾。我们在拼音序列上应用宽度为2的CNN模型,然后使用最大池化得到的拼音嵌入。这使得输出维度不受输入拼音序列长度的影响。输入拼音序列的长度固定为8,当拼音序列的实际长度未达到8时,剩余的槽中填充一个特殊的字母“-”。
  • 融合嵌入 有了字符嵌入、字形嵌入和拼音嵌入,将它们连接起来形成一个三维向量。融合层通过完全连接的层将三维矢量映射到三维。融合嵌入中加入位置嵌入,并输出到BERT层。图示如Figure4所示。

输出

输出是每个输入汉字对应的上下文表示。

预训练设置

数据

从CommonCrawl收集了预训练的数据。经过预处理(如删除含有过多英文文本的数据和过滤html标记器),大约10%的高质量数据被保留用于预训练,总共包含4B个汉字。我们使用LTP工具包来识别汉语单词的边界,以进行全词掩蔽。

掩蔽策略

本文使用两种掩蔽策略——全词掩蔽(WWM)和字符掩蔽(CM)。Li等人提出,使用汉字作为基本输入单位可以缓解汉语词汇表外的问题。因此,我们采用在给定上下文中随机掩蔽字符的方法,用字符掩蔽表示。另一方面,汉语中的大量单词由多个字符组成,对于这些字符,CM策略对于模型来说可能太容易预测。例如,对于输入上下文“我喜欢逛紫禁[M] (i like going to The Forbidden [M])”,该模型可以很容易地预测掩蔽字符是“城(City)”。因此,延用Cui等人使用WWM,一种掩蔽选定单词中所有字符的策略,缓解了CM策略容易预测的缺点。请注意,对于WWM和CM,基本输入单位都是汉字。WWM和CM之间的主要区别在于它们如何掩蔽角色以及模型如何预测掩蔽角色。

预训练细节

与Cui等人基于官方的中文预训练BERT对其模型进行预训练不同,我们从头开始训练中文BERT模型。为了加强模型学习长期和短期依赖性,在压缩输入和单输入之间交替进行预训练,其中压缩输入是多个句子的串联,最大长度为512,单输入是一个句子。我们以0.9的概率提供压缩输入,以0.1的概率提供单个输入。我们在90%的时间内使用全词屏蔽,在10%的时间内使用字符屏蔽。每个单词/字符的掩蔽概率为15%。如果选择了第i个单词/字符,在80%的时间内屏蔽它,在10%的时间内用随机单词/字符替换它,并在10%的时间内保持它。还使用动态掩蔽策略来避免重复的训练实例。我们使用两个模型设置:base和large,分别由12/24个transformer层组成,每个层的输入维度分别为768/1024和12/16个头。这使得我们的模型在模型大小方面与其他风格的BERT模型具有可比性。提交论文后,我们训练了最大学习率为1e-4、预热20K步、批量为3.2k的基础模型500K步,以及最大学习率为3e-4、预热90K步、批量为8k的大型模型280K步。预训练后,该模型可直接用于下游任务的微调,方法与BERT相同。

实验

对各种中文NLP任务进行了广泛的实验。模型在特定于任务的数据集上分别进行微调,以进行评估。具体而言使用以下任务:

  • 机器阅读理解Machine Reading Comprehension (MRC)
  • 自然语言推断Natural Language Inference (NLI)
  • 文本分类Text Classification (TC)
  • 句子对匹配Sentence Pair Matching (SPM)
  • 命名实体识别Named Entity Recognition (NER)
  • 中文分词Chinese Word Segmentation (CWS)

将ChineseBERT和当前最先进的ERNIE、BERT-wwm和MacBERT模型进行比较。ERNIE采用各种掩蔽策略,包括标记级、短语级和实体级掩蔽,对大规模异构数据进行预训练。BERT-wwm/RoBERTa-wwm继续在官方预训练的中文BERT/RoBERTa模型的基础上进行预训练,采用全词掩蔽预训练策略。除非另有规定,否则使用BERT/RoBERTa表示BERT-wwm/RoBERTa-wwm,并省略“wwm”。MacBERT 通过使用 MLM-As-Correlation (MAC) 预训练策略以及句子顺序预测 (SOP) 任务改进了 RoBERTa。值得注意的是,BERT 和 BERT-wwm 没有在线提供的大版本,因此我们省略了相应的性能。

Table1比较ERNIE、BERT-wwm、MacBERT和本文提出的ChineseBERT之间的数据统计。T:标记,P:短语,E:实体,WWM:全词掩蔽,N:N-gram,CM:字符掩蔽,MLM:掩蔽语言模型,NSP:下一句预测,MAC:MLM作为相关性。SOP:句子顺序预测。

这些模型的比较如Table 1 所示。值得注意的是,所提出模型的训练步骤明显小于基线模型。与使用预训练 BERT 初始化的 BERT-wwm 和 MacBERT 不同,所提出的模型是从头开始初始化的。由于对字形和拼音的额外考虑,由于模型结构不同,所提出的不能直接使用普通 BERT 模型进行初始化。即使从头开始初始化,所提出的模型的训练步骤也比 BERT 初始化后重新训练 BERT-wwm 和 MacBERT 的步骤少。

机器阅读理解(MRC)

机器阅读理解测试模型根据给定的上下文回答问题的能力。使用两个数据集来完成此任务:CMRC 2018和CJRC。CMRC是一个SPAN提取风格的数据集,而CJRC另外还有是/否问题和非回答问题。CMRC 2018和CJRC分别包含10K/3.2K/4.9K和39K/6K/6K数据实例,用于训练/开发/测试。CMRC 2018年的测试结果是根据CLUE排行榜评估的。注意,CJRC数据集与Cui等人使用的数据集不同,正如Cui等人所说的那样,没有发布他们的训练/开发/测试拆分。因此,在本工作中使用的CJRC数据集上运行已发布的模型以进行比较。


结果如Table 2和Table 3所示。可以看出,ChineseBERT在这两个数据集上都有显著的性能提升,并且EM算法在CJRC数据集上的改善大于F1算法,这表明ChineseBERT在检测精确答案跨度方面有更好的表现。

自然语言推断(NLI)

NLI 的目标是确定假设和前提之间的蕴涵关系。使用跨语言自然语言推理( XNLI) 数据集 进行评估。该语料库是 MultiNLI 语料库的 5K 测试和 2.5K 开发对的众包集合。每个句子对都标有“entailment”、“neutral”或“c​​ontradiction”标签。我们使用官方机器翻译的中文数据进行训练。


结果如Table 4 所示,这表明 ChineseBERT 能够在base和large中实现最佳性能。

文本分类(TC)

在文本分类中,模型需要将一段文本分类到指定的类别中。延用Cui等人使用THUCNews和ChnSentiCorp执行此任务,THUCNews是THUCTC 的一个子集,分别有50K/5K/10K数据点用于训练/开发/测试。数据均匀分布在体育、金融等10个领域。ChnSentiCorp是一个二值情感分类数据集,分别包含9.6K/1.2K/1.2K数据点,用于训练/开发/测试。这两个数据集相对简单,普通BERT达到了95%以上的准确率。因此,除了THUCNews和ChnSentiCorp,我们还使用了TNEWS,这是CLUE基准中包含的一个更难的数据集。TNEWS是一个15类短新闻文本分类数据集,具有53K/10K/10K数据点用于训练/开发/测试。

结果如Table 5 所示。 在 ChunSentiCorp 和 THUCNews 上,ChineseBERT 的改进是微不足道的,因为基线已经在这两个数据集上取得了相当高的结果。在 TNEWS 数据集上,ChineseBERT 优于所有其他模型。我们可以看到 ERNIE 模型的性能只比 ChineseBERT 差一点。这是因为 ERNIE 是在额外的网络数据上训练的,这有利于对涵盖广泛领域的网络新闻文本进行建模。

句子对匹配(SPM)

对于SPM,要求模型确定给定的句子对是否表达相同的语义。我们使用 LCQMC 和 BQ Corpus 数据集进行评估。 LCQMC是用于判断两个给定问题是否具有相同意图的大型中文问题匹配语料库,训练/开发/测试有23.9K/8.8K/12.5K句对。 BQ 语料库是另一个包含 100K/10K/10K 句子对的大型中文数据集,用于训练/开发/测试。

结果如Table 6 所示。我们可以看到,ChineseBERT 在 LCQMC 上总体上优于 MacBERT,但略逊于 BERT-wwm。我们假设这是因为 BQ 语料库的领域比 ChineseBERT 更适合 BERTwwm 的预训练数据。

命名实体识别(NER)

对于 NER 任务,模型被要求识别一段文本中的命名实体,这被形式化为序列标记任务。我们使用 OntoNotes 4.0 和微博 NER 来完成这项任务。 OntoNotes 有 18 种命名实体类型,微博有 4 种命名实体类型。 OntoNotes 和微博分别包含 15K/4K/4K 和 1,350/270/270 个用于训练/开发/测试的实例。

结果如Table 7 所示。我们可以看到,ChineseBERT 在 F1 方面明显优于 BERT 和 RoBERTa。尽管基本版本的精度略有下降,但召回率的提高特别高,从而导致 F1 的最终性能提升。

中文分词(CWS)

该任务将文本划分为单词,并被形式化为基于字符的序列标注任务。我们使用北京大学和MSRA数据集进行中文分词。北大有19K/2K句用于训练和测试,MSRA有87K/4K句用于训练和测试。输出字符嵌入被送到Softmax函数以进行最终预测。

结果如Table 8所示,其中我们可以看到,ChineseBERT在这两个指标的两个数据集上的性能都优于BERT-wwm和Roberta-wwm。

消融研究

在这一部分中进行消融研究,以了解ChineseBERT的行为。使用中文命名实体识别数据集OntoNotes4.0进行分析,所有模型都是基于base版本的。

字形嵌入和拼音嵌入的效果

想要探索字形嵌入和拼音嵌入的效果。为了公平比较,在相同的数据集上预先训练了不同的模型,训练步骤相同,模型大小相同。设置包括“-glyph”,其中不考虑字形嵌入,并且我们只考虑拼音和char-ID嵌入;“-pinyin”,其中不考虑拼音嵌入,并且我们只考虑字形和char-ID嵌入;“-glyph-pinyin”,其中只考虑char-ID嵌入,并且模型退化为Roberta。我们在NER数据集的OntoNotes数据集上对不同的模型进行了微调,以便进行比较。

结果如Table 9所示。可以看出,删除字形嵌入或拼音嵌入都会导致性能下降,其中移除两者对F1值的负面影响最大,下降了约2个点。这验证了拼音和字形嵌入对于中文语义建模的重要性。“-glyph-pinyin”比Roberta性能差的原因是,在这里使用的模型是在较小的数据大小和较少的训练步骤上训练的。

训练数据大小的影响

我们假设字形和拼音嵌入在文本语义上也具有很强的正则性,这意味着所提出的ChineseBERT模型能够在较少的训练数据下获得更好的性能。同时保持样本与实体 w.r.t. 的比例。每个实验执行五次,并在测试集上报告平均F1值。

Figure 5显示了结果。可以看出,ChineseBERT在所有设置中都表现得更好。在训练数据不足30%的情况下,ChineseBERT的性能改善不大,但在训练数据超过30%的情况下,性能的提高更大。这是因为ChineseBERT仍然需要足够的训练数据来完全训练字形和拼音嵌入,而训练数据不足会导致训练不足。

总结

本文介绍了一种大规模的中文NLP预训练模型ChineseBERT。

  • 它利用汉字的字形和拼音信息,增强了模型从表面字符形式中获取上下文语义和消除汉语复调字符歧义的能力。
  • 提出的ChineseBERT模型在广泛的中文NLP任务中实现了显著的性能提升。
  • 提出的ChineseBERT在训练数据较少的情况下比普通预训练模型表现更好,表明引入的字形嵌入和拼音嵌入为汉语语义建模提供了一个强大的正则化器。

未来的工作包括训练一个large版本的ChineseBERT。

ACL2021_ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information相关推荐

  1. 论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

    论文解读:ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information(2021ACL) 简要信息: 序号 属性 ...

  2. 《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》阅读记录

    <ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information> Zijun Sun, Xiaoya ...

  3. 【Graph Embedding】图嵌入的最佳实践—EGES(Enhanced Graph Embedding with Side Information)

    文章目录 EGES背景-DeepWalk理论与实现 DeepWalk引入推荐系统-EGES 在阅读此文之前建议先学习 word2vec详解. 2018 年,阿里巴巴公布了其在淘宝应用的Embeddin ...

  4. 【文献阅读】StyleBERT: Chinese pretraining by font style information

    Abstract 因此在本文中,我们提出了中文预训练语言模型 StyleBERT,它结合了以下嵌入信息来增强语言模型的 savvy,例如单词.拼音.五笔和chaizi(拆字). Introductio ...

  5. 2021: E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning

    摘要 大多现有的预训练方法主要采用两阶段训练过程,首先利用一个预训练好的目标检测器来提取基于区域的视觉特征,然后连接图像表示和文本嵌入作为Transformer的输入用于训练.然而,这些方法面临使用特 ...

  6. Pre-training Enhanced Spatial-temporal Graph Neural Network for Multivariate Time Series Forecasting

    多变量时间序列(MTS)预测在广泛的应用中起着至关重要的作用.近年来,时空图神经网络(STGNNs)成为越来越流行的MTS预测方法.STGNNs通过图神经网络和序列模型联合建模MTS的时空模式,显著提 ...

  7. 【NLP】ACL 2021中的25个Transformers模型

    前言 言归正传,这次我们总结一下ACL2021中的Transformers,看看2021年了,NLPer在如何使用.应用.改进.分析Transformers,希望可以对大家产生idea有帮助. 本文涉 ...

  8. When 多模态 meets 信息抽取

    ©PaperWeekly 原创 · 作者 | 宁金忠 单位 | 大连理工大学 研究方向 | 信息抽取 都 2222 年了,信息抽取领域早已经是诸神黄昏.然而,多模态方法的兴起给这个卷成麻花的领域带来的 ...

  9. 【论文泛读】ChineseBERT:融合字形与拼音信息的中文预训练模型

    本次分享的论文ChineseBERT来自于ACL 2021会议,论文全名为ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin I ...

最新文章

  1. ASP.NET中利用cookies保持客户端信息
  2. vue动态绑定class,tab切换非常好用
  3. 安卓UI图分离器(支持ios@2x3x图转成安卓xhdpi,xxhdpi图,最新支持拖入并自动解压.zip图片压缩包)
  4. linux 查看系统函数库,教你在Linux操作系统中如何创建函数库
  5. AD19 add pins to nets错误_《英雄联盟手游》错误代码问题大全 LOL的错误代码都是什么意思...
  6. PHP如何实现定时任务,PHP定时任务方法,最佳解决方案,PHP自动任务处理 自动备份
  7. latex转为html效果好吗,latex2html
  8. 2008年IT业十大预测:微软收购雅虎
  9. 前端组件化埋点方案与实现
  10. matlab学霸表白公式,学霸的数学表白公式
  11. 产品读书《关键对话:如何高效能沟通》
  12. 史上最全的app相关的面试题【多测师】
  13. 大脑小胶质细胞“隐藏技能”被发现
  14. php期末作业作业,作业作业作业作业作业作业
  15. day1 704.二分查找 27.移除元素
  16. python格式化字符%e_用%格式化Python字符串
  17. 罗马数字与阿拉伯数字互转
  18. SuperMap、Cesium叠加ArcGIS,高德,谷歌二维,卫星地图实现二三维地图切换
  19. 基于CSS和HTML技术开发中国海洋大学网站的首页
  20. 《比尔总动员》删档测验正式敞开,开端你的地球捍卫之旅吧

热门文章

  1. html数字时间效果图,html5图片数字时钟代码
  2. 在webstorm编辑器中使用git提交代码
  3. 如果没有计算机 就不会有哪些职业,假如没有电脑 我的日常生活可能会变成这样!...
  4. 测试网易软件的word,Office Word 桌面版开始测试微软编辑器:检查你的拼写和语法...
  5. 什么是Provisioning Profile
  6. 蓝牙智能指纹锁解决方案OM6621PW
  7. php redis 消息队列_PHP Redis实现消息队列
  8. [Wiki].NET框架
  9. SpringBoot中的Thymeleaf基本使用
  10. 在线教育通过营销招生直播有哪些优势?