第二部分 内聚性

团结、共同规范、身份认同、集体行为和社会内聚性被认为是从社会关系中产生的。因此,社交网络分析的首要问题是调查谁是相关的,谁不是。为什么有些人或组织是相关的,而有些则不是?这里的一般假设表明,在社会特征上匹配的人会更频繁地互动,而经常互动的人会培养一种共同的态度或身份。在本书的这一部分,包括第 3 章到第 5 章,我们讨论了几种内聚性的衡量标准。您将学习在几种类型的 社会网络中检测内聚子组

三、内聚子群

3.1 引言

社交网络通常包含“粘在一起”的密集人群。我们称它们为有内聚子群,我们假设所涉及的人不仅仅是通过互动而加入的。社会互动是团结、共同规范、身份认同和集体行为的基础,因此互动频繁的人可能会认为自己是一个社会群体。感知到的相似性,例如,社会团体的成员身份,有望促进互动。我们希望相似的人能够进行很多互动,至少比与不同的人更频繁地互动。这种现象称为同质性或分类性:物以类聚。我们将在第 6 章中学习如何衡量这种现象。
在本章中,我们将介绍一些技术来检测社交网络中的内聚子组,所有这些技术都基于顶点互连的方式。这些技术是达到目的的手段,而不是目的本身。最终目标是测试结构上划分的子群体在其他社会特征(例如规范、行为或身份)方面是否存在差异。同质性原则有效吗?我们是否可以得出结论,一个有内聚子群代表一个新兴的或已建立的社会群体
(结构上表现的特征是否是行为人的社会特征?)

3.2 示例

1948 年,美国社会学家在哥斯达黎加(拉丁美洲)的农村地区 Turrialba 进行了一项大型实地研究。他们对正式和非正式社会制度对社会变革的影响感兴趣。除其他外,他们调查了居住在名为 Attiro 社区的庄园(农场)中的家庭之间的探访关系。访问关系网络(Attiro.net,绘制在图31)是一个简单有向图:每条弧代表从一个家庭到另一个家庭的“频繁访问”。没有记录确切的访问次数。边值将拜访关系分为普通(值 1)、亲属间拜访(值 2)和仪式亲属间拜访(即,教父母和教子之间);但我们在本章中不使用它们。环不会发生,因为它们没有意义。

我们将该网络中的内聚子组与研究人员根据实质性标准将家庭的人种学分类分为六个家庭友谊分组进行比较(Attiro_grouping.clu;我们调整了类数以获得最佳灰色(Options> Colors> Partition Colors> for Vertices> Default Greyscale 2选项)。在几乎没有机会上下社会阶梯的农村地区,社会群体通常以家庭关系为基础。所有相关数据都收集在项目文件 Attiro.paj 中。现在打开此文件,并绘制带有partition 的网络以获得如图 31 所示的社会图(Draw> Network + First Partition 命令)。

您可能希望使用真实的颜色而不是灰色来轻松识别家庭 - 友谊分组。
我们可以在 Attiro 网络中找到哪些有内聚性的子群,它们是否与家庭-友谊分组相匹配?图 31 提供了亲属访问网络和家庭友谊分组的视觉印象,这些分组由顶点内的颜色和数字标识。如图所示,网络紧密结合,家庭友谊组 0 和 10 占主导地位。属于一个分组的大多数家庭都通过访问关系联系在一起,因此他们在网络离得很近。但是会出现例外情况;尤其是家庭 f43,它与第七家庭友谊分组(左)中的其他顶点分开。在随后的部分中,我们详细列出了这个第一印象。

3.3 密度和度

直观地说,内聚性意味着一个社交网络包含许多联系。人与人之间的更多联系会产生更紧密的结构,据推测,这种结构可能更具内聚性。在网络分析中,网络的密度抓住了这个想法。它是网络中所有可能边路的百分比。最大密度出现在一个完整的简单网络中,即一个简单网络,其中所有顶点对由一条边或两条弧连接,每个方向一个。如果允许环,则所有顶点在完整网络中都有环。

  • 密度是简单网络中的边数与最大可能边数的比例。
  • 完全网络是具有最大密度的网络。

在此密度定义中,忽略了多重边和边值。直观地说,顶点之间的多重边和更高的边值表示更有内聚性的联系。尽管已经提出了考虑多重边和边值的密度测量,但我们不想展示它们。我们只计算不同的行,这意味着我们将多行视为一行,将多个环视为一个环。我们将在第 5 章讨论其他衡量多重边和边值对内聚力的贡献。
在亲属访问关系网络中,密度为 0.045,这意味着所有可能的弧中仅存在 4.5%。在这种规模的社交网络中,发现密度分数如此之低是很常见的。密度与网络大小成反比:社交网络越大,密度越低,因为可能的边数随着顶点数的增加而迅速增加;而每个人可以维持的联系数量是有限的。在访问关系网络中,您可以访问的家庭数量存在实际限制。因此,在网络中包含更多的家庭将降低网络密度。
如果您想解释或比较网络密度,这是一个问题。 Turrialba 地区的另一个社区 San Juan Sur 的访问网络的密度为 0.036。这比 Attiro 略低,但差异可能是由于San Juan Sur的家庭数更大(七十五户人家)。因此,我们无法从这个比较中得出结论。

  • 顶点的度数是连接该顶点的边数。

网络密度不是很有用,因为它取决于网络的大小。最好查看每个顶点所涉及的连接数。这称为顶点的度数。度数高的顶点更有可能出现在网络的密集部分。在图 31 中,家庭 f88(家庭友谊组 10 的成员)通过 15 个访问关系连接到 13 个家庭(注意 f88 和 f73、f92 之间的双向弧表示这些家庭通过相互访问连接) ,所以它的度数是 15。与这个家庭关联的边对这个家庭附近的网络密度有实质性的贡献。
更高度数的顶点产生更密集的网络,因为顶点具有更多的联系。因此,我们可以用所有顶点的平均度来衡量一个网络的结构内聚度。这是比密度更好的整体内聚性度量,因为它不依赖于网络大小,因此可以比较不同大小的网络之间的平均度数。例如,Attiro 网络的平均度数为 5.37,略高于 San Juan Sur 网络的平均度数(5.28)。

  • 如果两个顶点由一条边连接,则它们是相邻的。
  • 顶点的入度是它接收到的弧数。出度是它发出的弧数。

在一个简单的无向网络中,顶点的度数等于与该顶点相邻的顶点数:它的邻居。与顶点相关的每条边都将其连接到另一个顶点,因为不会发生多重边和环,多重边和环会影响顶点的度数,但不会将其连接到新的邻居。然而,在有向网络中,有一个复杂的问题,因为我们必须区分顶点接收到的弧的数量(它的入度)和发送的弧的数量(它的出度)。请注意,顶点的入度和出度之和不一定等于其邻居的数量;例如,家庭 f88 参与了 15 个访问关系,但它有 13 个相邻的家庭,因为家庭 f73 和 f92 被计算了两次。
在本节中,我们将自己限制在无向网络中的程度。当我们遇到有向网络时,我们将其对称化,这意味着我们将单边和双向弧变成边。第 9 章讨论了有向网络中的入度,其中介绍了声望的概念。

  • 对称化有向网络就是用边代替单边和双向弧。

应用
让我们分析一下 Attiro (Attiro.net) 中的访问关系网络,其中 既不包含多重边也不包含环。在 Pajek 中,网络的密度可以通过 [Main] Network> Info> General获得。选择命令 General 以显示所选网络的基本信息,例如顶点和边的数量及其密度。您也可以按网络下拉菜单左侧的“I”(I 代表“信息”)按钮。执行时,此命令会显示一个对话框,要求用户指定要显示的行数。当您只对网络密度和平均度感兴趣时,请求零边。 Pajek 在报告屏幕中计算两个密度指数。第一个索引允许环,第二个则不允许。因为环在访问关系网络中没有意义——人们不会访问自己——第二个索引是有效的。有向网络中的密度为 0.045。最后,报告了平均度数,Attiro 为 5.37。

在无向简单网络中,顶点的度数等于它的邻居数。这是度数的最简单解释,因此我们在本节中专注于无向简单网络。然而,亲属访问网络是有向的,因此我们必须首先对其进行对称化。使用Network>Create New Network>Transform>Arcs→Edges>
All命令将所有弧替换为边。 Pajek 会询问您是否要创建一个新网络,我们建议您这样做,因为您以后可能想使用有向网络。接下来,Pajek 会询问您是否要删除多重边。要获得一个简单的无向网络,即没有多重边和环的网络,您可以选择:选项 1(将要连接的边路的边路值相加成一个新边路),2(统计与顶点连接的边的数量) )、3(保留连接边的最小值)、4(取它们的最大值)或 5(新边的值将为 1)在此对话框中。您选择这五个选项中的哪一个并不重要,因为在本章中我们不关注边值。现在,网络是对称的,而且很简单,因为移除了多重边并且没有环。您可能希望以新名称(例如 Attiro_symmetrized.net)保存它(File> Network> Save)以备将来使用。
度是一个顶点的离散属性(它总是一个整数),所以它被存储为一个partition 。我们使用 Network> Create Partition> Degree 子菜单中的命令获取度partition :Input, Output, or All。 Input 计算所有入度(indegree),Output 计算所有出度(outdegree),all包括两者。请注意,没有方向的边被认为是传入和传出,因此所有Input, Output, or All命令都会对每条边进行一次计数。因此,在无向网络中,选择 Input、Output 还是 All 没有区别。
命令 Partition> Info 将partition 显示为 frequence表(参见表 5)。类号代表度数,因此我们可以看到对称网络中顶点的度数从零到十四个邻居显着变化。显然,家庭 f68 与大多数家庭通过访问联系联系在一起。一个家庭,家庭 f67,在网络中是孤立的:它与其他家庭没有定期访问联系。 Network>Info>General 可以根据度数分布计算所有顶点的平均度数。在这个例子中,度partition 中的类数表示整数,即一个顶点的邻居数,但并非所有partition 都如此。因此,Partition> Info 命令不会计算和显示平均类数。要获得对称网络的平均度数,我们可以再次使用 Network>Info>General 命令,它会报告平均度数为 4.27。 Attiro 的家庭平均定期拜访超过四个家庭。请注意,该平均度数与原始定向网络报告的平均度数 (5.37) 不同,因为后者将入度(收到的访问次数)和出度(发出的访问次数)相加,这个家庭可能被计算两次。

3.4 组件

度数为 1 或更高的顶点至少连接到一个邻居,因此它们不是孤立的。然而,这并不意味着它们必须连接成一个块。有时,网络被分割成碎片。网络的独立部分可以被视为内聚子组,因为一个部分内的顶点是连接的,而不同部分中的顶点不相连。 Attiro 的访问网络并未完全连接(见图 31)。在本节中,我们识别网络的连接部分,称为组件,但我们必须首先介绍一些辅助图论概念。

让我们看一个简单的例子(图 32)。直观地,很明显有些顶点与其他顶点相连,而另一些则没有;例如,顶点 v2 不与其他顶点相邻,但其他四个顶点有一个或多个邻居。如果我们认为弧是道路,我们可以从顶点 v5 走到 v3,不考虑弧的方向,我们可以从顶点 v3 走到 v1。我们说从顶点 v5 到顶点 v1 有一条半路道(walk)。然而,从顶点 v2 开始,我们无法走到任何地方。

  • 从顶点 u 到顶点 v 的 semiwalk 是一系列边,其中一条边的结束顶点是下一个边的起始顶点,并且该序列从顶点 u 开始并在顶点 v 结束。
  • 当半路道(walk)所有边都不是弧,其末端顶点是弧的尾部时,它就是路道(walk)。

想象弧代表单向街道,因此我们考虑弧的方向。现在,我们可以从顶点 v5 开车到顶点 v3,但我们无法到达顶点 v1。在图论中,我们说存在从顶点 v5 到 v3 的路道(walk),但没有从顶点 v5 到 v1 的路道(walk)。在路道(walk)中,您必须遵循弧的方向。
路道(walk)和半路道(walk)是重要的概念,但我们需要另一个相关的概念来定义网络是否连接。我们应该注意到,在我们的示例中,从顶点 v5 到 v3 有很多——实际上是无限多的路道(walk);例如,v5→v3→v4→v5→v3也是一个路道(walk),我们可以根据需要多次重复循环路道(walk)v5→v3→v4→v5。显然,我们不需要这些重复来确定顶点是否连接,因此我们使用路道(walk)和半路道(semi-walk)的更受限制的概念,它们要求 walk 或 semiwalk 上的每个顶点只出现一次,尽管起始顶点可能与结束顶点相同。在示例中,路道(walk) v5→v3 是一条路道(walk),但 路道(walk) v5→v3→v4→v5→v3 不是因为顶点 v5 和 v3 出现两次。有人可能会说,一条路道(walk)比路道(walk)更有效,因为它不会多次通过一个路口。

  • 半路径( semipath)是半路道(semi-walk),其中半路道(semi-walk)的第一个和最后一个顶点之间的任何顶点都不会出现多次。
  • 路径(path)是一条路道(walk),其中路道(walk)的第一个和最后一个顶点之间的任何顶点都不会出现不止一次。

现在我们可以轻松定义网络必须满足的连接要求。如果所有顶点都通过半路径( semipath)连接,则网络是弱连通的——通常我们只是说连接。在(弱)连接的网络中,如果我们忽略弧的方向,我们可以从每个顶点“游走(walk)”到所有其他顶点,前提是有任何弧。图 32 的示例不是连通网路,因为顶点 v2 是孤立的:它不包含在任何通往其他顶点的半路径( semipath)中。
在有向网络中,存在第二种类型的连通性:如果每对顶点都由一条路径(path)连接,则网络是强连通的。在强连通网络中,您可以从每个顶点移动到服从弧边方向的任何其他顶点。强连通性比弱连通性更受限制:每个强连通性网络也是弱连通性,但弱连通性网络不一定是强连通性。我们的例子不是弱连通的,所以它不能是强连通的。

  • 如果每对顶点由半路径(semipath)连接,则网络是(弱)连通的。
  • 如果每对顶点都由一条路径(path)连接,则网络是强连通的。

尽管我们示例的网络没有作为一个整体连通,但我们可以识别连通的部分;例如,顶点 v1、v3、v4 和 v5 是相连的。与孤立的顶点v2相比,这些顶点的连接相对紧密,因此我们可以说它们是一个内聚的组。如果关系表示通信通道,则除顶点 v2 之外的所有顶点都可以交换信息。顶点 v1、v3、v4 和 v5 构成(弱)组件,因为它们通过半路径(semipath)连接,并且网络中没有其他顶点也通过半路径(semipath)连接到它们。
形式上,我们说(弱)组件是最大(弱)连通子网络。请记住,子网络由网络顶点的子集和这些顶点之间的所有边组成。最大一词意味着在不破坏其定义特征(在这种情况下为连通性)的情况下,不能将其他顶点添加到子网络中。如果我们添加唯一剩余的顶点 v2 , 子网将不再连通。相反,如果我们省略任何顶点 v1、v3、v4 或 v5,则子网不是一个组件,因为它不是最大的:它不包含所有连接的顶点。
同样,我们可以定义一个强组件,它是一个最大强连通子网络。示例网络包含三个强组件。最大的强组件由顶点 v3、v4 和 v5 组成,它们通过两个方向的路径连接。此外,还有两个由一个顶点组成的强组件,即顶点v1和v2。顶点 v2 是孤立的,只有来自顶点 v1 的路径,但没有到 v1 的路径,因此顶点 v1 与任何其他顶点没有强连通。它不对称地连接到较大的强组件。一般来说,强组件之间的联系要么是不对称的,要么是不存在的。在第 10 章中,我们将详细介绍此功能。

  • (弱)组件是最大(弱)连接子网络。
  • 强组件是最大强连通子网络。

在无向网络中,边没有方向;所以每条semiwalk也是一条walk,每条semipath也是一条path。因此,只有一种类型的连通性,相当于有向网络中的弱连通性,以及一种类型的组件。在无向网络中,组件彼此隔离;不同组件的顶点之间没有边。这类似于有向网络中的弱组件。
在有向网络中,您应该寻找强组件还是弱组件?选择取决于实质性和实际考虑。实质性原因与您对关系方向的重视程度有关:这对社会过程是否重要:行为人 A 转向行为人 B,行为人 B 转向行为人 A,还是两者兼而有之?如果正在调查通信流程,那么谁发起联系可能并不重要。

如果家庭 f98 访问家庭 f11 和 f99(图 33,左),它可能会通知家庭 f11 关于家庭 f99,反之亦然。家庭 f11 和 f99 可以共享信息,尽管它们之间没有路径。在这种情况下,关系的方向是非常不重要的,弱组件是首选。
如果实质性的参数是不明确的,组件的数量和大小可用于在强组件和弱组件之间进行选择。回想一下,强组件比弱组件更严格,这意味着强组件通常比弱组件小。首先检测弱组件是一个很好的策略。如果一个网络由一个大的弱组件(例如 Attiro 中的网络)主导,我们建议在下一步中使用强组件来分解弱组件。
图 33 显示了访问关系网络中的强组件。多个顶点的每个强组件都由轮廓手动描绘。轮廓外的每个顶点本身就是一个强组件(例如,f67 和 f59 族)。根据家庭-友谊分组的原始分类由顶点颜色和顶点内的数字表示。我们看到,大的弱组件被分成几个小的强组件,其中一些近似于家庭-友谊分组,例如家庭-友谊分组 1(右侧)和 7(左侧)
通过考虑连接顶点的不同路径或半路径的数量,可以将组件进一步拆分为更密集的部分。在弱组件内,每对顶点之间的一个半路径就足够了,但在一个双连通组件中必须至少有两个不同的半路径。双连通组件的概念将在第 7 章讨论。这可以推广到 k 连通组件:每对顶点由至少 k 个不同的路径或半路径连接的最大子网络。例如,弱组件是 1 连通组件,双连通组件是 2 连通组件。
应用
使用 Pajek,很容易在访问关系网络 (Attiro.net) 中找到组件。网络菜单 Network> Create Partition> Components,用于查找三种类型的组件:强、弱和强周期性。这里不讨论强周期组件。当您执行命令 Strong 或 Weak 时,会出现一个对话框,询问组件的最小大小。有时,非常小的组件并不有趣;例如,孤立的顶点,如果最小组件大小设置为 1 个顶点,则将其计为单独的组件。提高此数字以排除它们。该命令创建一个partition ,其中每个类代表一个组件。用强组件partition (Draw> Network + First Partition)绘制网络,可以看到图 33 中等高边包围的簇。用原始的家庭-友谊分组partition 绘制它,得到图 33 中由顶点颜色表示的簇. 图 33 结合了这两种布局。
在无向网络中,选择强组件还是弱组件没有区别,因为这些命令会产生相同的结果。此外,有向网络中的弱组件等于对称网络中的组件。因此,当您想知道有向网络的组件时,没有必要对其进行对称化:只需计算有向网络中的弱组件即可

3.5 核

度的分布揭示了个别顶点周围的局部集中,但它并不能告诉我们具有较高的度的顶点是聚集还是分散在整个网络中。在本节中,我们使用度数来识别紧密连接的顶点簇,因为每个顶点在簇内都有一个特定的最小度数。我们不关注一个顶点的度数,而是关注一个簇内所有顶点的度数。这些簇称为 k 核,k 表示核内每个顶点的最小度数;例如,一个 2-core 包含在核中以 2 或更多度连接到内部其他顶点的所有顶点。 k 核识别相对密集的子网络,因此它们有助于找到有内聚性的子组。然而,如图所示,k 核本身不一定是一个有内聚性的子群

  • k 核是一个最大子网,其中每个顶点在子网中的度数至少为 k。

k 核的定义比你想象的要复杂。如果我们将其应用于简单的无向网络,则最容易解释,并且通常我们仅将其应用于这种类型的网络。在一个简单的无向网络中,顶点的度数等于其邻居的数量,如 3.3 节所述,因此 k 核包含在核内至少有 k 个邻居的顶点。那么,一个 2-core 由所有连接到 core 中至少两个其他顶点的顶点组成。在定义中,单词“最大值”意味着我们对满足所需属性的最大顶点集感兴趣,在这种情况下,指拥有核内的 k 个邻居的最小数量。

我们通过对称化有向网络获得的无向访问关系网络包含一个大的 3 核(图 34 中的白色顶点)。在 3 核中,每个家族至少与其他三个家族相连。此外,还有2核(深灰色)、1核(黑色)、0核(浅灰色)。亲属访问网络中的 k 核是否代表有内聚性的子组?对于 3 核,这似乎是真的,因为它显然是网络中的一个密集口袋。然而,2 核和 0 核由一个顶点(族 f59 和 f67)组成,并且位于网络中的两个不同位置(左侧和底部)。将它们视为有内聚性的子群是愚蠢的。

较低 k 核的含义可以通过图 35 中的简单示例来说明。这个小网络是连接的,因此所有十个顶点都链接到至少一个其他顶点。结果,所有顶点都属于 1-core,在图 36 底部用黑色绘制。

一个顶点 v5 只有一个邻居,因此它不属于 2-core(灰色,在图 36 的中间)。 顶点v6 的度数为 2,因此不属于 3 核(白色,在图 36 的顶部)。其他顶点属于最高的 k 核,因此生成的社会图如图 35 所示:不同的层级一层一层堆叠。我们说 k 核是嵌套的:3 核中的顶点也是 2 核的一部分,但并非 2 核的所有成员都属于 3 核。
该示例说明了 k 核的另一个特性,即k 核不必连接。由于嵌套,k 核内的不同内聚子组通常由属于较低核的顶点连接。在图 36 中,作为 2 核一部分的顶点 v6 连接了 3 核的两个段。如果我们消除属于 3 核以下的核的顶点,我们将获得一个由两个组件组成的网络,这些组件标识了内聚子组.
这正是 k 核帮助检测内聚子组的方式:从网络中移除最低的 k 核,直到网络分解成相对密集的组件。然后,每个组件被认为是一个内聚子组,因为它在组件内至少有 k 个邻居。在(非常)大的网络中,这是寻找有内聚性的子组的有效方法。然而,在 Attiro 访问关系网络中,这种策略不起作用,因为没有未连接的 k 核。消除较低的 k 核不会将网络拆分为单独的组件。
应用
在 Pajek 中,使用Network> Create Partition> k-Core> Input, Output, All 检测 k-core。 Input、Output 和 All 命令的操作方式与 Network>Create Partition>Degree 子菜单完全相同,区分输入核、输出核和忽略边方向的核。我们建议使用 All 命令并将其仅应用于简单的无向网络。该命令产生一个partition ,将每个顶点分配给它出现的最高 k 核。顶点颜色和顶点内的数字显示了图 34 中的 k 核partition 。在此示例中,k 核不匹配人种学聚类到家庭-友谊分组中。
Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters Network> Create Partition> Components> Strong
使用 k 核partition ,您可以轻松地从网络中删除低 k 核以提取网络中最密集的部分。在 Partition 下拉列表中选择 k 核partition 并执行 Operations> Network + Partition> Extract> SubNetwork Induced by Union of Selected Clusters 命令(参见第 2.4.1 节)。选择要从网络中提取的最低和最高 k-core,在本例中为第三个 k-core。随后,使用 Network> Create Partition> Components> Strong 命令检查选定的 k 核级别是否拆分为两个或多个组件。

3.6 团和完全子网络(Cliques and Complete Subnetworks)

在访问关系网络中,大多数顶点属于一个大的 3 核。如果我们想将这个大的 3 核拆分为子组,我们需要对内聚子组进行更严格的定义。在本节中,我们将介绍内聚子群的最严格结构形式,称为团:一系列顶点,其中每个顶点都直接连接到所有其他顶点。换句话说,一个团是一个拥有最大密度的子网络 。

  • 团是包含三个或更多顶点的最大完全子网络。

团的大小是其中的顶点数。存在大小为 1 和 2 的最大完全子网,但它们不是很有趣,因为它们分别是单个顶点和边或双向弧。因此,团必须至少包含三个顶点。
不幸的是,在大型网络中识别团非常困难:计算方法非常耗时,即使是中等规模的网络也可能包含大量的团。因此,在本书中,我们将自己限制在对小型完整子网络的分析上,这些子网络可能是也可能不是团。我们专注于完整的三元组,即由三个顶点组成的完整子网;但是这个论点很容易扩展到完整的大小为 4 或更大的子网。
图 37 显示了完整的无向和有向三元组以及包含多个完整三元组的网络示例。请注意,具有顶点 v1、v5 和 v6 的完整三元组是一个团,因为我们无法将网络中的另一个顶点添加到该子网络中,使它仍然是完全的。这个子网络在完整性方面是最大的。相比之下,三元组 v2、v4、v5 不是一个团,因为我们可以添加顶点 v3 并且子网仍然是完整的。顶点 v2 到 v5 构成一个大小为 4 的团,顺便说一下,它由四个完整的三元组组成。
图 37 显示了团和完整子网络的一个非常重要的特征,即它们可以部分重叠。完整的三元组 v1、v5、v6 与完整的三元组 v2、v4、v5 部分重叠,因为它们共享顶点 v5。因此,不可能明确地分配所有顶点到一个团或完整的子网。我们不能将每个团或完整子网等同于一个内聚子组,如果我们想将顶点分类为内聚子组,这是一个严重的复杂性。
在社会网络分析中,重叠团的结构被认为代表社会圈而不是单个团,被认为是有内聚性的子群。团或完整的三元组是网络中最密集的部分或“骨骼”,因此重叠团的结构被认为是其“骨架”。有时,对团的重叠施加额外的条件(例如,两个团必须共享的顶点的最小数量或百分比),但我们在这里不使用它们。
应用
因为团检测对密集网络特别有用,我们现在分析Attiro中访问关系的对称(无向)网络,其密度(0.072)高于有向网络( 0.045)。使用 Network> Create New Network> Transform> Arcs→Edges> All 命令使网络对称,并通过在“Remove multiple lines?”中选择选项 1、2、3、4 或 5 来避免多重边。该网络过于密集,无法直观地发现完整的三元组和重叠三元组的结构。即使是最好的充满弹力布局绘图也包含许多交叉边缘,这使得很难看到完整的三元组;可能有很多。
第一步是检测网络中的所有完整三元组。换句话说,我们必须找到一个特定网络或片段——在我们的例子中,一个完整的三元组——在另一个网络,即原始网络中的所有出现。该命令位于 Networks 菜单中,包含对两个网络的所有操作,它要求将片段和原始网络分别标识为 First Network 和 Second Network。项目文件 Attiro.paj 包含网络 triad_undir.net,它是一个完整的无向三元组。在第一个网络下拉菜单中选择这个网络,在第二个网络下拉菜单中选择对称访问关系网络。
Networks> Fragment (First in Second)
接下来,我们可以通过执行 Fragment (First in Second) 子菜单的 Find 命令找到网络中所有完整的三元组。执行此命令,Pajek 报告它找到的片段数量,并根据片段命令的选项窗口中选择的选项创建一个或多个新数据对象。我们建议仅选中“提取子网”和“相同顶点确定最多一个片段”选项。

后一个选项确保对片段的唯一实例进行计数,例如,三个顶点仅作为一个完整的三元组计算一次。对于大型网络,此检查可能需要很长时间,因此可以取消选择该选项及其子选项 Create Hierarchy with Fragments。搜索速度更快,但同一片段有多个计数,具体取决于片段的结构。例如,每个无向完全三元组被计数六次,所以应该将计数除以这个数字。请注意,在搜索有向片段时,通常不应设置选项 Same vertices determine one fragment at most( 相同顶点确定最多一个片段),因为相同顶点可能存在不同片段,例如,完整有向三元组中的多个传递三元组。
这会产生一个标记为“Subnetwork induced by Sub fragments“的新网络。之所以称为induced,是因为 Pajek 仅选择片段(完整三元组)内的顶点和边。该网络包含我们正在寻找的重叠团,我们将在本节末尾讨论它。此外,Pajek 创建了一个层次结构和一个partition 。partition 计算每个顶点所属的片段数,层次结构列出所有片段:在我们的示例中为完整的三元组。
层次结构是我们尚未遇到的数据对象。如果一个顶点可能属于多个类,它旨在对顶点进行分类。例如,在访问关系网络中,一个家庭可能属于几个完整的三元组。层次结构是一组group的列表,每个组可能由组或顶点组成。最终,顶点是被分组的单位。图 38 显示了图 37 的重叠完整三元组示例的层次结构。有五个完整三元组;它们中的每一个都由图 38 中的一个灰色顶点表示。每个完整的三元组由三个顶点组成(图 38 中的白色)。

请注意,大多数顶点出现不止一次,(也就是说,为实现技术上的描述,最底层的顶点使用重复出现的方式完成对group的描述)因为三元组重叠。在层次结构的顶部,一个节点(黑色)连接所有组;它被称为根。
您可以在 Edit 屏幕中浏览层次结构,该屏幕使用 File> Hierarchy> View/Edit 命令或通过 Hierarchy 左侧的 View/Edit 按钮打开下拉式菜单。打开时,编辑屏幕仅显示根目录。单击根之前的加号以显示层次结构中的(第一级)组。

图 39 显示了 Attiro 访问关系网络中的 36 个完整三元组的一部分。用鼠标左键选择一个组,然后用鼠标右键单击以在单独的窗口中显示其顶点。如果在“网络”下拉菜单中选择了原始网络,则顶点标签将显示在此窗口中的编号旁边。这样就可以看出哪些顶点属于一个完整的三元组。
现在让我们转向导出网络和由 Networks> Fragment (First in Second)> Find 命令创建的partition 。标有“子片段”的partition 显示了包含特定顶点的三元组的数量。使用主屏幕中的partition >info命令,您可以看到两个顶点属于不少于七个完整的三元组,而十三个顶点不包含在任何一个完整的三元组中。后面的顶点不是重叠团结构的一部分,因此它们从包含 Attiro 网络的剩余 47 个顶点的导出网络(标记为“由子片段导出的子网络”)中消除。
有了这个partition ,我们可以根据family-friendship分组(在Attiro_grouping.clu中)使原始partition 匹配新的导出网络。选择原始partition 作为第一个partition ,选择 Fragment partition 作为第二个partition 。然后执行 Partitions>Extract SubPartition (Second from First) 命令,指定 1 为最低类号,指定 7(或更高)为要提取的最高类号。 Pajek 创建了一个新的partition ,其中包含重叠完整三元组的导出网络中 47 个顶点的家庭-友谊分组。画出这个网络和partition ,并用 Kamada-Kawai 用弹力布局,以获得社会图40

如图 40 所示。它具有重叠的完整三元组的三个组成部分,因此我们说我们在完整三元组的标准下找到了三个共享至少一个成员的社交圈。家庭友谊分组 1 是一个单独的社交圈,但其他家庭友谊分组是相互关联的,尽管它们明显聚集在最大的组成部分中。亲友分组 10 在此结构中占据关键位置,连接分组 0、5 和亲友分组 4 的一部分。在有向网络中,您可以遵循相同的程序,但必须使用完整的有向三元组作为一个片段(例如 triad_dir.net)。通常,您会发现有向网络中的团比对称网络中的无向团少。例如,在有向 Attiro 网络中,只有一个完整的有向三元组,包含家族 f62、f71 和 f90,因此我们不能说有向网络中的重叠团

3.7 小结

在本章中,社会内聚性与密度和连通性的结构概念相关联。密度是指顶点之间的链接数。如果一个网络在其所有顶点之间包含路径,则它是强连通的,当它的所有顶点都由半路径(semipaths)连接时,它是弱连通的。连接的网络和具有高平均程度的网络被认为更具内聚性。这也适用于网络的各个部分(子网)。我们期望社交网络中的本地联系集中来识别有内聚性的社会群体。有几种基于密度和连通性检测内聚子组的技术,本章介绍了其中的三种:组件、k 核和团或完整子网络。所有这三种技术都假设子组内的连接模式相对密集,但它们所需的最小密度不同,从至少一个连接(弱组件)到所有可能的连接(团)不等。后面的章节将介绍另外两种基于类似原理的技术(单组件和双连通组件)。内聚子群有许多更正式的概念,但它们都基于密度和连通性的概念。组件以一种直接的方式识别内聚子组:每个顶点恰好属于一个组件。有内聚性的子群和 k 核心或团之间的联系更加复杂。 k-core是嵌套的,这意味着较高的k-core总是包含在较低的k-core中,因此一个顶点可能同时属于几个k-core。此外,k 核不一定是连接的:一个 k 核中的顶点可以分布在多个组件上。为了识别有内聚性的子组,研究人员必须消除低 k 核的顶点,直到网络分解成相对密集的组件。团或完整的子网,例如完整的三元组,可能会重叠,即共享一个或多个顶点,因此存在重叠的团被视为一个内聚的子群的组成部分,而不是把每个组件视作单独的团。因为检测内聚子群的技术基于相同的原理,所以通常无法获得支持一种技术优于另一种技术的实质性论据。技术的选择主要取决于网络的密度。在密集网络中,重叠团的结构最好地揭示了内聚的骨架,而组件和 k 核更好地解开松散的网络。在探索性研究中,我们建议先寻找组件,然后再应用 k 核,并在必要时搜索完整的三元组以细分大的 k 核(参见图 41 中的决策树)。

另一种选择涉及有向关系的处理。一般来说,对称有向关系产生高密度,所有会有更多或更大的内聚子群。对于 k 核,我们建议使用简单的无向或对称网络,以确保 k 等于核心中每个顶点连接到的邻居的数量。在有向网络中,组件可能是弱的或强的。强组件和完全有向三元组基于双向关系,而弱子网也考虑单边关系。
在本章中,我们使用了子群这个词,但一个有内聚子群并不一定是一个社会群体。我们需要通过比较结构子群体的社会特征、行为和成员的意见来检查这一点。有时,我们对网络中实体的先验知识使我们能够理解我们检测到的有内聚性的子组。否则,我们必须系统地将识别有内聚性的子群的partition 与代表社会属性的partition 进行比较。

Exploratory Social Network Analysis with Pajek(第三版)3相关推荐

  1. Exploratory Social Network Analysis with Pajek(第三版)11

    11.家谱和引文 11.1 引言 时间造成了社会关系中一种特殊的不对称,因为它以不可逆转的方式对事件和世代进行排序.社会身份和地位部分地建立在共同的祖先之上,无论是在生物学意义上(出生)还是在智力上: ...

  2. Exploratory Social Network Analysis with Pajek(第三版)8

    八.扩散 扩散是一个重要的社会过程.管理者对信息和意见的传播感兴趣,制造商寻求采用新技术和产品,我们所有人都对不感染传染病有着浓厚的兴趣.传播科学.社会心理学和社会学.公共管理.市场营销和流行病学正在 ...

  3. Exploratory Social Network Analysis with Pajek(第三版)2-1

    二.属性和关系 2.1 引言 在第 1 章中,我们认为社会网络分析侧重于社会关系.网络由一系列顶点和线构成.顶点和线都具有我们希望在分析中包含的特征(例如,人的性别和他们的关系强度).如第 1 章所述 ...

  4. Exploratory Social Network Analysis with Pajek(第三版)12

    第五部分建模 在​​最后一部分,我们将注意力从纯粹的网络结构探索性描述转移到建模上.介绍了两种类型的建模:块模型(第 12 章)和随机图模型(第 13 章). 内聚性.中介和等级与社会角色相关:成为团 ...

  5. Exploratory Social Network Analysis with Pajek(第三版)7

    七.经纪人和桥 7.1 引言 有很多朋友和熟人的人有更好的机会获得帮助或信息.因此,社会关系是衡量社会资本的一种方式,是一种可以被行为者用来获得积极优势的资产.然而,网络分析师发现,除了联系的数量之外 ...

  6. Exploratory Social Network Analysis with Pajek(第三版)1-1

    文章目录 第一部分基础 一.寻找社会结构 1.1 引言 1.2 社会计量学和社会学图 1.3 探索性社会网络分析 1.3.1 网络定义 1.3.2 操作 第一部分基础 社交网络分析侧重于例如人.人群. ...

  7. Exploratory Social Network Analysis with Pajek(第三版)6-1

    第三部分 中介 在很多理论中,社会关系被认为是人与人或组织之间传递信息.服务或商品的渠道.从这个角度来看,社会结构有助于解释信息.商品甚至态度和行为如何在社会系统中扩散.网络分析揭示了社会结构并有助于 ...

  8. Exploratory Social Network Analysis with Pajek(第三版)6-2

    6.4 介数 度和接近中心度是基于一个人在网络中的可达性:信息到达一个人的难易程度.中心度和中心性的第二种方法基于这样一种观点,即如果一个人作为通信网络中的中介更重要,那么他或她就更中心化.一个人对于 ...

  9. Exploratory Social Network Analysis with Pajek(第三版)2-2

    2.4 简化网络 partition 将网络的顶点划分为许多互斥的子集.换句话说,一个partition 将网络分割成块.因此,我们可以通过三种方式使用partition 来简化网络:提取一个部分(局 ...

最新文章

  1. cors在服务器还是接口_cors
  2. Lucene全文检索过程
  3. 属于db模式缺点的是什么_详解 Seata Golang 客户端 AT 模式及其使用
  4. 7 centos 查看程序文件数量_「动手打造家庭媒体网络平台」安装篇-centos搭建DLNA媒体服务...
  5. eclipse项目导入idea部署到tomcat
  6. .class和getClass()的区别
  7. 开源代码库_3个开源代码库来处理MARC格式的记录
  8. oracle sql切换模式,Oracle SQL 模式下命令回退
  9. FD.io VPP基本介绍:理解向量包处理(VPP)
  10. zlib 加密 java_JAVA自带Zlib+base64位压缩加密和解压解密
  11. 后端返回文件,前端下载导出
  12. 一分钟搭建Spring Boot
  13. redis 学习笔记(6)-cluster集群搭建
  14. Delphi android 开发视频教程
  15. R语言学习(二)数据分析数据探索
  16. 汽车行业营销案例(共13份)
  17. ASPUpload文件上传组件的用法
  18. 【HDU5857】Median
  19. python查看微信撤回消息_python轻松实现查看微信撤回消息代码实例
  20. 43.Django04

热门文章

  1. K线形态识别_下探上涨
  2. bat生成工具(批量 删除文件/复制文件/删除文件夹/重命名文件)
  3. 跟踪百度服务器的路由信息,路由跟踪
  4. navicat永久使用权
  5. 高仿膜拜单车安卓APP--Mobike 之Splash欢迎界面SplashActivity
  6. linux mysql5.7版本升级,linux升级mysql到5.7
  7. MATLAB——验证拉马努金连根式
  8. HTML一个最小的单元格包含,html – 表单元格在包含可滚动的pre时没有正确调整大小...
  9. ag-grid 单元格编辑-下拉框
  10. SIM 卡接口电平转换