美赛学习记录-2022年2月7日

  • 代码!
    • 线性回归
    • 数据拟合 插值 最优化求极值
    • 插值
    • ARIMA
    • 复杂网络实验
  • 模型验证
    • K-Fold Cross-validation k折交叉验证
  • 【基础模型】
    • 线性回归
  • 【评价模型】
  • a
    • 熵值法
    • TOPSIS 优劣解距离法 【评价优劣】
    • 层次分析法
  • 【预测模型】
    • 时间序列
    • 灰色系统理论
    • 元胞自动机 (二三维)【森林生长 溶质扩散 晶体生长 传染病扩散 交通 土地沙漠化 疏散】 美赛09年A题 凯旋门设计一个什么交通环岛/卢浮宫人流的疏散/ 传染病-公路收费站-飞机就座-货币分布-污染源-旅游方案制定
  • 降维
  • 优化
    • 多目标规划
  • 统计
    • 主成分分析 【降维 归类】
  • 分类
    • 聚类
  • 【随机算法】
    • 蒙特卡洛算法 【近似解 模拟变量/模型特征 定量风险分析 估算进度成本】
    • 模拟退火 【最小值最大值 最优解 遍历城市代价最小】
    • 遗传 【适者生存 自搜索全局最优解 最短路径】
  • 参数求解
  • 其他
    • 图论
    • pagerank
    • 马尔科夫链
    • 社交网络分析
    • SNA社会网络分析
    • 社交网络分析
    • 插值
    • BA model (图优化模型)
    • ER 随即图
  • 模型检验



代码!

线性回归

  • https://blog.csdn.net/qq_41149269/article/details/83449881

数据拟合 插值 最优化求极值

https://baijiahao.baidu.com/s?id=1721385631007585198&wfr=spider&for=pc

  • 插值:在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点。,利用它可通过函数在有限个点处的取值情况,估算出函数在其他点处的近似值
  • 当测量值是准确的,没有误差时,一般用插值;当测量值与真实值有误差时,一般用数据拟合。

插值

  • https://baijiahao.baidu.com/s?id=1719950385952482833&wfr=spider&for=pc
  • ①根据表中数据,制作军事沙盘。
    ②在演习范围内,占领最大高地的一方将获得居高临下的优势。请问红方应第一时间抢占哪块区域
    【绘制等高线图,找到最大高地】

ARIMA

  • https://zhuanlan.zhihu.com/p/69630638

复杂网络实验

  • https://blog.csdn.net/ylf12341/category_8804229.html

模型验证

K-Fold Cross-validation k折交叉验证

  • 就是进行多次train_test_split划分;每次划分时,在不同的数据集上进行训练、测试评估,从而得出一个评价结果;如果是5折交叉验证,意思就是在原始数据集上,进行5次划分,每次划分进行一次训练、评估,最后得到5次划分后的评估结果,一般在这几次评估结果上取平均得到最后的评分。k-fold cross-validation ,其中,k一般取5或10。

【基础模型】

线性回归

!引入变量是哪个,学会转换

  • ≤形式
  • eg1
  • 可以转换为线性规划的问题
  • 最小绝对值问题
  • 最小最大问题
  • 运输问题(产销平衡)
    m产地 n销地。运费最省
  • 指派问题。
    求解系数矩阵C的指派问题
    指派n人去干n项工作,花时间最少
  • 匈牙利算法:

算法主要依据以下事实:如果系数矩阵 C=(cij) 一行(或一列)中每 一元素都加上或减去同一个数,得到一个新矩阵 B=(bij) ,则以C或B为系数矩阵的 指派问题具有相同的最优指派

  • 对偶问题。
    原始问题的“行列转置”
  • 灵敏度分析
  • 投资收益和风险
    风险衡量
    分段函数
    多目标规划模型(净收益大,风险小)
    模型简化(1. 客户承受风险水平不一样,固定风险水平,优化收益(转换目标为条件。2. 固定盈利水平,极小化风险。 3. 对风险、收益分别赋予权重s(0 < s ≤1)和(1− s),s称为投资偏好系数。
    结果分析

【评价模型】

a

TOPSIS理想解法:找出理想最优解,根据样本和“最优解”的“距离”进行排名;
模糊综合评价:适用于评价标准是等级这种模糊的评价,如人事考察等;
数据包络分析的cr模型:用于对象之间的同等级比较,比较的是样本之间的相对效率;
灰色关联度评价方法:求出每一个样本与最优解的灰色关联度即相似度进而进行排名;
主成分分析:将原有的影响因素进行线性组合后选出主要成分再对其分析排名;
秩和比综合评价法:可用于医疗卫生领域,工作质量的多指标综合评价

熵值法

  • 熵值法的主要目的是对指标体系进行赋权
    熵越大说明系统越混乱,携带的信息越少,权重越小;熵越小说明系统越有序,携带的信息越多,权重越大。

TOPSIS 优劣解距离法 【评价优劣】

  • 它根据有限个评价对象与理想化目标的接近程度进行排序,在现有的对象中进行相对优劣的评价。通过逼近理想解的程度来评估各个样本的优劣等级


  • 根据Ci的大小进行排序,Ci越大,表明评价对象越接近最优值

层次分析法

  • 面临多种方案时需要依据一定的标准选择某一种方案
  • 层次结构:目标层,准则层,方案措施层
  • 每一层次中各元素所支配的元素一般不要超过9 个。这是因为支配
    的元素过多会给两两比较判断带来困难。



【预测模型】

时间序列

  • https://blog.csdn.net/weixin_43178406/article/details/98480427

  • 移动平均法
    移动平均法是根据时间序列资料逐渐推移,依次计算包含一定项数的时序平均数,
    以反映长期趋势的方法。当时间序列的数值由于受周期变动和不规则变动的影响,起伏
    较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,分析、预测序
    列的长期趋势。
    简单移动平均法,加权移动平均法,趋势移动平均
    !有无上升趋势(可以画个散点图看看)。是否最近的数据需要加权处理。

  • 简单移动平均法:。
    一般N 取值范围:5 ≤ N ≤ 200。当历史序列的基本趋势变化不大且序列中随机变动成分较多时,N 的 取值应较大一些。否则N 的取值应小一些。在有确定的季节变动周期的资料中,移动平均的项数应取周期长度。选择最佳N 值的一个有效方法是,比较若干模型的预测误差。预测标准误差最小者为好。

  • 加权移动平均法。
    对近期数据较大的权重

    这个预测值偏低,可以修正。其方法是:先计算各年预测值与实际值的相对误差
    将相对误差列于表 2 中,再计算总的平均相对误差。

  • 趋势移动平均
    简单移动平均法和加权移动平均法,在时间序列没有明显的趋势变动时,能够准确
    反映实际情况。但当时间序列出现直线增加或减少的变动趋势时,用简单移动平均法和
    加权移动平均法来预测就会出现滞后偏差。因此,需要进行修正,修正的方法是作二次
    移动平均,利用移动平均滞后偏差的规律来建立直线趋势的预测模型。这就是趋势移动
    平均法。


    (由散点图1 可以看出,发电总量基本呈直线上升趋势,可用趋势移动平均法
    来预测。)

  • 指数平滑法:
    一般说来历史数据对未来值的影响是随时间
    间隔的增长而递减的。所以,更切合实际的方法应是对各期观测值依时间顺序进行加权
    平均作为预测值。
    一次指数平滑法、二次指数平滑法和三次指数平滑法

  • 一次指数平滑法【预测模型 加权系数 初始值
    预测模型
    α 的大小规定了在新预测值中新数据和原预测值所占的比重。α 值越大,新数据所占的比重就愈大,
    新预测值是根据预测误差对原预测值进行修正而得到的。α 的大小则体现了修正的幅度,α 值愈大,修正幅度愈大
    ①如果时间序列波动不大,比较平稳,则α 应取小一点,如(0.1~0.5)。以减少修正幅度,使预测模型能包含较长时间序列的信息;②如果时间序列具有迅速且明显的变动倾向,则α 应取大一点,如(0.6~0.8)。使预测模型灵敏度高一些,以便迅速跟上数据的变化。
    多取几个α 值进行试算,看哪个预测误差小,就采用哪个。

    初始值的确定: 当时间序列的数据较多,比如在20 个以上时,初始值对以
    后的预测值影响很少,可选用第一期数据为初始值。如果时间序列的数据较少,在20
    个以下时,初始值对以后的预测值影响很大,这时,就必须认真研究如何正确确定初始值。一般以最初几期实际值的平均值作为初始值。

  • 二次指数平滑法

  • 三次指数平滑法
    当时间序列的变动表现为二次曲线趋势时,则需要用三次指数平滑法。三次指数平
    滑是在二次指数平滑的基础上,再进行一次平滑,其计算公式为

  • 差分指数平滑法
    当时间序列的变动具有直线趋势时,用一次指数平滑法会出现滞后偏差,其原因在于数据不满足模型要求。因此,我们也可以从数据变换的角度来考虑改进措施,即在运用指数平滑法以前先对数据作一些技术上的处理,使之能适合于一次指数平滑模型,以后再对输出结果作技术上的返回处理,使之恢复为原变量的形态。差分方法是改变数据变动趋势的简易方法
    先变换了,再变回去

  • 自适应滤波法 p502
    自适应滤波法与移动平均法、指数平滑法一样,也是以时间序列的历史观测值进行
    某种加权平均来预测的,它要寻找一组“最佳”的权数,其办法是先用一组给定的权数
    来计算一个预测值,然后计算预测误差,再根据预测误差调整权数以减少误差。这样反
    复进行,直至找出一组“最佳”权数,使误差减少到最低限度。由于这种调整权数的过
    程与通讯工程中的传输噪声过滤过程极为接近,故称为自适应滤波法。
    初始值的确定

  • 趋势外推法 p504
    利用趋势外推法进行预测,主要包括六个阶段:
    (a)选择应预测的参数;(b)收集必要的数据;(c)利用数据拟合曲线;(d)趋势外
    推;(e)预测说明;(f)研究预测结果在进行决策中应用的可能性。
    趋势外推法常用的典型数学模型有:指数曲线、修正指数曲线、生长曲线、包络
    曲线等。

  • 平稳时间序列
    特性是序列的统计特性不随时间的平移而变化,即均值和协方差不随时间的平移而变化。

  • ARMA p518

    ARMA 时间序列具有遍历性,因此可以通过它的一个样本估计自协方差函数及自相关函数
    在实际问题中,若考察的时间序列是 ARMA 序列

    ϕ (B)X =θ (B)ε ,

    首先要进行模型的识别与定阶,即要判断是AR( p),MA(q),ARMA( p, q)模型的
    类别,并估计阶数 p, q。其实,这都归结到模型的定阶问题。
    当模型定阶后,就要对模型参数 进行估计。
    定阶与参数估计完成
    后,还要对模型进行检验,即要检验et是否为平稳白噪声。
    若检验获得通过,则ARMA时间序列的建模完成。
    作为时间序列建模之后的一个重要应用,我们还要讨论ARMA
    时间序列的预报。
    https://zhuanlan.zhihu.com/p/69630638
    平稳性:要求均值和方差不发生明显变化

    原数据变得稳定一点:差分法。时间序列在t与t-1的差值
    ARIMA模型是由AR、I与MA模型组成
    AR§:auto regressive,自回归模型,表示当前的数值与过去p个时间节点的值的回归,不依赖别的值,所以称为自回归;其中pp称为自回归的阶数。
    I(d):integrateed,有的时间序列不是平稳信号,使用对数或者差分的方法可是将数据转化为平稳数据,数据的平稳性可以用数据的ACF(自相关)与PACF(偏自相关)图去判断。dd是差分的阶数
    MA(q):moving average,移动平均模型,表示当前的值,是过去q个时间点的预测误差的回归。是MA的移动平均的阶数
    具体的公式参考链接:http://danzhuibing.github.io/ml_arima_basic.html
    关于ACF与PACF的解释:http://www.cnblogs.com/tongji-wu/p/3439372.html

  • 使用SARIMA做季节时间序列预测全流程(附MATLAB代码)
    https://zhuanlan.zhihu.com/p/117595003

  • 多元时间序列的预测问题
    https://ww2.mathworks.cn/help/econ/arima.forecast.html?s_tid=doc_ta
    这个文档里的Forecast multiple response paths部分是不是你想要的

灰色系统理论

  • https://www.cnblogs.com/ECJTUACM-873284962/p/6721913.html
  • 灰色预测对于单调变化的序列预测精度较高,但是对波动变化明显的序列而言,灰色预测的误差相对比较大
  • 数据变换
    为保证建模的质量与系统分析的正确结果,对收集来的原始数据必须进行数据变换
    和处理,使其消除量纲和具有可比性。
    初值化变换 ,均值化变换。。。。。
  • 要结合背景,合理假设。比如只用最近几年的数据预测

元胞自动机 (二三维)【森林生长 溶质扩散 晶体生长 传染病扩散 交通 土地沙漠化 疏散】 美赛09年A题 凯旋门设计一个什么交通环岛/卢浮宫人流的疏散/ 传染病-公路收费站-飞机就座-货币分布-污染源-旅游方案制定


  • 用元胞自动机模拟SARS传播https://wenku.baidu.com/view/ca10c4f66337ee06eff9aef8941ea76e58fa4a1e.html
  • 空间、时间、状态都是离散的
  • 交通领域,元胞自动机常常被用来模拟道路上的车辆或移动的行人

降维

优化

多目标规划

统计

主成分分析 【降维 归类】

  • 主成分估计采用的方法是将原来的回归自变量变换到另一组变量,即主成分,选择
    其中一部分重要的主成分作为新的自变量(此时丢弃了一部分影响不大的自变量,这实
    际达到了降维的目的),然后用最小二乘法对选取主成分后的模型参数进行估计,最后
    再变换回原来的模型求出参数的估计。
  • 特征值因子的筛选

分类

聚类

  • 样本的相似度衡量






  • w5工作成绩最好
  • 变量相似性度量
    [研究变量间的相似关系,按照变量的相似关系把它们聚合成若干类,进而找出影响系统的主要因素]

    r 越接近1, xj 与xk 越相关或越相似。r 越接近零,xj 与xk 的相似性越弱。

    [想到了层次分析法???会有什么可联系的地方吗]
  • 聚类分析又称群分析,是对多个样本(或指标)进行定量分类的一种多元统计分析
    方法。对样本进行分类称为Q型聚类分析,对指标进行分类称为R型聚类分析



【随机算法】

蒙特卡洛算法 【近似解 模拟变量/模型特征 定量风险分析 估算进度成本】

  • 用蒙特卡罗方法模拟某一过程时,产生所需要的各种概率分布的随机变量;用统计方法把模型的数字特征估计出来,从而得到问题的数值解,即仿真结果。
  • 一类是问题的解等价于某事件的概率,如算法引入中提到的求解圆的面积问题(定积分求解图形面积)。另一类是判定问题,即判定某个命题是否为真,例如主元素存在性判定和素数的测试问题
  • 解题步骤如下:
      1、根据提出的问题构造一个简单、适用的概率模型或随机模型,使问题的解对应于该模型中随机变量的某些特征(如概率、均值和方差等),所构造的模型在主要特征参量方面要与实际问题或系统相一致。
      2、根据模型中各个随机变量的分布,在计算机上产生随机数,实现一次模拟过程所需的足够数量的随机数。通常先产生均匀分布的随机数,然后生成服从某一分布的随机数,方可进行随机模拟试验。
      3、根据概率模型的特点和随机变量的分布特性,设计和选取合适的抽样方法,并对每个随机变量进行抽样(包括直接抽样、分层抽样、相关抽样、重要抽样等)。
      4、按照所建立的模型进行仿真试验、计算,求出问题的随机解。
      5、统计分析模拟试验结果,给出问题的概率解以及解的精度估计

模拟退火 【最小值最大值 最优解 遍历城市代价最小】

  • 避免陷入局部最优
  • 红色循环是T 温度下的局部搜索,即为等温过程 绿色是降温过程
  • 模拟退火本身是求一个最小值问题,但可以转化为求最大值问题,只需要对目标函数加个负号或者取倒数。

遗传 【适者生存 自搜索全局最优解 最短路径】

  • 遗传算法的适应度函数是用来判断群体中的个体的优劣程度的指标 (越靠近最优解更优) 目标函数。某个体的自适应值越大,那么其被遗传到下一代的概率就越大,所以自适应度函数的选择将直接影响到遗传算法收敛的速度以及能否找到全局最优解。
  • 在精度允许的前提条件下,二进制编码可以将区间内的无穷多个点用间隔足够小的有限个点来代替。在编码的过程当中,我们需要确定解的区间以及需要表示的解的精度
  • 选择操作: 轮盘赌(累计适应度) 精英选择 随机遍列采样
  • 交叉概率越大,那么可以使得各代的交叉越充分,同时个体重中的优良个体也有可能遭到破坏,所以合适的选择交叉概率才会起到较好的作用,一般的交叉概率在[0.4, 0.99]之间
  • 变异算法是对遗传算法的改进,对交叉过程中可能丢失的某些遗传基因进行修复和补充,也可以防止遗传算法较快的收敛到局部最优解。当变异概率较小时,解的稳定性较高,但是很容易陷入局部最优解,并且难以跳出局部最优解的区间;但是如果变异概率较大,可以使得解空间具有多样性,从局部最优解跳出来,最终找到全局最优解,
  • 最终算法可以得到获得:1. 最佳适应值的个体染色体编码,通过解码操作获取自变量所对应的值;2. 最佳适应度值,也就是算法找到的全局最优解;3. 取得最优解的迭代次数(进化到第几代),
  • 遗传算法是一种概率优化算法,所以其每一次的结果可能会不一样,但是我们如何评价我们建立的模型的好坏,如何确定我们选取的各参数值较为合理呢?此时我们可以看看每一代种群的最大适应值,和个体的平均适应度值
  • 算法在第14代找到了全局最优解,每一代种群的平均适应度函数值在前20次进化中在迅速的增大,并且在第30代左右趋于平缓,在第40代之后,种群的最大及平均适应度值都非常平缓了,此时我们就可以说明该算法已经收敛,我们的参数设置较为合理
  • 对于2维函数的最优化问题,也可以在现有代码的基础之上,增加染色体长度(x及y对于的染色体),个体的染色体就由两部分构成,对x和y的染色体分别进行选择、交叉、变异操作,最后再分别对其进行解码,也可以得到二维函数的最优问题:
  • 交叉: 随机选出两个个体和要交叉的基因位置
  • 变异(目的:维持种群多样性)随机选出一个个体(变异概率)和变异的基因位置

参数求解

其他

图论

  • 最短路问题、最大流问题、最小费用流问题和匹配问题
  • 最短路 公路连接 指派问题 邮递员 旅行商 运输

pagerank

  • https://www.cnblogs.com/jpcflyer/p/11180263.html

马尔科夫链

  • 现实世界中有很多这样的现象:某一系统在已知现在情况的条件下,系统未来时刻
    的情况只与现在有关,而与过去的历史无直接关系。比如,研究一个商店的累计销售额,
    如果现在时刻的累计销售额已知,则未来某一时刻的累计销售额与现在时刻以前的任一
    时刻累计销售额无关。上节中的几个例子也均属此类。描述这类随机现象的数学模型称
    为马氏模型。

社交网络分析

https://www.zhihu.com/people/july_lu/posts
https://zhuanlan.zhihu.com/p/85718373

  • 从微观的角度来讲,影响力分析可以理解为衡量边的强弱,即判断用户A对用户B的影响程度;从宏观的角度来讲,影响力分析可以理解为衡量节点(用户)在一个图中的重要性,即一个用户对其周围用户的影响。
  • Degree Centrality
    这是最常见和最简单的方法。在无向图中,我们可以用一个节点的度数 (距离为1)(就是社交网络中用户的好友数)来衡量Centrality,延伸一下可以用距离为k的度数。在有向图中,度可以区分为入度和出度两个概念,入度就是指向该节点的个数,出度就是从该节点出发的个数。
    假如我们要比较你在微博和微信上的点度中心度,刚才的方法是否适用?如果说使用微信与微博的人数差不多,那么的确可以。但是如果说用户数量不一样呢?那么我们需要考虑到去规模化的问题,这就是标准化的点度中心性的理念。
    接近中心性的值为路径长度的倒数。
    接近中心性需要考量每个结点到其它结点的最短路的平均长度。也就是说,对于一个结点而言,它距离其它结点越近,那么它的中心度越高。一般来说,那种需要让尽可能多的人使用的设施,它的接近中心度一般是比较高的
  • Closeness Centrality
    如果节点到图中其它节点的最短距离都很小,那么我们认为该节点的Closeness Centrality高。 这个定义其实比Degree Centrality从几何上更符合中心度的概念,因为到其它节点的平均最短距离最小,意味着这个节点从几何角度看是处在图的中心位置
  • Betweenness Centrality
    对于网络中的两个节点A和B,他们之间的最短路径可能有很多条。 计算网络中任意两个节点的所有最短路径,如果这些最短路径中有很多条都经过了某个节点,那么就认为这个节点的Betweenness Centrality高。
    中介中心性指的是一个结点担任其它两个结点之间最短路的桥梁的次数。一个结点充当“中介”的次数越高,它的中介中心度就越大。如果要考虑标准化的问题,可以用一个结点承担最短路桥梁的次数除以所有的路径数量。
  • 【第二篇】
  • 产生同质性的根源来源于社交网络的两个行为:影响 (social influence) 和选择 (selection) 影响表明人们更易跟随周围人的行为;选择表明人们会主动选择与他们相似的人。我们接触的推荐系统,侧重于研究用户间的相似性来让用户做出某种行为选择,而所谓的营销,则是通过增强社会影响力来引导用户。(当然两者不能完全割裂开)
  • 影响和选择的公式。。。https://zhuanlan.zhihu.com/p/86073474
    除了用户属性和用户行为,用户之间的交互、互动行为在一定程度上也可以体现出用户的影响力,比如评论、私信和被@等等。其中有三个主要的话题,第一,用户关系的漂移;第二,用户属性和用户行为的自相关性;第三,用户行为的群体性。
  • 【第三篇】
  • deepwalk https://zhuanlan.zhihu.com/p/87007322
  • 【第四篇】
  • 最大化影响力 如何去衡量用户的内在属性(高价值用户,高消费倾向群体等等)以及如何去衡量用户在社交网络中的价值(用户能够激发他人进行消费)
  • 传播影响力模型
    首先做如下定义,网络中被影响的节点称为已激活节点,未受到影响的节点称为未激活节点。最简单的模型是启发式的模型,
    基于度(Degree Centrality)的启发式模型
    将度较高的节点作为已经激活的种子节点,进而希望有一个更好的影响力传播。
    基于接近中心性(Closeness Centrality)的启发式模型
    该方法认为用户更易受离他近的已激活节点的影响。
    线性阈值模型
    确定一个节点是否被激活(影响)是由其邻居节点激活状态的单调函数决定的。
    级联模型
    确定一个节点是否被激活(影响)是由其邻居节点中那些尝试去激活但未成功激活的那部分节点所决定的
  • 【第七篇】 Motif-PageRank
  • 社交网络影响力挖掘
  • 在以往的研究中,一个思路是将经典的PageRank算法用于节点的影响力排序。PageRank最开始用于互联网搜索中的网页排序,其基本思想是:如果一个网页被越多的网页所超链接,那么该网页的权威度就越高,因此在搜索的时候就更应该被展示。
  • 但是,仅仅考虑连接数 (在这里把最简单的连接称之为一阶连接) 在社交网络中是不充分的,一阶连接仅仅是从一个全局去考虑,而社交关系的建立,局部小团体特征是非常显著的,因此需要考虑子图内部的连接关系 (高阶连接关系) ,这里的子图可以称为Sub-Graph,或者是Motif

  • 比如说上面这个图,u1同时关注了u2,u3和u4,对于传统的PageRank算法,那么u2,u3和u4对于u1的影响将是相同的,但是如果放到真实的社交场景下,u2和u3对于u1的影响在概率上来说会大于u4,因为u2和u3互相关注,u1u2u3之间形成了一个三角关系圈,三角关系是个很有意思的关系圈(心理学研究证明的,哈哈)。因此,高阶关系对于影响力的计算是不可忽视的
    Motif-PageRank就是旨在将高阶关系引入到一阶关系中,并取得了SOTA的结果。算法的过程其实是比较简单的,无非就是计算一阶邻接关系矩阵和高阶邻接关系矩阵,再线性或者非线性的融合一下,最后代入传统的PageRank中就可以了。因此重点就是三个,第一,一阶邻接关系矩阵;第二,高阶邻接关系矩阵;第三,PageRank算法的计算

  • 无向 有向邻接矩阵 https://zhuanlan.zhihu.com/p/101135211

    pagerank、矩阵公式在链接中找
  • 另一篇 权力的游戏代码 https://blog.csdn.net/weixin_41931965/article/details/83793125

SNA社会网络分析



  • 使用意见领袖传播
  • IT支持网络
  • 使用e-mail确定最优路径









社交网络分析

  • 根据2011年 Facebook 数据分析小组的报告, Facebook 约7.2亿用户中任意两个用户间的平均路径长度仅为4.74,而这一指标在推特中为4.67。可以说,在五步之内,任何两个网络上的个体都可以互相连接
  • 网络特性
    小世界现象:小世界现象是指地理位置相距遥远的人可能具有较短的社会关系间隔。早在1967年,哈佛大学心理学教授 Stanley Milgram 通过一个信件投递实验,归纳并提出了“六度分割理论(Six Degrees of Separation)”, 即任意两个都可通过平均五个人熟人相关联起来。1998年,Duncan Watts 和 Steven Strogatz 在《自然》杂志上发表了里程碑式的文章《Collective Dynamics of “Small-World” Networks》,该文章正式提出了小世界网络的概念并建立了小世界模型。
      小世界现象在在线社交网络中得到了很好地验证,根据2011年 Facebook 数据分析小组的报告, Facebook 约7.2亿用户中任意两个用户间的平均路径长度仅为4.74,而这一指标在推特中为4.67。可以说,在五步之内,任何两个网络上的个体都可以互相连接。
      无标度特性:大多数真实的大规模社交网络都存在着大多数节点有少量边,少数节点有大量边的特点,其网络缺乏一个统一的衡量尺度而呈现出异质性,我们将这种节点度分布不存在有限衡量分布范围的性质称为无标度。无标度网络表现出来的度分布特征为幂律分布,这就是此类网络的无标度特性。
  • 网络模型
    WS 模型:WS 模型即小世界模型,通过小世界模型生成的小世界网络是从规则网络向随机网络过渡的中间形态。
    BA 模型:BA模型考虑到现实网络中节点的幂律分布特性,生成无标度网络。
    其他模型:森林火灾模型,Kronecker 模型,生产模型

  • 具体文献在链接查 http://mt.sohu.com/20171010/n516921964.shtml
  • 社交网络内容搜索 经典的信息检索模型有向量空间模型(VSM),概率模型及 BM25检索公式,基于统计建模检索模型及查询拟然模型,基于统计语言建模的检索模型等。
  • 针对微博的内容检索建模,目前有两种主要的方法:
  • 时间先验方法:时间先验是由于语料库中的文档具有不同的重要性,考虑语料库背景定义不同的计算公式,再将计算结果用于检索模型以期得到更好的检索效果的一种检索方法。目前考虑时间信息计算文档先验的研究工作可分为两种:一种定义文档的时间变化关系;另一种为修改 PageRank 的方法,在其中加入时间关系
  • 多特征组合的方法:多特征组合方法是通过组合多个微博特性来检索微博内容。下面的参考文献中提到的微博特性有:微博个数,关注数,粉丝数,微博长度,微博是否含有外链
    具体文献在链接 http://mt.sohu.com/20171010/n516921964.shtml
  • 基于群体状态的传播模型
      传染病模型(SI, SIS, SIR), 传染病模型是经典的信息传播模型
  • 贪心算法从单个节点开始,计算每选一个新节点作为初始节点对每个节点带来的边际收益,取能造成边际收益最大的点加入初始节点集合。贪心算法的缺点是计算时间成本较大,但是计算精度较高。
  • 不同于贪心算法选择任何一个点作为初始节点开始计算,启发式算法先通过一定策略选取一定数量的初始节点,然后计算其影响力传播。其优点是速度快,缺点是精度低。
  • 【我们也可以通过信息传播的轨迹,信息内容等维度自动判断消息是否属于谣言,】
  • 社交推荐、隐私保护、舆情分析、用户画像、谣言检测、可视化

插值

  • method参数用于指定插值方法,常用的取值有以下四种:
    (1)linear:线性插值,默认方法。将与插值点靠近的两个数据点用直线连接,然后在直线上选取对应插值点的数据。
    (2)nearest:最近点插值。选择最近样本点的值作为插值数据。
    (3)pchip:分段3次埃尔米特插值。采用分段三次多项式,除满足插值条件,还需满足在若干节点处相邻段插值函数的一阶导数相等,使得曲线光滑的同时,还具有保形性。
    (4)spline:3次样条插值。每个分段内构造一个三次多项式,使其插值函数除满足插值条件外,还要求在各节点处具有连续的一阶和二阶导数。
  • 粮温粮食深度

BA model (图优化模型)

https://blog.csdn.net/OptSolution/article/details/64442962

  • BA的本质是一个优化模型,其目的是最小化重投影误差

ER 随即图

模型检验

【美赛学习记录】模型相关推荐

  1. 西瓜书学习记录-模型评估与选择(第二章)

    西瓜书学习记录-模型评估与选择 第二章啦 整个过程可以描述为在训练集上去训练,在验证集上去调参,调完参之后再到训练集上去训练,直到结果满意,最后到测试集上去测试. 例子(反例): 上图选择蓝色的线,坏 ...

  2. Unity学习记录——模型与动画

    Unity学习记录--模型与动画 前言 ​ 本文是中山大学软件工程学院2020级3d游戏编程与设计的作业7 编程题:智能巡逻兵 1.学习参考 ​ 除去老师在课堂上讲的内容,本次作业代码与操作主要参考了 ...

  3. [大数据技术与应用省赛学习记录二]——模块一(HADOOP完全分布式集群搭建)

    **在操作前,先梳理一下HADOOP完全分布式需要做些什么,不然像无头的苍蝇一样,永远不知道做什么.因为我本人比赛是一台服务器Centos 7,与三台客户端Ubuntu 18.04,所以以物理机的角度 ...

  4. 今日代码(20210313)--美赛代码记录

    代码记录 第1及第6题(PageRank+Lasso) my_pagerank <- function(M, r, n, b) {N <- dim(M)[2]r <- r/sum(a ...

  5. [大数据技术与应用省赛学习记录一]——软件准备

    @JIAQI 第一章 大数据平台环境搭建 在指定主机上完成Hadoop完全分布式.Spark.Flink.kafka.flume的安装配置 赛前准备 主办方要求使用以下相关版本软件环境,仅供参考: 设 ...

  6. 【2020数模F奖】 美赛C题参赛感受及做题思路记录【编程手的角度,含大量代码及参考链接】

    目录 写在前面的话 题目分析 [数据清洗] [NLTK] [第一题] [第2题e问] [词云]---wordcloud包 [TF-IDF算法] [第2题a.b.c问]需要先对评论数值化 [Textbl ...

  7. 2020美赛C题:python实现npl自然语言处理记录

    2020美赛C题:python实现npl自然语言处理记录 前言 文本预处理 LDA主题分析加可视化 多进程程序需写进main函数 可视化 NLTK情感分析 制作语料包 情感积极性量化 一些收获 pyt ...

  8. 2021年美赛准备(学习笔记) 2016年C题优质基金挑战

    2021年美赛准备(学习笔记) 2016年C题优质基金挑战 2021年美赛准备 2021年美赛准备(学习笔记) 2016年C题优质基金挑战 题目 怎么解决问题 算法的选择 背景 数据处理 数据填充 最 ...

  9. 2023美国大学生数学建模竞赛(美赛)E题解读思路基本模型

    2023美国大学生数学建模竞赛(美赛)E题解读&思路&基本模型[大佬慎入] 一.赛题解读 (一)赛题翻译 (二)核心思路 二.具体思路 (一)问题一 (二)问题二 (三)问题三 (四) ...

最新文章

  1. HTML5(W3CSchool版).chm
  2. 自定义数组操作工具类代码示例
  3. Java8 Lambda 表达式
  4. linux缓存代码,Linux使用的缓存
  5. 常见网络命令整理(ping、trcert、netstat)
  6. Python 中的全局变量
  7. 生物信息学主要研究方向
  8. bandicom录屏音画不同步_bandicam录屏工具
  9. python复制上一行到下一行_eclipse复制当前行到下一行-eclipse复制-eclipse复制一行快捷键...
  10. ROS多设备组网(WSL+miniPC+Nv Orin)
  11. 拼多多砍价背后的逻辑
  12. HashMap、ConcurrentHashMap原理分析
  13. Eureka的自我保护机制与如何禁用
  14. php户型图识别,户型图上的那些标注都是啥?看不懂难怪被坑
  15. 微型 Python Web 框架 Bottle - Heroin blog
  16. 陶泓达:实力指导短线交易策略!让你翻仓回本
  17. 如何在Linux中轻松隐藏文件和文件夹
  18. 考研数据结构树——读书摘抄总结
  19. JAVA微信登陆详解
  20. vc++ 读书笔记(摘抄)

热门文章

  1. 基站机房:保障通信网络稳定,如何解决安全隐患?
  2. 百度百科词条的创建一定要掌握这几大原则
  3. 安裝Drupal 7简体中文版
  4. 清除指定域名下的cookie
  5. Redis 过期Expires
  6. 您的程序输出的格式不符合要求(比如空格和换行与要求不一致)----改
  7. 基于简单sql语句的sql解析原理及在大数据中的应用
  8. 安全函数最全总结:字符串拷贝,内存拷贝,字符串格式化等
  9. 腾讯春招提前批面试经历(已收到offer)
  10. CC2530 蜂鸣器 播放音乐