当前位置首页 > 百科资料> 正文

幂律分布

2022-07-05 11:50:01 百科资料

自然界与社会生活中存在各种各样性质迥异的幂律分布现象,因而对它们的研究具有广泛而深远的意义。借助于有效的物理和数学工具以及强大的计算机运算能力,科学家们对幂律分布的本质有了进一步深层次的理解。当样本数据较多时,变量x的概率密度函数:f(x)~x^(-α-1)。

  • 中文名 幂律分布
  • 外文名 Power law distribution
  • 数学模型 f(x)~x^(-α-1),α>0

对比

正态分布

  自然界与社会生活中,许多科学家感兴趣的事件往往都有一个典型的规模,个体的尺度在这一特征尺度附近变化很小. 比如说人的身高,中国成年男子的身高绝大多数都在平均值1.70m左右。 当然,地域不同这一数值会有一定的变化,但无论怎样,我们从未在大街上见过身高低于10cm的"小矮人",或高于10m的"巨人"。 如果我们以身高为横坐标,以取得此身高的人数或概率为纵坐标,可绘出一条钟形分布曲线,这种曲线两边衰减得极快;类似这样以一个平均值就能表征出整个群体特性的分布,我们称之为正态分布。另外一个我们要注意的是最高的人与最矮的人的身高之比,根据吉尼斯世界纪录,世界上最高的人与最矮的人(均已去世)的身高分别是2. 72m和0. 57m,二者之比为4. 8,这个数值并不是很大,我们将在下文中证实。

长尾分布

  对于另一些分布,像国家GDP或个人收入的分布,情况就大不一样了,个体的尺度可以在很宽的范围内变化,这种波动往往可以跨越多个数量级. 比如根据世界银行的统计,最富有的国家-美国,其2003年GDP高达10, 881, 609, 000,000美元(一个天文数字) ,而数据显示同年GDP最低的国家-西非岛国圣多美和普林西比,只有54, 000,000美元,二者之比高达201511. 3。个人收入分布亦是如此,想想世界首富比尔·盖茨那高达465亿美元的个人资产就清楚了。 国家或城市人口的分布也会出现类似的情形。 据世界银行的统计, 2003年人口最多的国家-中国,总人口数多达1, 288, 400,000,而数据显示同年人口最少的国家-西太平洋上的帕劳群岛,人口数仅为20, 000 (不及中国一个普通县城的人口数) ,二者之比有64420之多。

  以收入值或国家总人口数为横坐标,以不低于该收入值的人数(概率)或国家数目(概率)为纵坐标,可绘出一条向右偏斜得很厉害,拖着长长"尾巴"的概率分布曲线,它与钟形的泊松分布曲线有显著的不同. 这种"长尾"分布表明,绝大多数个体的尺度很小,而只有少数个体的尺度相当大,像国家人口,全世界有224个国家和地区,只有11个国家的人口数超过一亿。

  对"长尾"分布研究做出重要贡献的是Zipf和Pareto ,虽然他们并不是这种分布的最早发现者。1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的排名序号的常数次幂存在简单的反比关系:

  P(r) ~r^-α

  这种分布就称为Zipf定律,它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。 实际上,包括汉语在内的许多国家的语言都有这种特点。 物理世界在相当程度上是具有惰性的,动态过程总能找到能量消耗最少的途径,人类的语言经过千万年的演化,最终也具有了这种特性,词频的差异有助于使用较少的词汇表达尽可能多的语义,符合"最小努力原则".分形几何学的创始人Mandelbrot对Zipf定律进行了修订,增加了几个参数,使其更符合实际的情形。

  19世纪的意大利经济学家Pareto研究了个人收入的统计分布,发现少数人的收入要远多于大多数人的收入,提出了著名的80/20 法则,即20%的人口占据了80%的社会财富. 个人收入X 不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系: P [X ≥x ]~x - k ,此式即为Pareto定律(帕累托定律)。

  Zipf定律与Pareto定律都是简单的幂函数,我们称之为幂律分布;还有其他形式的幂律分布,像名次- 规模分布、规模-概率分布,这四种形式在数学上是等价的,其通式可写成,其中x, y是正的随机变量,c, r均为大于零的常数. 这种分布的共性是绝大多数事件的规模很小,而只有少数事件的规模相当大。 对上式两边取对数,可知lny与lnx满足线性关系lny= lnc - rlnx,也即在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线,这一线性关系是判断给定的实例中随机变量是否满足幂律的依据。

  判断两个随机变量是否满足线性关系,可以求解两者之间的相关系数;利用一元线性回归模型和最小二乘法,可得lny对lnx的经验回归直线方程,从而得到y与x之间的幂律关系式.在双对数坐标下的图形,由于某些因素的影响,前半部分的线性特性并不是很强,而在后半部分,则近乎为一直线,其斜率的负数就是幂指数。

应用

  实际上,幂律分布广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样。在自然界与日常生活中,包括地震规模大小的分布(古登堡2里希特定律) 、月球表面上月坑直径的分布、行星间碎片大小的分布 、太阳耀斑强度的分布 、计算机文件大小的分布 、战争规模的分布 、人类语言中单词频率的分布 、大多数国家姓氏的分布 、科学家撰写的论文数的分布、论文被引用的次数的分布、网页被点击次数的分布 、书籍及唱片的销售册数或张数的分布、每类生物中物种数的分布、甚至电影所获得的奥斯卡奖项数的分布等,都是典型的幂律分布。

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:baisebaisebaise@yeah.net