登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

淘尽网 官方博客

淘尽网http://www.tao3w.com做最好的比价网站

 
 
 

日志

 
 

齐普夫定律  

2012-12-18 15:13:20|  分类: 算法 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

  齐普夫定律是美国语言学家G.K.齐普夫George Kingsley Zipf)于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数个这些词编上的等级序号,即频次最高的词等级为1,频次次之的等级为2,......,频次最小的词等级为D,。若用f表示频次,r 表示序号,则有fr=C(C为常数)。人们称该式为齐普夫定律。

  齐普夫定律是描述一系列实际现象的特点非常到位的经验定律之一。它认为,如果我们按照大小或者流行程度给某个大集合中的各项进行排序,集合中第二项的比重大约是第一项的一半,而第三项的比重大约是第一项的三分之一,以此类推。换句话来说,一般来讲,排在第k位的项目其比重为第一项的1/k。

  齐普夫定律还从定量角度描述了目前流行的一个主题: 长尾巴定律The Long Tail)。以一个集合中按流行程度排名的物品(如亚马逊网站上 销售的图书)为例。表示流行程度的图表会向下倾斜,位于左上角的是几十本最流行的图书。该图会向右下角逐渐下降,那条长尾巴会列出每年销量只有一两本的几 十万种图书。换成英文即齐普夫定律最初应用的领域,这条长尾巴就是你很少会遇到的几十万个单词,譬如floriferous或者refulgent。

  把流行程度作为大致衡量价值的标准,齐普夫定律随后就会得出每一个物品的价值。也就是说,假设有100万个物品,那么最流行的100个物品将贡献总价值的三分之一,其次的10000个物品将贡献另外的三分之一; 剩余的98.99万个将贡献剩下的三分之一。有n个物品的集合其价值与log(n)成正比。

齐普夫定律的应用范围

  1.词表编制

  2.利用齐普夫定律,解决词汇控制,词表规模确定,选词标准等问题。

  3.文献标引控制

  齐普夫定律主要应用于统计标引法。确定有效词的词频值。从而可通过计算机确定有效词。

  4.情报检索的文献组织。

齐普夫定律的运用实例

  电子邮件列表成员的相对价值。

  按照齐普夫定律,这种网络的成员可以像齐普夫定律排列单词那样来排序——按照你收件箱当中电子邮件的数量。每个人所发的电子邮件都会给你收件箱的总“价值”贡献1/k,这里的k是指每个人的排名。

  邮件量排名第一位的那个人因而获得被设为1/1即1的值(这个人就相当于前面那个例子中的单词the)。排在第二位的那个人将贡献一半的值,即1/2。而按照齐普夫定律,排在第k位的那个人将为你为这个邮件网络赋予的总价值添加大约1/k。

  这个总价值就是网络所有其他成员的递减的1/k值之和。所以如果你的网络有n个成员,这个值就与1 + 1/2 + 1/3 +… + 1/(n-1)成正比,这接近log(n)。说得更准确些,这差不多等于log(n)与恒定值相加之和。当然,n-1个其他成员可以从网络得到类似的值, 所以所有n的值以n log(n)增加。

  评论这张
 
阅读(771)| 评论(0)

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018