Elo排名系统

Reading time ~2 minutes

前一阵子的AlphaGo和围棋很火,当时的AlphaGo在战胜kejie后排名世界第一;最近王者荣耀很火,它的排位赛机制中的内部匹配系统也十分令人诟病。不管是在围棋赛场,还是在多人竞技电子赛场上,排位系统是很重要的。常见的算法有:Elo,TrueSkill™。

先来看下Elo算法。

1.介绍

Elo排名系统(Elo rating system)用于计算竞技比赛(比如:chess)的相对技能等级。它由 Arpad Elo创建。Elo系统(Elo system)的发明最初用于改善棋类排名系统,但后来也被用于多人竞技电子游戏:实况足球,等。

两个选手(player)在排名系统的不同,可以用来预测比赛结果。两个具有相同排名(rating)的选手相互竞争时,不管哪一方获胜都会得到相同的得分(score)。如果一个选手的排名(rating)比他的对手高100分,则得64%;如果差距是200分,那么排名高的选手的期望得分(expected score)应为76%。(可以理解为,获胜的机率更高)

一个选手的Elo rating由一个数字表示,它的增减依赖于排名选手间的比赛结果。在每场游戏后,获胜者将从失利方获得分数。胜者和败者间的排名的不同,决定着在一场比赛后总分数的获得和丢失。在高排名选手和低排名选手间的系列赛中,高排名的选手按理应会获得更多的胜利。如果高排名选手获胜,那么只会从低排名选手处获得很少的排名分(rating point)。然而,如果低排名选分爆冷获胜(upset win),可以获得许多排名分。低排名选手在平局的情况下也能从高排名选手处获得少量的得分。这意味着该排名系统是自动调整的(self-correcting)。长期来看,一个选手的排名如果太低,应比排名系统的预测做得更好,这样才能获得排名分,直到排名开始反映出他们真正的实力。

2.历史

Arpad Elo是大师级棋手,参加了美国国际象棋协会(USCF)。USCF原先使用由Kenneth Harkness一个数值排名系统,允许成员以分值的形式来记录他们的私人成绩,而非比赛的胜负场次。Harkness system 相当公平,但在一些情况下,会导致许多人认为是不准确的排名。为了USCF,Elo提出了一种新的基于统计学基础的系统。

Elo的核心假设是,每个选手在每场国际象棋上的表现水平是一个正态随机变量。尽管一个选手从这一场到下一场的表现或好或差,Elo假设每个选手的表现的均值随时间的变化很慢。Elo认为:一个选手的实力(true skill),就是选手表现(player’s performance)的随机变量的均值。

有必要做进一步假设,因为国际象棋的表现仍然是难以测量的。我们不能看到一连串的移动操作后就说:“该表现为2039分.” 比赛表现(Performance)只能从胜、平、负中看出。因此,如果一个选手赢下一场比赛,那么对于这场比赛来说,该选手比对手的表现的水平更高。相反的,如果选手失利,则认为表现的水平更低些。如果比赛平局,两个选手的水平相接近。

对比起胜或负,Elo没有精确指出两者在平局时的表现的接近程度。但他认为每个选手在表现上都有一个不同的标准差(standard deviation),他做了一个简化的假设。

为了简化计算,Elo提出了一种简单的方法来估计在模型中的变量(比如:每个选手的真实实力true skill)。计算相当简单,可以从表中进行,一个选手所期望获胜的场次,基于他的排名和对手排名决定。如果一个选手比所期望的得到更多获胜场次,他们的排名应向上调整,如果比期望的获胜场次较少,则向下调整得分。然而,这些调整与超出或少于期望胜场数的场次成线性比例。

从现代的角度看,Elo的简化版假设是没必要的,因为幂计算(power)并不昂贵,被广泛采用。再者,在简化版模型中,许多有效的估计技术很有名。最著名的有Mark Glickman,提出使用许多复杂的统计机制来估计相同的变量。另外,Elo system的计算简单性被证明是宝贵财富之一。有了便携计算器的帮助,一个选手可以计算接下来的正式发布的排名,误差在一分之内,从而帮助理解排名是公平的。

3. elo’s scheme的实现

USCF在1960年实施Elo的建议,该系统快速获得认可,比Harkness rating system更准,更公平。Elo的系统在1970年被世界国际象棋联盟(FIDE)采纳。Elo在1978年出版的《The Rating of Chessplayers,Past and Present》一书中详细描述了它的工作。

随后的统计测试已经表明,国际象棋的水平表现几乎不是正态分布。选手越弱,但获胜机率总是大于Elo模型的给出的预测机率。因此,USCF和一些国际象棋网站采用了基于logistic分布的公式。当在国际象棋中使用logistic分布时,已经发现了极大的统计异常现象。FIDE继续使用由Elo提出的排名差距表(rating difference table)。该表使用期望0, 标准差为2000/7进行计算.

在某种程度上,正态分布和logistic分布中的点,是在连续分布(a spectrum of distributions)上的任意点,它们都能良好工作。实际上,这些分布对许多不同的游戏都能良好运转。

3.1 不同的排名系统

短语”Elo rating“经常被用来表示由FIDE计算的一个选手的chess rating。然而,该用法是有冲突和混淆的,因为Elo的思想已经被许多组织采用:FIDE、ICC、FICS、PCA、Yahoo!Games。每个组织都有自己的实现,都不会按原始的Elo建议来实现。上述所有的ratings都可以认为是Elo ratings。

每个棋手由不同的组织授于的rating,比如:在2002年8月,Gregory Kaidanov具有FIDE rating: 2638分;具有USCF rating:2742分。注意,这些不同组织的Elo ratings不总是拿来直接对比的。例如,一个人可以有FIDE rating 2500分,而他的USCF rating可能接近2600分,ICC rating可能在(2500, 3100)分之间。

3.2 FIDE ratings

对于顶级选手,最重要的rating是FIDE rating。自2012年7月开始,FIDE每月更新顶级选手列表。

以下是2015年7月FIDE rating列表给出的统计:

  • 5323个选手具有active rating在2200-2299间,与候选大师(Candidate Master)的头衔相对应。
  • 2869个选手具有active rating在2300-2399间,与FIDE大师的头衔相对应
  • 1420个选手具有active rating在2400-2499间,大多数具有国际大师(International Master)或国际特级大师(International Grandmaster)称号。
  • 542个选手具有active rating在2500-2599间,它们具有国际特级大师(International Grandmaster)称号.
  • 187个选手具有active rating在2600-2699间,它们具有国际特级大师(International Grandmaster)称号。
  • 37个选手具有active rating在2700-2799间
  • 4个选手的rating超过2800.

FIDE rating的最高分为2882, Magnus Carlsen在2014年5月拿到。

3.3 表现排名(Performance rating)

表现排名分(Performance rating)是一个假设排名分,它只从一些赛事中产生。一些国际象棋组织使用”algorithm of 400”来计算表现排名(Performance rating)。根据该算法,表现排名(Performance rating)的计算根据下面的方式进行:

  • 1.对于每场胜利,你对手的rating加上400
  • 2.对于每次失利,你对手的rating减去400
  • 3.然后除以场次.

示例:2场胜利,2场失利

\[PR=\frac{w+400 + x+400 +y-400 + z-400}{4}\] \[=\frac{w+x+y+z+400(2) - 400(2)}{4}\]

因而可以用以下的公式来表述:

\[PR=\frac{\sum{所有对手的ratings} + 400 * (Wins-Losses)}{Games}\]

例如:如果你击败了一个具有Elo rating=1000的选手,那么你的表现排名为:

\[PR=\frac{1000+400*(1)}{1}=1400\]

如果你击败了两个Elo ratings=1000的选手,那么:

\[PR=\frac{2000+400*(2)}{2}=1400\]

如果和一选手打平了,则:

\[PR=\frac{1000+400*(0)}{1}=1000\]

这是一个简化版本,因为它没有采用K因子(该因子会在下面介绍),但它提供了一种简单的方式来获得PR(Performance Rating)的估计。

FIDE则通过下面公式的均值来计算performance rating:

对手排名平均值(Opponents’ Rating Average) + 排名差值(Rating Difference)

排名差值 (Rating Difference) $ d_p $基于一个选手的比赛得分百分数p,它被用作是在一个lookup table中的key值,其中p可以简单认为是取得得分的场数除以比赛场数。注意,最好的表现是800分。完整的表可以在FIDE handbook中找到。这里提供了一个简化版本的表。

p $d_p$
1.00 +800
0.99 +677
0.9 +366
0.8 +240
0.7 +149
0.6 +72
0.5 0
0.4 -72
0.3 −149
0.2 −240
0.1 −366
0.01 −677
0.00 −800

3.4 FIDE比赛类别

FIDE会根据选手的平均等级(average rating)将比赛分类。每个类别大多25个分值。类别1的平均等级分为2251-2275, 类别2的平均等级分为2276-2300等。对于女子比赛,类别则是更低的200, 因而类别1平均等级分为2051-2075等。最高级别的比赛是类别23,平均从2801-2825,为顶级的类别。

Category Minimum Maximum
14 2576 2600
15 2601 2625
16 2626 2650
17 2651 2675
18 2676 2700
19 2701 2725
20 2726 2750
21 2751 2775
22 2776 2800
23 2801 2825

3.5 实时排名(Live ratings)

FIDE每个月会更新它的rating列表。非官方的“Live ratings”会在每场比赛之间计算选手的ratings变化。这些Live ratings基于之前发布的FIDE ratings,因而,一个选手的Live rating和FIDE rating相对应。

3.6 USCF排名

  • 2400及以上:Senior Master
  • 2200-2399: National Master
    • 2200-2399, 300场比赛在2200分以上:Original Life Master
  • 2000–2199: Expert
  • 1800–1999: Class A
  • 1600–1799: Class B
  • 1400–1599: Class C
  • 1200–1399: Class D
  • 1000–1199: Class E
  • 800–999: Class F
  • 600–799: Class G
  • 400–599: Class H
  • 200–399: Class I
  • 0–199: Class J

总之,初学者在800分左右,中级选手在1600左右,职业选手在2400左右。

3.6.1 USCF使用的K因子

在USCF rating system中的K-factor, 可以通过将800除以该选手获得排名的有效场次$N_e$加上选手在比赛中完成的比赛场次m。

\[K=\frac{800}{N_e + m}\]

3.6.2 Rating底数(rating floors)

对于所有ratings,USCF维护着一个绝对的rating底数:100。这样,任何成员都不会在100分以下,不管他们的表现在USCF中是否受到过处罚。然而,各选手可以有更高的绝对rating底数,可以使用以下公式计算:

\[AF = min (100 + 4 N_w + 2 N_D + N_R, 150)\]

其中,$N_W$是获胜场次,$N_D$是平局场次,$ N_R $是选手完成三场或更好排名的赛事场次数目。

对于那些达到很高排名的有经验选手,会有更高的rating底数。这些更高的rating底数的存在,从ratings=1200开始到2100分,按100分递增(1200, 1300, 1400, …, 2100)。一个玩家的rating底数会采用它巅峰时的rating来计算,减去200分,接着下舍到最接近的rating底数上。例如,一个选手达到了一个peak rating=1464,它的rating floor=1464-200=1264, 向下舍入到1200. 在该模式下,只有Class C级别及以上的选手,具有更高的rating floor。所有其它的选手几乎都有floor=150。

比起上述标准的模式,还有两种方法来达到更高的rating floor。如果一个选手达成了Original Life Master的rating,它的rating floor会设置成2200. 该头衔是唯一的,不认可USCF头衔的其它组织会生成一个新的floor。对于rating在2000分以下的,在比赛中本不具备资格的选手,赢得2000美元及以上的现金奖,会提升选手的rating floor接近100分左右。例如,如果一个rating=1750的选手赢得4000美金,他会达到一个rating floor=1800。

4. 理论

成对比较(Pairwise comparisons)奠定了Elo rating方法的基础。

4.1 数学详解

表现(Performance)并不能被绝对化地衡量;它涉及到和其它选手比赛时的胜、负、平局。选手的排名(ratings)依赖于它们对手的排名,以及与他们的比赛结果。两个选手间排名的不同,决定了他们之间的期望得分的一个估计。对排名进行求平均和展开太过简单粗暴。Elo建议归一化排名(scaling ratings),因而在国际象棋中200个排名分的差异意味着,更强的选手会有一个接近0.75的期望得分(expected score:基本上是一个期望平均分),USCF初始会给普通的俱乐部选手1500排名分。

一个选手的期望得分(expected score),是他的获胜概率加上平局概率的一半。这样,期望得分=0.75就可以表示有75%的机会获胜,25%的机会失败,0%的机会平局。在另一个极端,它可以表示50%的机会获胜,0%的机会失败,50%的机会平局。平局的概率,在Elo的系统中未被指定。平局可以看成是一半获胜,一半失败(50% * 0.5)。

如果选手A具有排名分$R_A$,选手B具有排名分$R_B$,选手A的期望得分(expected score)的准确公式为(使用logistic曲线):

\[E_A=\frac{1}{1+10^{(R_B-R_A)/400}}\]

选手B的期望得分与选手A相类似:

\[E_B=\frac{1}{1+10^{(R_A-R_B)/400}}\]

也可以表示成:

\[E_A = \frac {Q_A}{Q_A + Q_B}\]

\[E_B = \frac {Q_B}{Q_A + Q_B}\]

其中,$ Q_A = 10^{R_A/400}$和 $ Q_B = 10^{R_B/400}$。注意,在后一个case中,两者使用相同分母。这意味着只需要通过学习分子,我们就能得到选手A的期望得分比选手B的期望得分大$ Q_A / Q_B$倍。每领先对手400排名分的优势,对比起对手的期望得分,该选手的期望得分会大10倍。注意,$ E_A + E_B = 1$,实际上,因为每个选手的真实实力是未知的,期望得分会使用选手的当前排名分来计算。

当一个选手的实际比赛得分超过他的期望得分,Elo系统会认为:该选手的排名过低了,需要向上调整。相似的,当一个选手的实际比赛得分低于他的期望分值时,该选手的排名分也会向下调整。Elo的原始观点是,一个选手高于或低于期望得分的量,成线性比例调整。每场比赛的最大可能调整,称为K因子(K-factor),对于Masters被设置成K=16, 对于较弱的选手设置成K=32.

假设选手A的期望得分为$E_A$,实际得分为$S_A$。排名更新公式为:

\[R'_A=R_A + K (S_A - E_A)\]

该更新会在每场比赛或锦标赛后,或者在合适的排名周期后被执行。举个例子:假设选手A具有rating=1613, 他会进行5轮的锦标赛。他输给了一个rating=1609的选手,和rating=1477的选手打平,分别战胜了rating=1388, 1586的选手,然后又输给了一个rating=1720的选手。该选手的实际得分为(0 + 0.5 + 1 + 1 + 0) = 2.5. 期望得分为:(0.51 + 0.69 + 0.79 + 0.54 + 0.35) = 2.88. 因此,该选手新的排名为(1613 + 32 *( 2.5 - 2.88)) = 1601, 假设使用K=32.

该更新过程是排名的核心,被使用在:FIDE, USCF, Yahoo! Games, ICC, FICS。 然而,每个组织都会采用不同的方式来处理自身排名中的不确定特性,尤其是新人的排名,以及处理排名的膨胀和通缩问题。新的选手会被分配临时排名,它们比已经确立的排名调整起来更剧烈。

这些排名系统所使用的方式也会被用到其它竞技比赛排名上——例如,国际足球比赛。Elo rating也可以应用在没有平局(只有胜负)的游戏中。

4.2 数学要点

Elo有三个主要的数据要点:正确的曲线,正确的K因子,临时周期的简单计算。

更精确的分布模型

USCF最早采用的是正态分布。它们发现实际结果与此并不太准确,尤其是对更低排名的选手。于是切换到logistic分布模型,USCF发现会提供更好的拟合。FIDE也使用logistic分布的近似。

更精确的K因子

第二个注意点是使用正确的K因子。国际象棋统计学家Jeff Sonas认为:在Elo中使用的原始的K=10(对于2400分以上的选手)是不准确的。如果K因子系数设置过大,排名会对最近少量的赛事过于敏感,每场比赛后大量分值会被交换。如果K值设置过小,则敏感度最低,该系统则不能对一个选手表现出的实际水平快速做出变化。

Elo的原始K因子估计,没有利用大数据量和统计证据。Sonas则指出:K因子=24(对于2400分以上的排名选手)更准确,即可以对将来表现做预测,也对现有表现更敏感。

固定的国际象棋网站基于排名范围来避免三个级别的K因子的交错。例如,除了当选手与临时选手比赛的情况之外,ICC会采用全局的K=32。USCF则根据三个主要的排名范围来调整K因子:

  • 小于2100以下的选手:K因子=32
  • (2100,2400)区间的选手:K因子=24
  • 大于2400的选手:K因子=16

FIDE则使用另外一套。详见wiki.

4.3 实际注意事项

游戏活跃度 vs. 排位保护

在一些情况下,排名系统会阻止那些希望保护排名的玩家的比赛活跃度。为了阻止玩家长期在高排位上,2012年,由英国特级大师John Nunn提出了一个提议来选择国际象棋世界冠军预选赛的要求:需包含一个活跃奖分(activity bonus),还应该结合排名。

在象棋世界之外,为担心选手躲避竞争来保护他们的排名,威世智(Wizards of the Coast)游戏公司在<万智牌:Magic: the Gathering>游戏比赛中放弃了Elo系统,采用了它们自己设置的“Planeswalker Points”。

选择匹配

一个更微妙的注意点关于配对问题(pairing)。当选手可以选择他的对手时,他们可以选择失败概率小些的对手,以便获胜。特别是2800分以上的选手,他们可以选择低风险的对手,包括:选择通过电脑可知在某种程度上可大概率战胜的;选择被高估的对手;或避免与排名差不多、保持头衔的强劲对手交锋。在选择高估对手的类别(category)中,排名系统的新进入者可能只参加过50场比赛,理论上他们会在临时分上被高估。当已排名玩家vs一个新进入排名玩家获胜时,ICC通过分配一个更低的K因子,从而对该问题会做补偿。

因此,Elo ratings online仍采用了一个有用机制来提供一个基于对手排名的排名。它总体上是可信的,然而,仍存在至少超过两个的主要问题:引擎滥用(engine abuse),选择性配对对手。

ICC最近也引入了自动匹配排名(“auto-pair”),它基于随机配对(random pairing),每次连续获胜,可以确保匹配到一个统计学上更难的对手:他也连续赢了x场比赛。因为潜在涉及到上百个选手,这会创建一些充满激烈竞争的主要大型Swiss赛事的挑战,全胜者将遭遇全胜者。该方法会为高排名选手的匹配最大化风险,例如,他将面对排名3000以下的选手的激烈对抗。它本身是一个分隔的排名系统,在1分(“1-minute”)和 5分(“5-minute”)的rating类别之下。最高排名达到2500是相当罕见的。

排名分膨胀(rating inflation)/通缩(deflation)

在排名系统中所有选手的平均排名分的增加或减少,通常被称为“排名膨胀(rating inflation)”或”排名通缩(rating deflation)”。例如,如果存在膨胀,一个当前排名分2500,实际上意味着少于之前的历史排名分为2500, 对于通缩反之亦然。当存在膨胀或通缩时,使用排名分来比较不同时代的选手是相当困难的。

通常认为,至少在顶级水平上,当前排名分是膨胀的。正如2009年9月 Nigel Short 所说:“最近的ChessBase上由Jeff Sonas所写的关于排名分膨胀的文章指出:我在1980年代的排名分在现在的水平近似2750分。”(注:Short在1980的最高排名分是1988年的2665分,相当于世界第三。而当他做出该评论时,2665分只够排第65名,而2750分则只能排第10位。在2012年的FIDE排行榜上,2665只够排第86位,而2750分只够排第13位)

有人曾提议:整体排名分的增加会影响更高的实力。国际象棋电脑的到来,可以对过往象棋大师的绝对实力,基于他们的历史战绩做出一定程度的目标评测,但这也是对选手的位置变动像电脑般的一个衡量,而非仅仅是他们有多强的一个衡量。

排名分超过2700的人数在增加。在1979年左右,只有一个选手(Anatoly Karpov)有这么高的排名分。在1992年,只有8位选手能达到2700分。而在1994年增加到了15个,2009年增加到了33个,2012年增加到了44个。当前的精英选手的benchmark需要超过2800分。

造成膨胀的一个可能原因是:排名分底数(rating floor),它长期被设置在2200分,如果一个选手掉分超过它,他们会被排行榜移除。结果,在水平低于该底数下的选手,只能当他们被高估时才会出现在排行榜上,他们会造成给排名分池子注入(feed)得分。在2000年,top 100的平均排位分是2644. 而2012年,它增加到2703.

在一个纯粹的Elo系统中,每个比赛都会产生排名分的等价交换。如果获胜方获得N个排名分,失败方则丢掉N个排名分。当比赛被进行和排名时,这会阻止得分新进入或离开该系统。然而,排名分低的新选手会进入该系统,而高排名分的有经验选手也会退出该系统。因此,一个长期运行的严格进行等价交换的系统会导致排名分通缩(rating deflation)

在1995年,USCF承认,一些年轻的选手,比排名系统所跟踪的提升得更多。结果,有稳定排名分的选手开始从对阵这些年轻未排名的选手上丢掉排分名。一些更年长的已排名选手很沮丧,认为这种排分不公平,其中一些因此退出了国际象棋。

与通缩对抗

由于当发生膨胀和通缩时所产生的巨大差异,为了与通缩对抗,大多数Elo ratings的实现都具有一个机制来向该系统注入得分,以保证一直能维持相当的排名分。FIDE具有两种通货澎涨解决机制。第一种,在“排名分底数(ratings floor)”下的表现不会被跟踪,因而,一个实力在底数之下的选以可能会被低估或高估,从不会被正确排名。第二种,已排名选手和高排名选手具有一个更低的K因子。新选手具有K=30, 在30场比赛后会下降到K=15, 当达到2400时K=10.

美国的当前系统,包含了一个获奖分机制,它会将排名分feed给系统,以便跟踪未提升的选手,为不同的选手设置不同的K值。在挪威所使用的方法,在初段和高段间会不同,对于年轻选手使用一个更大的K因子,当他们的表现得分超出预期时会有100%增强排名分。

在美国的排分名底数(rating floors),可保证一个选手从不会掉到特定下限以下。这也可以与通缩对抗,但USCF排名委员会主题已经对该方法不满,因为它不会feed进额外的分数来提升用户的排名分。对于这些排名分底数的一种可能动机是,与堆沙袋(sandbagging)对抗。例如:故意降低排名分以符合更低级别的比赛和奖金。

电脑排名

从2005-06年开始,人机象棋比赛已经演示过,象棋电脑可以击败强大的人类选手(深蓝vs.卡斯帕罗夫)。然而,电脑的排名分很难量化。他们参加锦标赛的比赛过少,很难给电脑或软件引擎一个精确的排名分。对于象棋引擎,排名分一定程度上依赖于在上面运行的程序。

一些排名分的确定,参见:Chess engine § Ratings

5.国际象棋外的用例

Elo rating system被用于国际象棋比赛中。为了符合参加职业象棋比赛,选手必须具备Elo排名分至少1600分,也可以完成50场或更多场与职业选手的比赛。

美国高校足球从1998到2013年也使用Elo方法来作为它们的BCS(大碗杯冠军系列赛)的评分系统,之后BCS被CFP(高校足球季后赛)取代。今日美国(USA Today)的Jeff Sagarin发布了大多数美国运动的队伍排名,包括高校足球的Elo系统排名分。BCS的运作者使用它的Elo排名分作为公式的一部分来决定BCS国家冠军赛的年度入围者。在2014年的CFP中也有效使用了该排名系统;参加CFP中的队伍和它相应的比赛通过选择委员会来选择。

除了英国之外,国家Scrabble组织都使用正态分布的Elo ratings。北美Scrabble选手联盟有最多的排名人数,在2011年有2000个人左右。Lexulous也使用Elo系统。

流行的FIBS( First Internet Backgammon Server)会基于一个修改版的Elo系统计算ratings。新选手会被分配一个1500的排名分,最好的人机排名可以超过2000分。相似的公式也被一些其它的西洋双陆棋(backgammon)网站采用,比如:Play65, DailyGammon, GoldToken和VogClub。VogClub的新选手排名分为1600.

欧洲围棋联盟(European Go Federation)采用一个基于Elo的排名系统,初始由捷克围棋联盟提出。

在其它的运动中,也会采用Elo算法。通常非官方,没有体育管理部门背书。世界足球Elo排名会对男子国家足球队进行排名。在2016年,美职棒大职盟(MLB)也采用了Elo排名,接着是Baseball Prospectus。Baseball Prospectus也做了基于Elo的蒙特卡罗胜率模拟,来预测哪个队伍会进入到季后赛。在2014年,在Box Score之外,一个叫SB Nation的网站,引入了一个Elo排名系统来对国际棒球进行排名。

另外一些基于Elo的有:FIFA女子世界排名,基于Elo算法的一个简单版本,其中FIFA使用elo的官方排名系统来对足球女子国家队进行排名。

在2015年,Nate Silver,和Reuben Fischer-Baum为NBA的队伍和2014赛季引入了Elo ratings。在2014的FiveThirtyEight网站上,为美国职业足球大联盟创建了基于Elo的排名系统,以及胜率预测。

英国 Korfball(荷兰式篮球)协会也基于Elo排名来决定2011/12赛季的杯赛的不利因素。

NHL(美国冰球联盟)也开发了基于Elo的排名分。冰球的Elo评估一个选手在两方面的整体水平:在力量、进攻、点球情况下的得分和防守。

Rugbyleagueratings.com使用Elo排名系统来对橄榄球联盟队伍进行排名。

许多在线游戏也使用Elo排名来对pvp(player-vs.-player)进行排名。从2005年开始,《黄金寺( Golden Tee Live )》就使用基于Elo的排名。新选手2100分,顶级选手超过3000分。在《激战(Guild Wars)》中,Elo的排名被用于记录通过两队对战的得失排名分。初始的K值为30,但在2007年改为5, 在2009年改成15. 《魔兽世界( World of Warcraft )》以前也使用Elo排名系统作为竞技场玩家和队伍的排名比较,现在则使用与Microsoft’s TrueSkill相类似的系统。《CS:GO》使用Elo系统来评估玩家在比赛获胜后增加的实力等级。MOBA游戏《英雄联盟LOL》在第二个赛季前使用Elo排名系统。等等。。。

其它用处

Elo排名系统被用于生物学上。

关于Mark Zuckerberg的《社交网络》电影中,Eduardo Saverin在Mark的宿舍楼编写了Elo排名的数学公式。在该场景后,Elo系统用于对女生的吸引力进行排名。(尽管电影中的方程式有些小错误)

参考

Netflix关于cosine相似度的讨论

Netflix团队发了篇paper《Is Cosine-Similarity of Embeddings Really About Similarity?》,对cosine相似度做了相应的研究。# 摘要余弦相似度(cosine similarity)是指两个向量间夹角的余弦...… Continue reading

Meta AdaTT介绍

Published on January 02, 2024

SATrans介绍

Published on December 02, 2023