注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

淘尽网 官方博客

淘尽网http://www.tao3w.com做最好的比价网站

 
 
 

日志

 
 
关于我

淘尽网 http://www.tao3w.com 做最好的比价网站,做最好的数据抓取专家。

网易考拉推荐

Mahout 中 kmeans的参数  

2012-10-08 10:27:46|  分类: 推荐系统 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
http://lbxc.iteye.com/blog/1517556

1)    Path Input : 所有待聚类的数据点的路劲,参数不可缺

2)    Path clusters :存储每个簇中心的路劲,参数不可缺

3)    Path output :聚类结果存储的路劲,参数不可缺,如果指定了簇的个数,则该路劲下文件可为空

4)    DistanceMeasure measure :数据点间的距离计算方法,参数可缺,默认是 SquaredEuclidean 算方法

     提供参数值:   ChebyshevDistanceMeasure 切比雪夫距离

                    CosineDistanceMeasure 余弦距离

                    EuclideanDistanceMeasure 欧氏距离

                    MahalanobisDistanceMeasure 马氏距离

                    ManhattanDistanceMeasure 曼哈顿距离

                   MinkowskiDistanceMeasure 闵可夫斯基距离

                   SquaredEuclideanDistanceMeasure 欧氏距离 ( 不采取平方根 )

                   TanimotoDistanceMeasure  Tanimoto 系数距离

                   还有一些基于权重的距离计算方法:

                   WeightedDistanceMeasure

                    WeightedEuclideanDistanceMeasure 、 WeightedManhattanDistanceMeasure

5)  Double convergenceDelta: 收敛系数 新的簇中心与上次的簇中心的的距离不能超过 convergenceDelta ,如果超过,则继续迭代,否则停止迭代。参数可缺,默认值是 0.5

6)  int maxIterations : 最大迭代次数,如果迭代次数小于 maxIterations ,继续迭代,否则停止跌打,与 5) 中的convergenceDelta 满足任何一个停止迭代的条件,则停止迭代。参数不可缺。

7)  boolean runClustering :如果是 true 则在计算簇中心后,计算每个数据点属于哪个簇,否则计算簇中心后结束,参数可缺,默认为 true

8)  clusteringOption :采用单机或者 Map/Reduce 的方法计算。参数可缺,默认是 mapreduce 。

9)  int numClustersOption :簇的个数,参数可缺。

  评论这张
 
阅读(773)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017