注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

淘尽网 官方博客

淘尽网http://www.tao3w.com做最好的比价网站

 
 
 

日志

 
 
关于我

淘尽网 http://www.tao3w.com 做最好的比价网站,做最好的数据抓取专家。

网易考拉推荐

协作推荐实验  

2012-09-12 16:19:46|  分类: 推荐系统 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
http://blog.sina.com.cn/s/blog_48f3622d0100cayk.html

实验目的:

1、  设计并实现基于协作的项目评分预测系统

2、  用户相似程度计算分别采用

a)         修正余弦相关度计算方法

b)        泊松相关性计算方法

3、  根据实验结果论证各参数(相似度阙值,邻居共有项数目阙值,加权平均相似项阙值)对于推荐结果(MAE)的影响,分析原因 

注:数据集由MovieLens提供

实验步骤:

1、  根据 训练集 构造 “用户/推介项/评分” 矩阵

a)         输入:训练集 MovieLens 提供的训练样本文件 un.base 如下:

  6   5   887431973

  10  3   875693118

  12  5   878542960

  14  5   874965706

每行依次为:用户id,推荐项id,评分项,时间戳

b)        输出:U/I/R 矩阵

2、  计算用户间相似性,获得用户相似性矩阵

a)         应用“修正的余弦”相似性计算方法

b)        应用“泊松相关系数”计算方法

 

3、  用户相似性矩阵排序(根据相似性由高到低排序)

4、  测试集录入

5、  对每一条测试值进行估计,计算偏差

6、  计算预测效果(MAE,有效推介个数)

实验数据和结果:

1,  参数说明:

a)         选择用户900名,推荐项1600个;

b)        共有项阙值:计算用户相似度时,两用户间至少要对多少个推荐项进行评价

c)        相似度阙值:大于该值才能归为该用户的邻居

d)        相似选择个数:在估计推荐值时选择的用户个数,加权平均时使用

e)         估计值总数:符合条件的估计值总数

 

 

实验室号

用户数

推介项

共有项阙值

相似度阙值

训练集

测试集

相似项选择个数

MAE

估计值总数

 

相似度计算方法

1

900

1600

15

0.8

U1.base

U1.test

1

1.01022

15356

 

修正余弦相关相似性

2

900

1600

15

0.8

U2.base

U2.test

1

1.01387

15573

 

修正余弦相关相似性

3

900

1600

15

0.8

U3.base

U3.test

1

1.01608

15668

 

修正余弦相关相似性

4

900

1600

15

0.8

U4.base

U4.test

1

1.01884

14385

 

修正余弦相关相似性

5

900

1600

15

0.8

U5.base

U5.test

1

1.04041

13783

 

修正余弦相关相似性

 

 

 

 

 

 

 

 

 

 

 

 

6

900

1600

15

0.8

U1.base

U1.test

4

0.832829

9918

 

修正余弦相关相似性

7

900

1600

15

0.8

U2.base

U2.test

4

0.820727

9876

 

修正余弦相关相似性

8

900

1600

15

0.8

U3.base

U3.test

4

0.828271

10272

 

修正余弦相关相似性

9

900

1600

15

0.8

U4.base

U4.test

4

0.827618

9099

 

修正余弦相关相似性

10

900

1600

15

0.8

U5.base

U5.test

4

0.839472

9014

 

修正余弦相关相似性

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

91

900

1600

12

0.7

U1.base

U1.test

12(不够则根据项数平均)

0.830099

18915

 

修正余弦相关相似性

相似项加权平均

92

900

1600

12

0.7

U2.base

U2.test

12(不够则根据项数平均)

0.825547

19267

 

修正余弦相关相似性

相似项加权平均

93

900

1600

12

0.7

U3.base

U3.test

12(不够则根据项数平均)

0.818601

19276

 

修正余弦相关相似性

相似项加权平均

94

900

1600

12

0.7

U4.base

U4.test

12(不够则根据项数平均)

0.826066

17818

 

修正余弦相关相似性

相似项加权平均

95

900

1600

12

0.7

U5.base

U5.test

12(不够则根据项数平均)

0.832723

16689

 

修正余弦相关相似性

相似项加权平均

 

 

 

 

 

 

 

 

 

 

 

 

 

51

900

1600

12

0.6

U1.base

U1.test

1

0.949253

12927

 

泊松相关系数

 

52

900

1600

12

0.6

U2.base

U2.test

1

0.957949

11819

 

泊松相关系数

 

53

900

1600

12

0.6

U3.base

U3.test

1

0.971635

12092

 

泊松相关系数

 

54

900

1600

12

0.6

U4.base

U4.test

1

0.962963

11205

 

泊松相关系数

 

55

900

1600

12

0.6

U5.base

U5.test

1

0.975753

10723

 

泊松相关系数

 

 

实验结果分析

相似度阙值,共有项数目阙值,加权平均推介项个数对推介的结果有比较显著的影响,相似度阙值越高,共有项数目阙值越大,加权平均推介项个数越多,推介的估计值就会越准确,但同时满足以上较好参数的用户及项目却不多。随着各参数的提高,符合推介条件的项会减少,应该设计多策略选择各个参数,以保证每个推介项对每个用户都有推介,且有较好的推介效果。

 

 

这是去年10月做的实验,篇幅有限,故罗列了部分实验结果。若需要更多的实验数据和源程序可与我联系,希望能抛砖引玉,与有相同爱好和兴趣的朋友多交流,共同进步。

  评论这张
 
阅读(619)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017