Web UI** *******

Report
基于回归分析的VoD视
频流行度预测的研究
 刘源
 专业:计算机应用技术
 导师:王宗敏
 指导老师:李润知
主要内容
 背景介绍
 回归分析方法
 流行度预测方法
 实验数据采集
 数据处理与分析
 缓存替换算法
 总结与下一步工作
2
背景介绍
 现状
 当前网络视频流量约占互联网总流量的八成
 网络视频占用存储空间大,支持视频VOD对带宽、延迟要
求高
 当视频服务遇见云服务
 可灵活调整的存储空间
 可灵活调度的视频数据
3
背景介绍(2)
 问题:在分布式云存储中,各站点为它所处在域的
用户提供服务,而站点的储存空间和带宽资源有限
 需要预取可能会流行的视频
 需要对视频流行度的研究
 需要缓存替换算法,替换掉“过时的”视频
4
回归分析方法(1)

−
 衰减函数法[5]:+1  =   ∗ 2
 回归分析法
+1
 统计学上分析数据的方法,主要是希望探讨数据之间是否
有一种特定关系,目的在于找出一条最能够代表所有观测
资料的函数
 回归模型:将因变量和一个关于自变量和未知参数的
函数关联起来。  ≈  ,  = 
 参数估计:最小化残差平方和  = ( − )2
5
回归分析方法(2)
 几种常见的回归模型
 线性: =  + 
 指数型: =  
 幂型: =  
 相加型: = 1 1 + 2 2 
 指数和指数相加型: = 1  11 + 2  22 
 指数和幂相加型: = 1  11 + 2 2 2 
6
流行度预测
 预测视频流行度的几种策略
 固定的回归模型(FRS): = 
0 ,0 ()
 可以更新的回归模型 (CRU): = 
1 ,1 ()
 参考历史数据的固定回归模型(HU[3]):
 = 
 ∙  + 0
 ∙ 1− 
0 ,0
0 ,0
1 ,1
0 ,0
其中 =  0 , = =1 () =1 0 ()
 参考历史数据的可以更新的回归模型 (CRHU[3]) :
 = 
 ∙  + 0
 ∙ 1− 
7
数据采集
 土豆网的视频开放平台
 可以通过URL命令来获取返回结果
 通过查询,获得视频的Codes集
 获取视频信息
http://api.tudou.com/v3/gw?method=item.info.get&appKey=m
yKey&format=xml&itemCodes=oR16C1xZDRM&ceiling=10
 通过Tiny XML解析器的接口提取播放次数
 按时间与播放次数对应的格式存入文本文件
 获取了土豆网20个分类2000多个视频两个月的播放
次数(每天两次)
8
数据采集(2)
Getplaytime (for VideoObject Vi)
While(not finished)
{
//从文本文档中读取需要获取的土豆网的视频code列表,生成请求命令
sreq=ReadCodeSet(Vi);
//建立socket,与土豆网API服务器建立链接,发送请求命令,获得返回的
xml结果
resultdata=Send(sreq);
if(resultdata不为空)
{
//在返回的xml结果中查找视频的播放次数
playtime=Findplaytime(resultdata);
//在文本文档中存储当前时间和视频的播放次数
StoreCodeSet(playtime);
}
}
9
数据处理(1)
 用MATLAB对数据文本文件进行处理、分析
 获取新增请求次数:总播放次数相减
10
数据处理(2)
 数据去周期化:  =

=−+1 

,  = ,  + 1, … , 
11
数据分析
 由数据计算出几种不同类型的回归模型函数()
 计算出标准化残差平方和 = ( − )2
 选出回归模型

线
性
指数型
幂型
指指加
型
指幂加
型
最优模
型
剧情
1
0.3898
2.770
0
0.0580
0.0472
指幂加
型
喜剧
1
0.7002
0.530
2
2.8056
2.8064
幂型
动作
1
0.6815
0.352
4
1.9134
1.9134
幂型
卡通
1
0.6178
3.132
0
0.1545
0.1980
指指加
型
爱情
1
0.4158
8.151
1
1.0083
1.0561
指数型
恐怖
1
0.6169
2.703
8
1.9438
0.8400
指数型
12
数据分析(2)
13
缓存替换算法
 基于流行度增益的缓存替换算法
 考虑当前流行度   
= ()
 考虑流行度变化趋势  
 总缓存增益   
=
=0
 ()
 =0
=    
+    
 替换算法流程
 计算给定媒体对象的缓存增益
 能容纳下要缓存的文件时,删除缓存中增益最小的文件
 将要缓存的文件存入缓存
14
总结
 几种回归模型
 对流行度预测的几种策略
 获取视频网站上视频播放次数信息的一种方法
 对播放次数数据进行处理、分析
 一种基于流行度预测的缓存替换算法
15
下一步工作
 改进缓存替换算法
 计算其复杂度
 与其他算法进行对比优劣
 进行模拟验证
 验证缓存替换算法是否能在线动态预测
16
参考文献
[1]B.Hayes,Cloud computing[J].Communications of the
ACM,2008,51(7):9-17
[2]郭红方,视频点播内容分发关键技术研究[D],郑州大学,2012:83-85
[3] http://zh.wikipedia.org/wiki/回归分析
[4]Ng, D.M.P.; Wong, E.W.M.; Ko, K.T.; Tang, K.S.,"Trend analysis
and prediction in multimedia-on-demand systems,"Communications,
2001. ICC 2001. IEEE International Conference on, vol.4, no.,
pp.1292-1298 vol.4, 2001
[5]“tudou”,http://www.tudou.com
[6]Jin S, Bestavros A. Popularity-aware Greedy Dual-size Web Proxy
Caching Algorithms[C]//Proceedings of ICDCS. 2000-06.
17
Q&A
请各位老师、同学提问!
感谢您提出的宝贵意见!
18

similar documents