大型呼叫中心话务量预测

更新时间:2023-05-23 16:12:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

46862010,31(21)计算机工程与设计ComputerEngineeringandDesign

开发与应用

0引言

用LS-SVM[5-6]算法得到的话务量预测结果进行了对比分析。对比结果证明,基于BP神经网络的话务量预测更加准确,更加适合大型呼叫中心。

由于很多呼叫中心的话务员都已经达到数千人,若使用传统的经验式排班模式,不但会使工作量加大,而且会增加话务预测的偏差,无法满足实际生产需要。话务量数据是呼叫中心坐席数安排的前提,呼叫中心可以针对不同的话务量安排对应的坐席,使得在满足呼叫中心的服务水平的前提条件下,实现呼叫中心人力资源的最优配置。因此,如何能准确预测呼叫中心话务量是一个重要且亟待解决的难题。目前,计算或预测话务量常采用时间序列[1]预测方法,将话务量的历史数据看成时间序列,利用加权平均数对时间序列进行平滑修匀,再利用数理统计方法进行回归处理,拟合数学模型,根据数学模型预测未来的话务量。但这种方法要求历史数据必须完整,而且不适用于有季节变动规律的月份话务量预测。

本文首先分析了历史话务数据的特点以及话务量的影响因素,并提出了话务量预测模型[2],然后选取适当的参数用基于BP神经网络算法[3-4]对话务量进行了预测,并分析了神经网络参数的选取对话务量预测结果的影响,最后将其结果和利

收稿日期:2010-05-19;修订日期:2010-07-26。

1

1.1

话务量预测模型

历史话务量分析

图1为任意选取的某呼叫中心7~10月每半小时的话务量

牟颖,王俊峰,谢传柳,等:大型呼叫中心话务量预测

数据,图中出现了几个很高的话务量峰值点(如时间点500左右,时间点1200左右),这些峰值点被考虑为离群点,即将所有数据进行线性平均处理以后,超出平均值50%及其以上的。分析这些离群点造成的原因可能是呼叫中心统计话务量时出错,或者是呼叫中心业务本身具有一些不确定的因素(比如节假日,呼叫中心的活动日等)造成的话务量数据的突发变化。从图中可以看出这些数据具有明显的月周期性。

图2为某呼叫中心的9月~12月第3周每半小时的数据,除去9月第3周第4天的一个话务离群点以外从图上可以看出,每天的数据峰值均是在3800~4000左右,数据具有明显的周周期性。

2010,31(21)4687

被预测时刻的最近的前一个月、前一周以及前一天的数据作为预测话务量的主要因素。由话务量数据图易见,相邻话务量数据的变化趋势一致,具有明显的线性关系,由此被预测时刻的前几个时刻也应该属于影响话务量的因素。表1为本文考虑的影响话务量预测因素。

在表1中,根据因素的重要性对其进行了权重值的1-5级的划分,其中1级为最重要的。前3个因素Month,Week,Day对其它因素的选取起着时间参考系的作用,后6个因素的准确时间定位都将依赖于此3个因素,他们具有不可或缺的作用,因此将其权重设置为1级。根据所有话务量数据特有的周期性影响,再考虑到呼叫中心业务特点,它们会根据客户的需要在不同时期开展持续时间不同的活动,所以在时间点越接近的前一天,前一周,前一月的数据对于预测具有越大的影响力度,因此将因素PreDay,PreWeek,PreMonth的权重设置为2级。由话务量数据两两间的线性关系影响,将前一个时刻Now-1,前两个时刻Now-2,前3个时刻Now-3的权重分别设置为3级,4级以及5级。

图3为某呼叫中心5月6日~8日的时间段呼入量数据图,从图上可以看出,三日的时间段话务量变化趋势十分接近,一般在早晨10时~11时(20~22时间点)达到一个峰值,在晚上17~18时(34~36时间点处)达到另一个峰值,而在凌晨3时~5时(6~10时间点处)达到低点,存在着明显的日周期性。

1.3话务量预测模型

,…,(1≤

)

(1)

2+1

式中:

——终点表示在

,假

,

Ìì

,

Ìì

,

(2)

时刻的实际话务

量,

1.2话务量影响因素

由以上的历史数据分析可见,话务量数据具有明显的月

周期性、周周期性和日周期性。因此,历史话务量数据每月,每周,每日对其它月,其它周,其它日对应的时刻都有很大的参考价值。如果将所有这些影响因素都逐一考虑,就会导致最后的网络输入参数过多而无法建立神经网络模型,因此将

46882010,31(21)计算机工程与设计ComputerEngineeringandDesign

素为必选因素。权重为2级的因素是话务数据周期性的体现,反应了所有话务量数据的特点,对话务量预测起着至关重要的作用,这3个因素成为了首选因素。将权重为3级,4级以及5级的因素作为可选因素。因此,本文使用某呼叫中心7~11月的话务量数据,分别选取表1中的前3个,前6个,前7个,前8个和所有9个参数作为BP神经网络的输入参数对该年最后一月第一周的话务量进行了预测,其结果分别如图4~图8所示。

分析这些输入可以知道,…

,

这些时刻的话务量数据不是全部可以确定

的,可能为预测值。

由图4可见,1级权重输入效果图能很好的反映出话务量变化的趋势,但是对于波峰波谷的细节预测不足。由图5可见,1,2级权重输入预测数据跟实际数据拟合得最好,不但很好的反映了话务量的变化趋势,而且将细节的变化很好的预测了出来。图6~图8是加上3-5级权重输入的效果图,容易看出效果都不及图5,而且逐步下降,误差越来越大。在图8中还出现了过度拟合。这可能是由于在预测时3-5级权重输入数据都不是实际值,本身就是预测值了。如果用这些预测值继续来进行下一次预测,会逐级将误差放大。因此本文最终选择的输入为由权重1,2级组合的6维输入参数。

2

2.1

基于BP神经网络的话务量预测

算法流程

(1)读取数据,对一些异常话务数据进行了处理,具体如

下:对于个别数据的缺失,采用线性拟合的方法做了添加;对于突发的异常数据,采用了线性平均的方法对其进行平滑处理;对于无历史数据参考的第一个预测周期,采用它本身数据进行预测。

(2)训练样本归一化。为使整个网络的输出限制在一个较小的范围内,对输入值用归一化处理,将其适当变换转化为

0-1之间的值。根据(3)进行变换:这样处理后,数据比较均匀地分布在[0,1]区间内,保证了能更好地学习样本,提高了训练

的效率。

min

max

min

(3)

(3)初始化BP神经网络训练参数,

牟颖,王俊峰,谢传柳,等:大型呼叫中心话务量预测

最大循环次数,随机初始化输入层和隐层权重以及隐层和输出层的偏移。

(4)前向传播输入值。首先训练元组提供给输入层。输入通过输入单元,不发生任何变化。然后,计算隐藏层和输出层每个单元的净输入和输出。为计算每个单元的净输入,连接该单元的每个输入都乘以其对应的权重,然后求和,如

下式所示

2010,31(21)4689

在每个话务峰谷真实值和误差值之间都拟合得较好。而在时间点400~500有突发话务量的两处接近峰值左右,真实值与预测值误差较大,在时间点1200处也出现了以上情况,这可能是由于预测样本只有8~11这5个月的数据,突发事件很少,程序中只针对了数据的周期性进行处理,没有考虑超出周期性以外的突发话务因素,所以程序在预测突发话务量时也按照以往周期性处理,导致了误差的产生。

6000

由式(6)更

新,

误差

=

=

1

式中:

——权的改变,是单元

定训练元组的已知目标值。

(6)计算输出单元的总误差,如果误差小于规定的阀值,或者已达到最大迭代次数,则跳到7,否则返回4;

(7)返回反归一化的输出层结果。

算法流程如图9所示。

开始

话务量

50004000300020001000

+(6

)

(7)基于给

100200300400500600700800900100011001200130014001500

采样周期为半小时的时间点

真实值;观测值

图10BP神经网络话务量预测曲线

2.2.2LS-SVM预测结果及分析

对于时间段呼入量预测,选择训练样本为2009年8月1

日到2009年11月30日的所有时间段呼入量数据,测试样本与BP神经网络预测时完全相同。

首先通过LS-SVMlab工具箱中自带函数tunelssvm对误

差参数3121.38,

及RBF[8]

参数

=

=241.014。LS-SVM工具箱对09年12月

(1)异常数据进行处理(2)训练样本归一化(3)初始化BP神经网络训练参数(4)计算隐层和输出层的输出向量

(5)更新权重和偏移

1日~12月31日的呼入量数据的预测效果图如图11所示。

60005000

(6)计算输出单元的总误差

话务量

4000300020001000

误差是否达到规定的阀值精度或是否达到最大迭代次数

Y

(7)返回反归一化的输出层结果

N

100200300400500600700800900100011001200130014001500

采样周期为半小时的时间点

真实值;观测值

结束

图11LS-SVM话务量预测曲线

图9算法流程

图11中横轴表示采样周期为半小时的时间点,纵轴表示

2.22.2.1

BP神经网络预测结果对比BP神经网络预测结果及分析

本文选用了电信某呼叫中心2009年8月~12月的数据,

每个时间点的具体话务量。由图11可见,在时间点400-500,时间点1200处有突发话务量的两处接近峰值左右,LS-SVM预测的效果较好,但是在周期性较强的其余峰值处模拟效果明显不及神经网络,这可能是由于LS-SVM在预测时所有参数均是函数自行选取,对历史数据的分析不足所造成的。

将8~11月的数据作为训练样本集放入神经网络进行学习训练,选用的学习率为0.1,精度为0.000001,最大训练次数为1000000,待网络到达稳定时保存网络中的权重和偏倚值,然后对12月的数据进行预测,将预测结果与2009年12月的实际数据进行对比如图10所示,图中横轴表示采样周期为半小时的时间点,纵轴表示每个时间点的具体话务量。由图可见,

2.2.3预测结果对比

话务量预测属于对未来数据的估算,故而预测值与真实

值存在着一定差距,即预测误差。误差越大准确性越低,反之,

(下转第4719页)

王彬:科学计算网格环境信息服务扩展研究5

结束语

针对现有网格信息服务技术无法支持科学计算程序资源的聚合区分、动态绑定及选择帮助等问题,本文提出了基于“服务组-物理服务”、“顾问服务”的信息服务扩展解决思路,并设计了一个“服务目录-服务组-物理服务”三层服务信息组织和资源服务信息中心方案,很好地满足了科学计算网格环境下资源信息组织聚合、动态发现和运行支持的需要。本文的信息服务扩展设计方案对于构建支撑科学计算程序资源共享的网格环境具有很好的参考价值。

[5][6][7][4][3]

2010,31(21)4719

InternationalWorkshoponMiddlewarePerformance.IEEEPress,2004:843-849.

AloisioG,CafaroM,EpicocoI,etal.iGrid,anovelgridinforma-tionservice[C].Springer-Verlag,ProceedingsofAdvancesinGridComputing,LectureNotesinComputerScience3470,2005:506-515.

谈恩华,查礼.织女星网格路由器的应用与改进[J].计算机研究与发展,2004,41(12):2164-2169.

郭得科,任彦,陈洪辉,等.一种QoS有保障的Web服务分布式发现模型[J].软件学报,2006,17(11):2324-2334.

蒋静,夏佰强,潘振宽,等.基于SOA的动态服务集成与调度网格模型[J].计算机工程,2009,35(22):68-70.

MichaelE,SinghP.Towardautonomicwebservicestrustandse-lection[C].Proceedingsofthe2ndinternationalconferenceonServiceorientedcomputing.ACMPress,2004:212-221.[8]

王彬.一个计算作业网格执行环境的分析、设计与应用[J].计算机应用研究,2008,25(8):2546-2549.

参考文献:

[1]

FosterI.Globustoolkitversion4:softwareforservice-orientedsystems[J].JournalofComputerScience&Technology,2006,21(4):513-520.[2]

ZhangX,SchopfJ.Performanceanalysisoftheglobustoolkitmonitoringanddiscoveryservice,MDS2[C].Proceedingsofthe

(上接第4689页)

误差越小,准确性越高。对于预测问题,需要考虑选用合适的衡量预测效果的标准,本文选用平均相对误差公式

*

1

=

ʱ¿ÌµÄʵ¼Ê»°ÎñÁ¿£¬——该时刻话务量的预测

值,

本文来源:https://www.bwwdw.com/article/57d4.html

Top