VoIP语音质量MOS,R
VoIP语音质量MOS,R-Factor,PSQM,PESQ,PAMS标签: 语言网络buffercompression电话generation2010-01-08 01:14 6045人阅读 评论(2) 收藏
举报分类:VoIP版权声明:本文为博主原创文章,未经博主允许不得转载。
目录(?)[+]
1. 什么是语言质量 呼叫者体验。比较抽象,可以直接开始看下面一章。 2. 影响语言质量的因素 2.1 压缩
(compression) 模数转换PCM编码的时候就已经有信息丢失。然而窄带8kHz的采样频率(假如经过G.711编码后需要带宽为64kps)基本覆盖人类对话音的听觉带宽,所以不太影响语音质量。(注:如果是对音乐进行该频率的采样编码,则会对质量有明显影响)。宽带16kHz的采样能保持更好的音乐质量。 语言编解码器在编码的时候为了压缩数据,会造成原始语言数据中信息的丢失。 压缩的越厉害,丢失的信息越多。 好的编码器会更多丢弃听觉无关的信息,可以获得较高压缩率和较小的语音质量影响。 2.2 延迟
(latency) 延迟源:编码,打包,网络传输,jitter buffer。下图是一个示例图: 在双向通话过程中,延迟会影响通话效果。 大部分人在往返延迟(round-trip delay)达到250毫秒时能感受到通话的延迟。 当延迟超过500毫秒时,通话已经难以进行。(where you can almost tell a joke and have the other guy laugh after you've left the room.) 2.3 抖动(jitter) 网络传输时每个RTP包的不同延迟造成接收端接收时间的不均匀。 为什么会有不同的延迟? UDP包的单独路由也可导致后发送的RTP包被先收到。(Misorder) 抖动的结果是接收端听到的声音难以理解。 可以使用jitter buffer来平抑抖动。 但是超出jitter buffer能力外的包会被丢弃。(discarded packet) 使用jitter buffer会增加延迟。 2.4 丢包(packet loss) RTP包基于不可靠的UDP传输,所有会有可能产生丢包。 为什么不使用可靠传输? 为什么网络会丢包? 很多新的语言编解码可以处理少量的丢包(packet loss concealment),在听觉上不会有明显影响。 大量的(大约超过5%),特别是连续的(loss burst)丢包会造成接收端理解困难。 2.5 回声(echo) 2.5.1 声学回声(acoustic echo) 原因:会议室电话,免提电话,麦克风听筒物理相连,等等。 2.5.2 电学回声(hybrid echo) PSTN中信号放大的hybrid会造成回声。(属于电信号干扰,具体为什么会造成回声也清楚。不过还好不是在VoIP网络中。) 回声让讲话的人在听筒里听到自
己的声音,很不爽。 往返延迟更加剧了这种效果。 好的编解码器提供回声消除功能(echo cancellation),讲回声部分从语言中去除。(GoogleTalk肯定支持回声消除,因为我用过。) 2.6 其它影响通话感受的因素 背景噪音。常看到的Silence Suppression和Comfort Noise Generation就是跟这个相关。 3. 语言质量的衡量方式以及质量参数 3.1 MOS 从发明电话开始,语音质量的测量方式是主观的(subjective),人们摘起一个电话,然后由人耳来感知语音的好坏,这个方法是被广泛认同的。在完善之后,这个主观的语音质量测量方法就是现在的平均主观值MOS方法,定义在ITU-T P.800中。 一个平均主观值MOS是4或更高,被认为是比较好的语音质量,而若平均主观值MOS低于3.6,则大部分接听者不能满意这个语音质量。 使用的时候常分为两类:MOS-LQ(Listening Quality)和MOS-CQ(Conversational Quality)。 使用这种方式来测语言质量有些缺点。(都有些什么缺点?) 所以引入下面两种客观的(objective)方式。一种是主动(active)的方式,一种是被动(passive)的方式。 有必要指出,平均主观值MOS是广泛认 同的语音质量标准,因此,无论采用何种方法所有测量方法都必须对应它们的结果对应到最终的平均主观值MOS,以上各种方法均可以最终以MOS值表示。 3.2 主动方式 主动方式需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的
方式比较样本信号和接收到的信号,进而估算出网络的语音质量。(注:这里的比较算法基于心理声学(psychoacoustical),而不是简单的信号波形比较。具体算法太复杂,特别强大的同事可以参考ITU的标准文档。) 现在许多客观的测量方法已经出现并被应用,诸如,PSQM (Perceptual Speech Quality Measure定义于ITU-T P.861)/PSQM+感知通话质量测量,PESQ (Perceptual Evaluation of Speech Quality定义于ITU-T P.862)感知评估通话质量测量,PAMS(Perceptual Analysis Measurement System英国电信)感知分析测量等。 PESQ结合了PSQM和 PAMS的优势,针对VoIP和混合的端到端应用作了改进,并针对MOS和MOS-LQ计算方法做了修改。 最开始这些方法被用于测量编码算法,后来也逐渐 应用到VoIP网络系统的测量中,著名的测量仪器生产厂商Agilent的语音质量测量仪器VQT即是代表。 著名的VoIP测试厂商Empirix在G5中也使用了PESQ和PSQM。另外,根据本人瞎猜,XMS-Active也利用了这种方式。 这几种模型的的缺点主要是,测量不是基于数据网络的,单纯的从收发信号差异的角度分析网络语音问题。不能反映诸如延时、抖动和丢包等数据网络特有的问题对用户感觉造成的影响。这些问题在另外的E-Model模型中得到考虑。 3.3 被动方式E-Model 被动方式采取在网络中抓取通话过程中的数据包进行分析来获取语言质量,这种方式通常被称为被动的。
R-Factor值的基本计算公式: R=Ro- Is-Id-Ie+A (太抽象,不太懂) E-Model中分析语言质量的因素就是前一章中列举的因素。通常需要抓取一次呼叫过程中的信令包和
RTP/RTCP包。通过这些数据包来计算出各个因素的具体值。 是否有必要进一步讨论如何计算这些值? 经过简化后变成:R = Ro-Icodec-Idelay-Ipdv-Ipacketloss (能跟前面的那些语言质量影响因素联系起来了) 根据R-Factor,可以推算出MOS,ITU-T G.107中定义的公式:(注:有人还研究出了其它改进的公式。) 下面的表中有一些例子。 R-Factor MOS User Experience 90 4.3 Excellent 80 4.0 Good 70 3.6 Fair 60 3.1 Poor 50 2.6 Bad
相关推荐: