监控摄像机中提到的三码流,是什么意思啊,是哪三种?

监控摄像机中提到的三码流,是什么意思啊,是哪三种?,第1张

三码流指三种码率。

三码流采用一路高码率的码流用于本地高清存储,例如h264\D1编码,一路低码率的码流用于网络传输,例如D1/CIF编码,另一路超低码流用于3G\网络传输,手机观看,例如QCIF,同时兼顾本地存储和远程网络传输。

三码流能实现本地传输和远程传输三种不同的带宽码流需要,本地传输采用高码流可以获得更高的高清录像存储,远程传输采用较低的码流以适应CDMA/ADSL等各种网络而获得更高的图像流畅度。

扩展资料:

三码流的原理:

一般情况下,DVD格式歌曲的码流为6~8M;VCD歌曲的码流约为15M。相同配置和同样网络环境下,DVD歌曲和VCD歌曲的并发流是不一样的。

视频比特率与码流只是同一个问题两种叫法,比如一个MPEG2视频文件,一般不但包含视频信息还有音频信息,音频也有自己的比特率,这是音视信息复合在一起的文件,这个文件的码流是其音视码流的总和。

1、什么是H261编码协议

答:H261是最早出现的视频编码建议,它采用的算法结合了可减少时间冗余的帧间预测和可减少空间冗余的DCT变换的混合编码方法,其输出码率是p×64kbit/s。p取值较小时,只能传清晰度不太高的图像,适合于面对面的电视电话;p取值较大时(如 p>6),可以传输清晰度较好的会议电视图像。该标准主要针对ISDN电话线的视频会议,可视电话等,ISDN的基本速率为64kbps,可以使用多路复用(p×64kbps)。

2、什么是H263编码协议?

答: 1996年3月ITU-T制定的H263标准是一种用于低比特率视频业务中运动图像部分的压缩编码方法。视频编码算法的基本思想是基于ITU-T的H261标准,把减少空间冗余的帧内预测法和减少时间冗余的变换编码法结合起来。编码器有运动补偿能力,并有一些功能、编码方法选项。与采用全象素精度和一个环形滤波器的H261标准的运动补偿比较,H263标准采用了半象素精度位移估值。除了基本的视频源编码算法外,为了改善性能,它包含4个可选的编码方案:非限制运动矢量,先进预测模式,PB帧模式和基于语法的算术编码。H263是对原有标准的修订和改进,包括图像格式、总开销和减少方块效应等。尽管这些选项使编码器复杂,但能显著改善图像的质量。

为了提高编码效率,1997年9月ITU-T又制定了H263+(H263的第二版)标准,它是兼容H263的。H263+能更好的提高恢复图像的质量和压缩性能,有广阔的应用前景。H263+在H263的基础上实施了许多改进,它允许使用更多的图像格式、图像形状和时钟频率。这就增加了H263+应用的灵活性。另外,图像大小、形状和时钟频率可以在H263+的比特流中给出。H263+在H263的基础上的另一个重要改进是采用可放缩性,它能提高视频信息在易出错、数据丢失或不同环境中的传输正确率,进一步限制图像

3、什么是H264(MPEG-4 Part 10) 编码协议?其技术亮点是什么?

答: H264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)的联合视频组(JVT:joint video team)开发的一个新的数字视频编码标准,它既是ITU-T的H264(MPEG-4 Part 10) ,又是ISO/IEC的MPEG-4的第10 部分。1998年1月份开始草案征集,1999年9月,完成第一个草案,2001年5月制定了其测试模式TML-8,2002年6月的 JVT第5次会议通过了H264(MPEG-4 Part 10) 的FCD板。

H264(MPEG-4 Part 10) 和以前的标准一样,也是DPCM加变换编码的混合编码模式。但它采用“回归基本”的简洁设计,不用众多的选项,获得比H263++好得多的压缩性能;加强了对各种信道的适应能力,采用“网络友好”的结构和语法,有利于对误码和丢包的处理;应用目标范围较宽,以满足不同速率、不同解析度以及不同传输(存储)场合的需求;它的基本系统是开放的,使用无需版权。

在技术上,H264(MPEG-4 Part 10) 标准中有多个闪光之处,如统一的VLC符号编码,高精度、多模式的位移估计,基于4×4块的整数变换、分层的编码语法等。这些措施使得H264(MPEG-4 Part 10) 算法具有很的高编码效率,在相同的重建图像质量下,能够比H263节约50%左右的码率。H264(MPEG-4 Part 10) 的码流结构网络适应性强,增加了差错恢复能力,能够很好地适应IP和无线网络的应用。

技术亮点:

(1)分层设计

H264(MPEG-4 Part 10) 的算法在概念上可以分为两层:视频编码层(VCL:Video Coding Layer)负责高效的视频内容表示,网络提取层(NAL:Network Abstraction Layer)负责以网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口,打包和相应的信令属于NAL的一部分。这样,高编码效率和网络友好性的任务分别由VCL和NAL来完成。

(2)高精度、多模式运动估计

H264(MPEG-4 Part 10) 支持1/4或1/8像素精度的运动矢量。在1/4像素精度时可使用6抽头滤波器来减少高频噪声,对于1/8像素精度的运动矢量,可使用更为复杂的8抽头的滤波器。在进行运动估计时,编码器还可选择“增强”内插滤波器来提高预测的效果。

(3)4×4块的整数变换

H264(MPEG-4 Part 10) 与先前的标准相似,对残差采用基于块的变换编码,但变换是整数 *** 作而不是实数运算,其过程和DCT基本相似。这种方法的优点在于:在编码器中和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算方式。也就是说,这里没有“变换误差”。变换的单位是4×4块,而不是以往常用的8×8块。由于用于变换块的尺寸缩小,运动物体的划分更精确,这样,不但变换计算量比较小,而且在运动物体边缘处的衔接误差也大为减小。

(4)统一的VLC

H264(MPEG-4 Part 10) 中熵编码有两种方法,一种是对所有的待编码的符号采用统一的VLC(UVLC :Universal VLC),另一种是采用内容自适应的二进制算术编码(CABAC:Context-Adaptive Binary Arithmetic Coding)。CABAC是可选项,其编码性能比UVLC稍好,但计算复杂度也高。UVLC使用一个长度无限的码字集,设计结构非常有规则,用相同的码表可以对不同的对象进行编码。这种方法很容易产生一个码字,而解码器也很容易地识别码字的前缀,UVLC在发生比特错误时能快速获得重同步。

(5)帧内预测

在先前的H26x系列和MPEG-x系列标准中,都是采用的帧间预测的方式。在H264(MPEG-4 Part 10) 中,当编码Intra图像时可用帧内预测。对于每个4×4块(除了边缘块特别处置以外),每个像素都可用17个最接近的先前已编码的像素的不同加权和(有的权值可为0)来预测,即此像素所在块的左上角的17个像素。显然,这种帧内预测不是在时间上,而是在空间域上进行的预测编码算法,可以除去相邻块之间的空间冗余度,取得更为有效的压缩。

(6)面向IP和无线环境

H264(MPEG-4 Part 10) 草案中包含了用于差错消除的工具,便于压缩视频在误码、丢包多发环境中传输,如移动信道或IP信道中传输的健壮性。

4、什么是视频前处理技术?

答:视频前处理过程首先将复合的模拟视频信号数字化后,分离出亮度信号和色度信号,再滤掉信号中的噪声,转换为世界通用的中间格式CIF或QCIF。该过程还可解决亮度与色度信号串扰,减少叠折干扰的作用。

视频信号在存储、传输过程中都可能会受到噪声的干扰。信源的质量对后面的压缩编码部分的性能有重要影响,在系统设计时必须考虑到这一点,尤其在编码的输出目标码率较低时这一点显得更为重要。噪声增加了输入端的信息量,而且图象的相关性减弱,使得后续的压缩编码较为困难。最坏情况时只有一小部分输出码率用于传送信号的信息,大部分则消耗在噪声信息的传送上。这时恢复信号的SNR往往要较信源噪声较小的图象恢复的情况要坏得多。分析表明,信源的信噪比对于混合编码器的性能有很大影响。Junji Kumada曾经计算了混合编码器的率失真函数(RDF)和输入信号信噪比的关系。率失真函数在理论上给出了在一定失真的情况下,信源编码所需的最低信息速率。该值与信源本身的功率密度谱(PSD)有关。

不同输入信噪比条件下的编码器的率失真函数曲线如下图所示。假定图象序列相邻象素的相关系数为095。可以看出,信源的SNR对于编码器的性能有很大影响:在信源SNR为30dB时,若要保证输出信噪比为50dB至少需要4比特/象素,而信源没有噪声干扰时则仅需2比特/象素,所需编码比特数增加一倍。

因此,为提高压缩编码的性能,有必要对混杂噪声的信号进行滤波。常用的滤波方法包括线性和非线性滤波。中值滤波属于非线性滤波,它被认为是消除脉冲干扰的有效手段,但对一些其他类型的干扰,如高斯分布的噪声,其效果则近似于一个低通滤波器。常用的线性滤波器是FIR滤波器,这类滤波器通常用来对信号进行限带处理。

在图象处理中广泛采用二维滤波器,这是因为一般而言图象信号水平和垂直方向都有较强的相关性,但把一维中值滤波器简单地推广到二维,效果却不是很好,该滤波器在平滑噪声的同时,也去掉了一定的图象细节。因此人们提出了很多种改进的滤波器,用来保留图象的细节。栈滤波器(中值滤波器)便是其中的一种。当然,考虑到实现上的简单性,一般采用一维滤波器。

6、图象数据压缩基本方法有哪些?

答:1)预测编码

预测编码旨在去除相邻像素之间的冗余度,差分脉码调制(简称DPCM)是它的一种基本方法。

输入信号x(n)是量化前的图像信号取样值,虚线框内的电路称为预测器,其中Di和ai(i=1,2,……,N)分别为延迟单元和固定的加权系数值,Q为量化器。预测器根据前N个邻近像素的样值推算出当前样值x(n)的估计值

其中τ为取样间隔。编码器对预测误差信号进行量化、编码传送,而不是传送x(n)本身。由于相邻像素之间相关性,预测值接近于x(n)。因此,通过预测将x(n)转换成e(n),在很大程序上降低了信源的冗余。用量化台阶相同的量化器量化e(n),所需的量化电平数要大大少于x(n),这便是通过DPCM进行数据压缩的基本原理。在解码端利用一个相同的预测器,可以恢复出原信号x(n)的近似值y(n),其误差是由于对e(n)的均方值最小。此时的预测器称为最佳预测器。

如果用作预测的像素与被预测像素X在同一扫描行内(如图(b)中的x1,x2),称为一维预测;当用作预测的像素位于相邻的不同扫描行上时(如图(b)中的x3,x4)则称为二维预测。

2) 换编码

变换编码也是一种降低信源空间冗余度的压缩方法。我们熟悉的富氏变换就是一种正交变换。如果把取样后的图像看作一个二维的矩阵,对此矩阵作二维离散富氏变换(DFT),所得到的变换域中的各元素(变换系数),对应着图像中不同频率成份的复振幅值。由于画面在内容上的连续性,图像矩阵中相邻元素之间的相关性很强,而经变换后,变换系数(不同频率的复振幅)值之间,显然相关性要小得多。研究证明,各种正交变换(例如,K-L变换,余弦变换,沃什变换等)都能在不同程度上减少随机向量的相关性。由于变换所产生的变换系数之间的相关性很小,可以分别独立地对其进行处理;而且信号经大多数正交变换后,能量都集中在少数系数上,通过量化删去对图像信号贡献小的系数,只用保留下的系数来恢复原图像,并不引起明显的失真。这就是利用正交变换进行数据压缩的基本原理。

在最小均方误差准则下,最佳的正交变换是卡南-洛伊夫(K-L)变换,它所给出的变换系数是互不相关的。但是由于计算的复杂性,K-L变换的实际应用甚少。离散余弦变换(DCT)是一种性能接近K-L变换的正交变换,并具有多种快速算法,因而在数据压缩中被广泛地采用。一个N×N的二维DCT由下式定义:

3) 量化

DPCM将像素值转换为预测误差值e(n);DC将像素值转换为DCT系数值,二者都仅仅是变换一种形式来表达原来用像素值表示的图像。只有在对预测误差,或对DCT系数进行量化时,才引入信息的损失。在同样的信噪比下,对转换后的参数进行量化所得到的数据率比对原图像量化要低,从而达到压要取得好的压缩效果,DPCM量化器的设计要与e(n)的统计特性相匹配。同时,考虑到视觉的空间掩蔽效应,在亮度变化密集的局部区域,还可以使用较大的量化台阶,以进一步提高压缩比。

DCT系数的理化与DPCM不同,DPCM中量化误差只影响与误差产生点相邻的像素,而某个DCT系数的量化误差,经反变换后会影响到整块图像中的每一个像素值。幅度很小的高频DCT系数量化后为0,可以忽略。由于人眼对高频分量的不敏感,忽略高频分量后所恢复的图像,仍有较高的质量。剩余的DCT系数,相互之间的相关性已经很小,可以根据各个系数对视觉影响的大小,分别采用不同大小的台阶量化。为简化系统起见,通常的作法是,将各个系数乘以不同的权值以后,用同一个量化器量化。

为了充分地利用视觉的空间掩蔽效应,提高压缩比,无论是DPCM,还是DCT系数的量化器都可以通过动态的自适应量化器来实现。自适应量化器有一组预先设定好的量化台阶,根据检测到的图像细节丰富程度,量化器自动选用相应的量化台阶。

4)具有运动补偿的帧间预测编码

(1)序列图像的运动估值

消除序列图像在时间上的冗余,是视频编码的另一重要途径。序列图像的时间冗余表现在:

3) (1)对于静止的场景,当前帧和前一帧是完全相同的; (2)对于运动的物体,只要知道其运动规律,就可以从前一帧图像推算出它在当前帧中的位置来。因此,编码器只要将物体的运动信息(运动速度,或静止)告知解码器,解码器就可根据此信息和前一帧图像来更新当前图像,这比传送当前图像所需的数据量要小得多。而要这样做,一个首先要解决的问题是如何从序列图像中提取有关物体的运动信息,这通常称为运动估值。 比较成熟的估值方法主要分为两大类:块匹配方法和像素递归法。两类方法都只估计物体的平移,其中块匹配方法应用比较广泛。

块匹配方法将图像划分成许多方块,并认为每个子块中所有像素的位移量都相同。对于第k帧中的每一子块,在第K-1帧中找到与其最相似的子块,称为匹配快。匹配块偏离原来位置的距离(见图2(a))决定了该子块的位移矢量(或称运动矢量)

判断两个子块匹配最常用的准则是求帧间亮度差的绝对值的均值MAD:其中bk和bk-1分别代表k和k-1帧的像素亮度值,M、N为子块的水平和垂直像素数,dM为最大可能平移的水平和垂直像素数(见图2(b))。当MAD最小时,表示两个子块匹配。

为了寻找最佳匹配块,我们需要将k-1帧中对应的子块沿水平和垂直方向逐个像素移动,每移动一次计算一次MAD由图2(b)看出,在(M+2dM)×(N+2dM)的搜索范围内,总的移动次数为(2dM+1)2。这种搜索方式称为全搜索,其运算量是很大的。为了加快搜索过程,人们已经提出了若干不同的搜索方法。

(2)帧间预测编码

帧间预测与消除空间冗余的预测编码相类似,即不直接传送当前帧(k帧)的像素值x,而是传送x与前一帧的对应像素x'之间的差值(见图2(a))。考虑到图像中存在着运动物体,我们传送x与前一帧经位移后所对应的像素x''之间的差值,这种方法称为具有运动补偿的帧间预测。显然,它给出的预测误差要比简单的帧间预测低,因而可以达到更高的压缩比。需要指出,在传送经运动补偿的帧间预测误差的同时,还需将该子块对就的运动量传送给解码器,以便解码器能够从已收到的前一帧(k-1帧)信息中恢复出该子块来。

用k-1帧预测k帧图像的方式称为前向预测。如果待测子块在k-1帧,而搜索区处在k帧,也就是从后续的k帧预测前面的k-1帧图像,这种方式称为后向预测。为了提高压缩比,往往还采用由前、后两帧来预测中间帧的方法,称为双向预测,此时有两个运动矢量需要作为附加信息传送给解码器。

6)其他编码方法

其他的压缩编码方式,例如,子带滤波/小波变换,矢量量化,分形编码及基于模型的编码等,在这里不一一介绍。

4) 音频压缩编码

1、什么是语音编码技术?其发展与现状是怎样的?

答: 语音信号的数字化传输,一直是通信的发展方向之一。采用低速率语音编码技术进行语音传输比语音信号模拟传输有诸多优点,现代通信的发展趋势决定了语音编码技术的两大突出优势:

5) 大大节省了带宽。从最初的PCM64k编码到现在标准语音压缩协议,如G723编码速率为53K或63Kbps;G729编码速率为8Kbps。还有未形成协议标准但更低的编码速率已有成熟的算法可以实现,如AMBE、CELP、RELP、VSELP、MELP、MP-MLQ、LPC-10等多种语音压缩算法,最低编码速率达到24kbps,有些算法已在包括第三代移动通信系统(3G)的多个领域得到应用。

6) 便于实现与IP融合。Internet的成功运用使得与IP的融合已成必然的发展趋势。分组语音即将分组交换的概念与语音传输相结合,使得语音信息更易于接入IP网。而分组语音的关键技术之一就是语音编码技术,低速率的语音编码技术对语音信息的实时性有更好的保证。采用分组语音传输的网络,其传输的语音信息本身就是分组数据包,这样的语音信息在接入Internet时将是非常的方便。 语音编码既可用软件也可用硬件的方法实现。软件实现就是将压缩算法用软件方法实现,这样做的好处是成本低、修改方便灵活,但处理速度较慢,不易保证处理的实时性。采用硬件实现就是将语音压缩算法固化到专用DSP芯片中,这样处理速度快,便于实时处理。

2、112 什么是G711编码?

答: G711建议一种典型的采用PCM波形编码的压缩编解码方法,可以获得较高的语音质量,但数据压缩率低。

G711建议描述了PCM的μ律(A律)压缩,如下图所示:

采样率为8kHz,12bit线性A/D变换为数字信号,再经过对数PCM后压缩为8bit,一路音频为64kbit/s。

7) 音频压缩技术

1、音频信号的指标有哪些?

答: 1)频带宽度:音频信号的频带越宽,所包含的音频信号分量越丰富,音质越好。

2)动态范围:动态范围越大,信号强度的相对变化范围越大,音响效果越好。

3)信噪比:信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称。 噪音可分为环境噪音和设备噪音。信噪比越大,声音质量越好。

4)主观度量法:人的感觉机理对声音的度量最有决定意义。感觉上的、主观上的测试是评价声音质量不可缺少的部分。当然,可靠的主观度量值是较难获得的。

8) 2、 什么是音频数字音频原理?

答: 由于音频信号是一种连续变化的模拟信号,而计算机只能处理和记录二进制的数字信号,因此,由自然音源而得的音频信号必须经过一定的变化和处理,变成二进制数据后才能送到计算机进行再编辑和存贮。

PCM(Pulse Code Modulation)脉冲编码调制是一种模数转换的最基本编码方法。它把模拟信号转换成数字信号的过程称为模/数转换,它主要包括:

9) 采样:在时间轴上对信号数字化; 量化:在幅度轴上对信号数字化; 编码:按一定格式记录采样和量化后的数字数据。 编码的过程首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘,相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化,这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码,即把量化的信号电平转换成二进制码组,就得到了离散的二进制输出数据序列x ( n ),n表示量化的时间序列,x ( n )的值就是n时刻量化后的幅值,以二进制的形式表示和记录。

3、数字音频的技术指标有哪些?

答: 1)采样频率:采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特(Harry Nyquist)采样理论(如果对某一模拟信号进行采样,则采样后可还原的最高信号频率只有采样频率的一半,或者说只要采样频率高于输入信号最高频率的两倍,就能从采样信号系列重构原始信号)。

根据该采样理论,CD激光唱盘采样频率为44kHz,可记录的最高音频为22kHz,这样的音质与原始声音相差无几,也就是我们常说的超级高保真音质。通信系统中数字电话的采用频率通常为8kHz,与原4k带宽声音一致的。

2)量化位数:量化位是对模拟音频信号的幅度轴进行数字化,它决定了模拟信号数字化以后的动态范围。由于计算机按字节运算,一般的量化位数为8位和16位。量化位越高,信号的动态范围越大,数字化后的音频信号就越可能接近原始信号,但所需要的存贮空间也越大。

3)声道数:有单声道和双声道之分。双声道又称为立体声,在硬件中要占两条线路,音质、音色好,但立体声数字化后所占空间比单声道多一倍。

4)编码算法:编码的作用其一是采用一定的格式来纪录数字数据,其二是采用一定的算法来压缩数字数据以减少存贮空间和提高传输效率。压缩算法包括有损压缩和无损压缩;有损压缩指解压后数据不能完全复原,要丢失一部分信息。压缩编码的基本指标之一就是压缩比,它通常小于1。压缩越多,信息丢失越多、信号还原后失真越大。根据不同的应用,应该选用不同的压缩编码算法。

5)数据率及数据文件格式:数据率为每秒bit数,它与信息实时传输有直接关系,而其总数据量又与存储空间有直接关系。

10) H323

1、什么是H225协议?

答:H2250是一个框架协议,遵循H323V2标准,包含了RAS和Q931两部分,描述了为在分组网络上的H323设备之间传送音频、视频、数据和控制信息而进行关联、编码及分组的方法。H2250负责协议和消息格式的描述。

H2250把RTP/RTCP用于所有下层分组网络媒体流的分组和同步,H2250假定了一个初始信令是建立在非RTP传输地址之上的呼叫模型,并把此呼叫模型用于呼叫建立和能力协商(见H323和H245),这之后将建立一个或多个RTP/RTCP连接。 H2250包含RTP/RTCP的详细使用方法。

2、什么是 H245协议?

答:用于控制H323实体的 *** 作的H245协议消息通过H245控制信道传输, H245消息分为四种类型:请求(Request)、响应(Response)、命令(Command)和指示(Indication)。请求消息要求接收机有动作,包括立即响应;响应消息响应一个请求;命令消息要求规定的动作,但不要求响应;指示消息只是通知的作用,不要求任何动作和响应,通常是指示终端的信息状态。

H245协议规定的主要控制过程有:主/从决定、终端能力交换、逻辑通道控制、多点会议控制&指示,回路时延。 主从决定:决定节点的主从关系。 能力交换:协商出一个兼容的媒体能力(音频、视频、数据、会议等)集合。

逻辑通道控制:指示开始传输特定媒体流。 多点会议控制&指示:会场列表、主席控制、媒体指示等。 回路时延:发送端到接收端的往返时延,也可用于检测远端是否异常。 GK直接呼叫流程(包括H245部分):

3、什么是 H323协议?

答:H323协议描述了在不提供QoS的基于包交换的网络(PBN,Packet Based Networks)上提供多媒体通信服务(包括实时的音频、数据通信等)的协议和设备。H323协议定义了四种组件:终端、网关、网守和多点控制单元。H323协议是视频通信所基于的主要协议之一。H323协议实际上是一个框架,它包含了相关的一系列协议,

3、什么是 Q931信令?

答:Q931呼叫信令是H2250中用于在两个H323端点之间建立呼叫连接的控制信令。当整个网络中有GK时,其初始接入消息在主叫端点与GK之间利用GK的RAS信道传输地址进行交换。在初始接入消息交换时,GK在ACF 消息中指示了其它端点的呼叫信令传输地址。主叫端口根据此地址与其它端口建立呼叫。

呼叫信令主要包括:

Setup:向另一个实体发起呼叫

Alerting:被叫震铃

Connect:被叫应答

ReleaseComplete:断开呼叫

视频压缩标准如下:

1、H261

H261标准是为ISDN设计,主要针对实时编码和解码设计,压缩和解压缩的信号延时不超过150ms,码率px64kbps(p=1~30)。

H261标准主要采用运动补偿的帧间预测、DCT变换、自适应量化、熵编码等压缩技术。只有I帧和P帧,没有B帧,运动估计精度只精确到像素级。支持两种图像扫描格式:QCIF和CIF。

2、H263

H263标准是甚低码率的图像编码国际标准,它一方面以H261为基础,以混合编码为核心,其基本原理框图和H261十分相似,原始数据和码流组织也相似;另一方面,H263也吸收了MPEG等其它一些国际标准中有效、合理的部分,如:半像素精度的运动估计、PB帧预测等,使它性能优于H261。

H263使用的位率可小于64Kb/s,且传输比特率可不固定(变码率)。H263支持多种分辨率:SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。

3、H264/AVC

视频压缩国际标准主要有由ITU-T制定的H261、H262、H263、H264和由MPEG制定的MPEG-1、MPEG-2、MPEG-4,其中H262/MPEG-2和H264/MPEG-4 AVC由ITU-T与MPEG联合制定。

从简单来说H264就是一种视频编码技术,与微软的WMV9都属于同一种技术也就是压缩动态图像数据的“编解码器”程序。

一般来说,如果动态图像数据未经压缩就使用的话,数据量非常大,容易造成通信线路故障及数据存储容量紧张。

因此,在发送动态图像时、或者把影像内容保存在DVD上时、以及使用存储介质容量较小的数码相机或相机手机拍摄映像时,就必须使用编解码器。虽然编解码器有许多种类,但DVD-Video与微波数字电视等使用的主要是MPEG2,数码相机等摄像时主要使用MPEG4。

既然作为压缩视频编码技术,H264最大的作用对视频的压缩了。我们熟悉的MPEG2也就是最常用的DVD视频编码技术已经比较落后。

MPEG-4

MPEG-4标准并非是MPEG-2的替代品,它着眼于不同的应用领域。MPEG-4的制定初衷主要针对视频会议、可视电话超低比特率压缩(小于64Kb/s)的需求。在制定过程中,MPEG组织深深感受到人们对媒体信息,特别是对视频信息的需求由播放型转向基于内容的访问、检索和 *** 作。

MPEG-4与前面提到的JPEG、MPEG-1/2有很大的不同,它为多媒体数据压缩编码提供了更为广阔的平台,它定义的是一种格式、一种框架,而不是具体算法,它希望建立一种更自由的通信与开发环境。

于是MPEG-4新的目标就是定义为:支持多种多媒体的应用,特别是多媒体信息基于内容的检索和访问,可根据不同的应用需求,现场配置解码器。编码系统也是开放的,可随时加入新的有效的算法模块。应用范围包括实时视听通信、多媒体通信、远地监测/监视、VOD、家庭购物/娱乐等。

MPEG-4视频压缩算法相对于MPEG-1/2在低比特率压缩上有着显著提高,在CIF(352288)或者更高清晰度(768576)情况下的视频压缩,无论从清晰度还是从存储量上都比MPEG1具有更大的优势,也更适合网络传输。另外MPEG-4可以方便地动态调整帧率、比特率,以降低存储量。

MPEG-4由于系统设计过于复杂,使得MPEG-4难以完全实现并且兼容,很难在视频会议、可视电话等领域实现,这一点有点偏离原来地初衷。

学习信息论与编码感想

多媒体信息是未来人类获取信息最主要的载体,因此它已成为目前世界上技术开发和研究的热点。视频信息作为多媒体信息中最被关注、数据量最大的一员,现在也正面临着一场其意义不亚于从模拟到数字的技术进步革新:从传统的矩形DCT变换编码到根据视频内容、划分对象、分别变换编码的新的编码方法。

一、传统的编码方式

传统的视频编码是以视频信号的数字量为编码对象的,与视频信息的内容无关,无论是M-JPEG、MPEG-1还是MPEG-2,都是以DCT矩形变换块为变换编码单元,对DCT块内图像的亮度和色度进行特征取样,提取像素;采用帧间编码、运动估测技术,在参考帧帧内DCT编码的基础上,对DCT块内图像的像素特征进行差值预测编码。基于矩形DCT编码的视频编码在设计思想上只考虑到对信号数据进行处理的需要(比如小的比特率以利于传输、高的比特率以保证质量),但未考虑视频信息--图像内容本身的含义和重要性,以及视频信息应用者的主观需求(比如部分内容的提取功能)。另外,这种基quot;块"的压缩算法在低码率时容易产生"方块效应"和"抽帧",大大缩小了视频信息的应用领域。

小波变换是一种新的变换编码方法,它与DCT变换相比,考虑到了视频信号对不同应用环境的自适应性(不同的清晰度与比特率),可以将基础图像层与增强图像层分离编码传输,用户可根据实际情况选择是否打开增强图像层。但无论用户选择是或否,被传送的视频信息却都是一样的。

二、 基于内容对象的编码

1、 VO与VOP概念的引入

传统的视频编码方式是将整个视频信号作为一个内容单体来处理,其本身不可再分割,而这与人类对视觉信息的判别法则,也就是大脑对视神经导入的视觉信号的处理方法是完全不同的。这就决定了我们不可能将一个视频信息完整的从视频信号中提取出来,比如:将加有台标和字幕的视频恢复成无台标、字幕的视频。解决问题的惟一途径就是在编码时就将不同的视频信息载体--视频对象VO(Video Objects)区分开,独立编码传送,将图像序列中的每一帧,看成是由不同的VO加上活动的背景所组成。VO可以是人或物,也可以是计算机生成的2D或3D图形。VO具有音频属性,其属性赋值可能quot;有"或者是"无"。但音频的具体内容数据是独立于视频编码、传输的。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化。提高了视频信号的交互性和灵活性,使得更广泛的视频应用和更多的内容交互功能成为可能。

现代图像编码理论指出,人眼捕获图像信息的本质是"轮廓-纹理",即人眼感兴趣的是VO的一些表面特性,如形状、运动、纹理等。VO的表面往往是不规则的、千变万化的,但可将其视为一定视角下,n个形状规则的、具有一定纹理的剖面的组合的连续运动,这些剖面的组合称为视频对象面VOP(Video Object Profile)。VOP描述了VO在一定视角条件下的表面特性。VOP的编码主要由两部分组成:一个是形状编码,另一个是纹理和运动信息编码。VOP纹理编码和运动的预测、补偿在原理上同MPEG-2基本一致,而形状编码技术则是首次应用在图像编码领域。

2、新的编码技术

合成VO的独立编码 在以前,2D或3D动画被看作是视频的一部分,并一概以视频的方法来处理。实际上,根据合成VO的合成机理和特性,大部分合成VO都可以用通用的有关图形文本的多种表达方式来描述。非复杂性合成VO将被视为一种独立于视频的数据类型来编码,并定义了其描述框架、通用的数据流结构和灵活的接口。而复杂性合成VO和自然VO的编码方法,将采用以下的编码方法。

基于矩形窗口的VOP分割 考虑到与现有标准的兼容,目前已得到应用的VO编码技术,比如MPEG4,仍采用了基于矩形窗口的内容分割法。编码时,首先利用像素特征统计,将每一个VOP都限定在一个矩形窗口内,称之为VOP窗口(VOP Window),取窗的原则为:长、宽均为16像素的整数倍(便于对现有标准的兼容和将来的扩展),同时保证VOP窗口中非VOP的宏块数目最少。目前标准中的视频帧可认为是一个无VOP的特例,在编码过程中将形状编码模块屏蔽掉就可以了。在一个VOP窗口内,VOP剖面的形状也是采用8×8像素的矩形形状。针对不同的VOP,可以根据不同的应用场合和运动、变化的特点,采用固定的或可变的VOP帧频(即VOP刷新频率)。

矩形窗口分割法并不能体现VOP的具体形状信息。为了确认采用矩形窗口分割法的VOP的形状信息,就引入了形状编码技术。形状编码其实并不是什么新技术,它在计算机图形学、计算机视觉领域早有应用。而目前的视频编码标准中的位图技术其实就是形状编码的简单特例。位图采用矩阵的形式来表示二值(0或1)的形状信息,具有较高的编码效率和较低的运算复杂度。VOP的形状信息有两类:边缘信息和灰度信息。边缘信息用0、1来表示VOP的形状,0表示非VOP区域,1表示VOP区域。对于包含一定透明度的VOP区域,可以用灰度信息(取值0~255之间)来表示透明程度,其中0表示完全透明,255表示完全不透明。对于模糊边缘部分,可将其视为灰度信息从周围已知VOP区域的灰度值向0值的过渡区域,采用内插法确定其形状信息。

基于小波变换的VOP分割 基于矩形窗口的VOP分割依旧存在"块效应"问题,而基于小波变换的VOP分割则可以很好的解决这个问题,而且由于这种分割方法的本身就包含了VOP的形状信息,所以无需另对形状信息进行判别与编码。基于小波变换的VOP分割方法是目前最为活跃的视频编码课题研究领域,各种算法不断的被发表,但基本上可以划分为两类方法:

1、利用图像灰度特征分割:不同的图像具有不同的灰度分布,利用小波变换,将图像变换到小波域,产生各层、各子带图像。小波变换后,大部分的能量是集中在低频子带图像上,即大面积的平均灰度区域信息主要在低频子带图像中体现。根据信息论的原理,确定多个灰度阈值,可以将具有不同灰度的VOP从低频子带图像中分离。同时再利用高频子带图像以及模糊数学模型,确定每一个VOP的边缘信息。利用图像灰度特征分割的小波变换,是沿扫描方向的单方向变换。

2、利用图像纹理特征分割:纹理是一种局部特征反复出现的结果,它体现了图像的局部频域信息。对于一幅数字图像,进行多方向的小波变换是可行的,比如对一帧画面进行垂直方向或对角线方向的小波变换。经过多种小波变换后可得到不同方向的各子带图像,它们各自蕴涵着不同纹理的局部频谱信息和纹理走向等信息。对具有相同频谱特征的图像局部进行聚类分析,并根据纹理频谱和纹理走向确定该聚类的纹理边缘。根据信息论原理和运动估测,将运动矢量具有相关性的聚类二次归类于不同的对象(即VOP),并影射成不同灰度显示。多级小波变换的结果最多可线性的影射成0~255灰度级显示。进行小波变换的方向越多,各方向的夹角越小,图像分割也就越准确,但计算量也随之迅速膨胀。根据局域纹理中心频率的变化自适应地选择小波变换的级数(几个方向的变换)和方向,有助于在图像分割的准确性和计算量之间达到平衡。正如本文前面所述,人眼捕获图像信息的本质quot;轮廓-纹理",故基于多方向小波变换的提取图像特征、分割纹理图像的方法符合人眼视觉生理的特点,是纹理图像分析的重要发展方向。

无论是哪一种方法,当得到不同VOP的不同灰度表示之后,通过类似于键技术的多通道处理,即可得到多个原始的彩色VOP。目前实验表明,基于小波变换的图像分割在边界上仍有些模糊,但总体效果还是相当满意的,达到了分割纹理图像的目的。

VOP运动信息编码和运动补偿 人眼在观看图像时,会自动跟踪人所感兴趣的VOP。即人看的不是时间轴上的信息,而是VOP的运动轨迹---光流轴上的信息。光流轴是VOP上的一点在活动图像上的运动轨迹,它在不同的帧中位于不同的空间位置,其意义在于:VOP自身的各种变化都将映射于光流轴上的一点。光流轴信息的独立编码将带来诸多好处:(1)在编码时,对于刚性VOP,由于它在运动中不会发生形状和纹理上的变化,故该VOP只需要完成一次采样、编码,而后就只需发出几个运动矢量指明它的光流轴即可;对于非刚性VOP,只需在发生变化时才需要重新采样、编码,这就使得不同的VOP采用不同的VOP帧频成为可能,将编码的数据率最低限度的降低。(2)VOP在运动中的各种变化都将"留迹"于光流轴,当在进行运动补偿时,比如不同制式之间的转换或者慢动作的制作,就可以根据光流轴映射信息,采用内插法得出时间轴上某一确定点的VOP状态,达到无损转换的目的。(3)在时间轴上,简单的将一个图像序列的两路信号叠加,随即噪波和图像的活动部分都得不到增强;若在光流轴上进行信号叠加,活动图像的降噪问题就得到了简单解决。

VOP的运动估测是指:分析两个或更多帧上的VOP,确定光流轴,以判断下一帧中VOP可能出现的位置。VOP的运动补偿是指:根据VOP光流轴的取向和光流轴上VOP自身变化得映射信息,矫正VOP在时间轴上的运动矢量。运动预测和运动补偿技术可以去除图像信息中的时间冗余成分,VOP的运动信息编码可视为从像素向任意形状的VOP的延伸。

纹理编码 在已得到实际应用的MPEG-4中,VOP的纹理编码基本上仍采用基于8×8像素块的DCT方法,有3种模式:帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP)和帧间双向预测编码模式(B-VOP)。编码时,对于完全位于VOP内的像素块,则采用经典的DCT方法;对于完全位于VOP之外的像素块则不进行编码;对于部分在VOP内,部分在VOP外的像素块则首先采用图像填充技术来获取VOP之外的像素值,之后再进行DCT编码。

依据视觉特性的纹理编码目前仍处于理论研究阶段,其目标是:建立常见纹理局部特征符号集,定义描述纹理分布、走向的多媒体语言。以人脸为例:人脸定义参数(FDP)描述了特定人脸纹理形状模型与通用人脸模型之间的差别,通过接收到的各种FDP,能把通用的人脸模型变换成由其形状和纹理确定的特定人脸。人脸动画参数(FAP)描述了特定的人脸表情与中性表情的变化关系,通过接收到的各种FAP能生成人脸的各种表情以及与声音同步的嘴唇活动等。这样的合成编码不仅可极大地提高编码效率(可获得1kbps的超低码率),而且为制作新的人脸等对象提供了方便。

分级编码 多媒体的应用场合具有不同的信道带宽、处理能力、显示能力及用户需求,要求在解码端支持时域、空间及质量的上伸缩性,即分级编码。分级编码可以通过视频对象层VOL(Video Object Layer)的数据结构来实现。每一种分级编码都至少有2层VOL,低层称为基本层,高层称为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的VOP进行解码之前,必须先对基本层中相应的VOP进行解码。同样对于时域伸缩性,可通过增强层来增加视频序列中某个VO(特别是运动的VO)的帧率,使其与其余区域相比更为平滑。

三、 新的技术标准--MPEG 4

首次采用VO编码技术的视频编码标准是由MPEG 4。MPEG 4于1999年年初正式成为国际标准(标准号为ISO/IEC 14496),在1999年12月的后继版本中增加了可变形、半透明视频对象及其工具的先进功能,它进一步提高了编码效率,并与第一版反向兼容。

1、MPEG 4标准的构成

1) DMIF(The Dellivery Multimedia Integration Framework):多媒体传送整体框架协议。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供灵活的算法及工具,用于实现音视频数据的有效编码及更为灵活的存取。它解决了多领域中多媒体应用个性化交互 *** 作的问题。

2) 解码器:定义了MPEG-4系统特殊的解码模式(SDM),要求特殊的缓冲区和实时模式。

3) 音频编码:支持自然声音和合成声音,支持音频的对象特征。

4) 视频编码:支持自然和合成的视觉对象,合成的视觉对象包括2D、3D动画和人面部表情动画等。

5) 场景描述BIFS(Binary Format for Scene description):关于一组VO的时空结构关系的参数信息,主要描述了各VO在一具体背景下的相互关系与同步等问题,以及VO及其背景的知识产权保护等问题。BIFS与VO对象特征信息的编码、传输是相对独立的。场景描述信息编码及其的独立传输是实现用户端编辑 *** 作的关键:在解码之后和场景合成之前,用户可以通过对BIFS参数的重新设置来对VO 进行多种编辑 *** 作,如增减、缩放、平移,甚至一些特技效果。

下面的表格反映了MPEG体系的部分技术指标。MPEG-4是高比率有损压缩(比如将一个9 GB的DVD视频压缩拷贝到只有700MB空间的CD-ROM上),其图像质量始终无法与MPEG-2相比。当MPEG-4与MPEG-2的码率输出相同时,其质量仍稍逊于MPEG-2。同时,MPEG 4对硬件的要求也较高。事实上,我们注意到MPEG-4在保证令人满意的图像质量的情况下,更注重较低的数据率和灵活的交互功能。

2、MPEG 4编码器

MPEG 4编码简化原理图如图一。

对于输入视频序列,通过分析确认n个视觉目的对象为编码对象,将其认定为n个VO(n=1,2,3…),对每一个VO编码后形成这个VO的VOP数据流。VOP的编码包括对运动(采用运动预测方法)及形状、纹理(采用变换编码方法)的编码。由于VOP具有任意形状,因此要求编码方案可以处理形状(Shape)和透明(Transparency)信息,这就是与只能处理矩形帧序列的现有视频编码标准的根本区别。在MPEG-4中,矩形帧被认为是VOP的一个特例,这时编码系统不用处理形状信息,退化为类似于MPEG-1、MPEG-2的传统编码系统,同时也实现了与现有标准的兼容。除去VO的其余图像部分--背景,仍采用传统的矩形DCT变换编码;VO场景描述信息(VO自身信息,如VO对象的知识产权、和VO间的位置、逻辑关系等)也要进行编码,最后和VOP流、背景一起送入MPEG 4帧复合器,生成MPEG 4流输出。

需指出的是:在VO分割后,每一个VO都需要一个VOP编码通道,在图一中只画出了一个。多个VOP帧发生器的输出在MPEG 4帧复合器中可实现灵活地多路复用编码或同步并行传输编码,以适应各种传输环境和要求。MPEG 4解码是以上编码过程的逆过程。可以看出,独立于背景的VO编码可以实现接收端的用户对VO对象进行选择性地 *** 作。

3、MPEG 4视频编码功能与特点

MPEG 4标准的制定有两个目标:低比特率的多媒体通信和多工业的多媒体通信的综合。即MPEG-4遵循灵活的编码工具框架体系,设计了一个开放的编码系统,对于不同的应用采用不同的编码算法,以达到低比特率通信的目标。MPEG-4解码器是可编程的,相应的解码信息可与内容本身一起传输下载。与现有的MPEG-1和MPEG-2视频压缩相比,MPEG-4视频有一些重要的改进:

1)基于内容的交互功能: MPEG-4提供了全新的交互方式,根据制作者的具体自由度设计,在有限的时间内可实现对多媒体VO的时域随机存取(从不同的源获取内容或向不同的源发送内容)、快速搜索、改变场景的视角、改变场景中物体的位置、大小和形状,或对该对象进行置换甚至清除。

2)支持自然及合成信息的混合编码(NHC:Synthetic and Natural Hybrid Coding):MPEG-4支持合成信息的编码,可对合成的VO及其活动信息进行参数化描述。对于频繁出现的视觉对象则分别定义了它们的纹理形状和动画参数。

3)高效编码:包括视频VO数据的高效编码和多个并发数据的有效同步编码。

4)基于内容的伸缩性:是指分级编码后,纹理、图像和视频基于内容的伸缩性,视频序列中时域、空间及质量的伸缩性,表现为时域实时或非实时、数据率大小及重建的图像质量上。

5)可变的最终输出:不同的码率意味着支持不同的功能集。功能集的底层是VLBV核心(VLBV:Very Low Bit Rate Video),它为最低达5-64kbits/s视频 *** 作与应用提供算法与工具,支持较低的空间分辨率(低于352×288像素)和较低的帧频(低于15Hz)。VLBV核心功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。MPEG-4的HBV(HBV: High Bit Rate Video,范围在64kbits/s-4Mbits/s之间)同样支持上述功能,但它同时还支持较高的空间与时间分辨率。其输入可以是ITU-R 601的标准信号,因此其典型应用为数字电视广播与交互式检索。

与MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互式AV服务以及远程监控。MPEG-4是第一个允许用户端 *** 作的的视频编码标准。MPEG 4的特点非常适合于互联网上的交互式影视服务:可适应各种应用终端的物理网络环境,可实现对视音频内容的交互 *** 作,具有下载解码能力(在一定的硬件基础上,可下载解码工具,对不同编码方式的内容进行解码处理)。MPEG-4的设计目标还有更广的适应性和可扩展性:因特网多媒体应用、交互式视频游戏、实时可视通信、交互式存储媒体应用、广播电视、演播室技术及电视后期制作、多媒体内容存储和检索、采用面部动画技术的虚拟会议、多媒体邮件、移动通信条件下的多媒体应用、可视化合作实验室场景应用、远程视频监控、通过ATM网络等进行的远程数据库业务等等。

从矩形帧到VOP,MPEG-4顺应了现代图像压缩编码的发展潮流,即从基于DCT的传统编码向基于对象和内容的现代编码的转变。从这个意义上讲,MPEG-4视频编码技术翻开了图像编码史上崭新的一页。

四、 MPEG 4视频产品

在2001 NAB会展上,多家公司推出了他们的MPEG 4产品。Amnis公司推出了基于IP平台的MPEG4视频流技术,展示了可以重放MPEG1, MPEG2和MPEG4的桌面软件。Envivo 公司陈列了他们的应用于IP网络或MPEG2节目数据广播的MPEG4端到端解决方案。该方案是纯软件的,支持视频、音频和合成的2D动画的MPEG4方式编码,以及对MPEG 4文件的版权保护。Optibase公司推出的MGW系列是一个插件式的多通道流服务器系列,可插入不同的编码模块以适应不同的需求,其中MGW 4000是支持MPEG4(兼容MPEG1和MPEG2)的流服务器。Optibase还推出了支持多媒体和交互MPEG4流的IP实时编码、分配平台。最后,Optibase展示了从MPEG 1到MPEG 4的实时转码技术。Philips 提供了一个从制作到重放的、端到端的网上MPEG-4解决方案:包括互动内容编辑器(支持网上MPEG-4视频流的搜索、剪辑和编辑)、实时软件MPEG-4编码器(甚至支持简单视频和AAC音频的无线编码)、通用多点分配IP平台和解码软件(WebCine' player支持Win95,Win2000和NT *** 作系统;WinCE用于手提电脑;Trimedia是一个网上广播机顶盒)。SUN 公司也推出了他们的通用MPEG-4流服务器。

微软在它现在的WIN98和WIN2000 *** 作系统中也已加入了一个MPEG-4的播放器,叫做Divx。它可以回放仍是以AVI为后缀的MPEG 4文件。Divx可以附加到MPEG-4的数据流中,并可以进行设置以适应不同的使用要求。Divx视频编码技术是由 Microsoft MPEG4 V3 修改而来,使用MPEG 4压缩算法,打破了ASF的种种协定。但MPEG4毕竟是一种高比率有损压缩,其图象质量始终无法和 DVD 的 MPEG2 相比,即便是在MPEG4码率和DVD码率差不多时,总体效果还是有距离(在杂乱的细节上稍有模糊)。所以目前的MPEG4 只能面向于娱乐和欣赏方面的市场。

市场上的第一张DIVX-MPEG4格式的影碟《活火熔城》,长98分钟,采用512×288 16:9格式,帧频24帧/秒,64KB立体声音频。影片由720×480 16:9 30帧/秒的MPEG2制式转刻,刻在单张CD盘片上。

六、结 尾

在最后结束本文的时候,作者还想说一些与本文有关的阐述文字。由于工程实现与商机、市场的原因,我们所获得的工程技术成果经常是落后于科学家已经得心应手、并能信手拈来的实际的最前沿科技成果。MPEG-4标准即是多因素集合作用的结果,如果不考虑对已有产品的兼容,它还可以做得更好。

VOP编码方式是视频信号处理技术从数字化进入智能化得初探。另外,已VOP技术为依托,也使得模式识别技术从对符号的识别进入到对图形识别的更新的领域。资料表明,此类研究已经更进一步的逼近人脑对视觉信息的处理方式。人类永远不停的在揭示自然界无穷奥妙的同时,也更深入的探索人类自身。

网络视频直播是目前常见的一种网络互动交流方式,在网络视频会议、远程医疗、远程教育等等方面都有应用,相关的直播设备也有多种,如视频采集卡、视频编码器、摄像机、麦克风、视频服务器等等,但是不管应用哪种设备都需要对视频进行编码,那么为什么网络视频直播需要进行编码呢? 无线SDI编码器 在过去我们都是用光盘来保存相关的视频信息,不知道大家有没有注意过用光盘保存的数据量占用的空间十分大,尤其是高清的视频信息占用的空间亦是非常大,通常一集电视剧大概45分钟左右就占用将近1g的空间。因此在过去我们几乎没有通过网络来在线观看**电视的习惯,而后来,互联网技术的革新,使得网络在线看**看电视成为了可能,其中最大的革新就是视频编码技术--H264编码算法。 应用最新的H264编码算法可在保证视频效果的情况下实现最大程度的视频压缩,从而实现视频信息变成可从网络传输的码流信息。而H264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H264的压缩比是MPEG-2的2倍以上,是MPEG-4的15~2倍。举个例子,原始文件的大小如果为88GB,采用MPEG-2压缩标准压缩后变成35GB,压缩比为25∶1,而采用H264压缩标准压缩后变为879MB,从88GB到879MB,H264的压缩比达到惊人的102∶1。低码率(LowBitRate)对H264的高的压缩比起到了重要的作用,和MPEG-2和MPEG-4ASP等编码技术相比,H264编码技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,H264在具有高压缩比的同时还拥有高质量流畅的图像,正因为如此,经过H264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。 那么在做网络视频直播时,不同的方式有不同的编码器,如果应用采集卡采集摄像机视频然后进行直播的,通常都是应用软件编码,如OBS等直播软件就可以支持H264编码。而对于网络发布会等中大型的直播来说,硬件视频编码器具有更好的信息处理能力,可直接推流上网,因此更为方便。

摄像头采集;

1、音视频编解码;

2、流媒体协议;

3、音视频流推送到流媒体服务器;

4、流媒体网络分发;

5、用户播放器;

6、音视频同步;

7、网络延迟自适应;

8、需要录制,多种视频文件的格式和封装;

9、语言:C、C、html、php、mysql

10、开发环境:嵌入式,Linux,Windows,Web

还有就是视频播放解决方案(卡顿、延迟):

1、CDN加速;

2、自己架服务器;

3、用别人的云服务。

用CDN加速,可以尽量减少延迟。目前业内水准来看,视频延迟都在3-6秒之间。也就是在视频直播时,你看到的是几秒以前的画面。

自己架服务器,如果部署的数据中心不够多,那么遇上跨网、跨省的传输,还是得用CDN加速。那么为了尽可能降低延迟,你就需要在全国各省市都部署数据中心,来解决跨网、跨省的传输。用云服务的话,就是别人把服务器给你架好了,你只要傻瓜式的用就行了。当然,不管用哪种方式,综合权衡利弊,找到适合的方案就是最好的方案。

开发视频直播的流程有哪些:

1、采集;

2、前期处理;

3、编码;

4、传输;

5、解码;

6、渲染。

采集:iOS是比较简单的,Android则要做些机型适配工作。PC最麻烦各种奇葩摄像头驱动,出了问题特别不好处理,建议放弃PC只支持手机主播,目前几个新进的直播平台都是这样的。

前期处理:现在直播美颜已经是标配了,80%的主播没有美颜根本没法看。美颜算法需要懂图像处理算法的人,没有好的开源实现,要自己参考论文去研究。算法设计好了还要优化,无论你打算用CPU还是GPU优化,算法优化本身也需要专业知识支持。GPU虽然性能好,但是也是有功耗的。GPU占用太高会导致手机发烫,而手机发烫会导致摄像头采集掉帧。而这一切都是需要经验支撑。

编码:如果你要上720p,肯定要采用硬编码。软编码720p完全没希望,硬件编码不灵活。兼容性也有问题。如何适应纷繁复杂的网络和纷繁复杂的上下行设备?安卓和芯片的坑,开发过的人都知道。那有人问,要求不高,上软编码低分辨率360p行不行?就算上低分辨率,软编码还是会让CPU发烫,CPU过热烫到摄像头,长期发烫不仅直接反应是费电。既然是手机直播,插着电源和充电器实在说不过去吧。还有,CPU发烫会降频,怎么办?这还是只说性能方面。和前处理只影响图像质量和功耗不同,视频编解码技术还关联成本计算和网络对抗。考虑性能、功耗、成本、网络这四个之后你编码的码率、帧率、分辨率。软硬件开发该如何选择?

传输:自己做不现实,交给第三方服务商吧。

解码:如果你用硬解码,一定要做容错处理,一定要做适配。突然一个crash导致手机重启不好吧。安卓的硬解码,不说了。如果你加了网络目前手机的硬解码还不一定支撑用软解码,功耗发热的问题又来了。

渲染:为什么手机明明解码出好多帧数据。就是渲染不出来。为什么画面就是不同步。

以上是媒体模块,还有信令控制,登录、鉴权、权限管理、状态管理等等,各种应用服务,消息推送,聊天,礼物系统,支付系统,运营支持系统,统计系统等。后台还有数据库,缓存,分布式文件存储,消息队列,运维系统等。

以上技术要点的小结,确实能说明开发一个能用于生产环境的实时视频直播平台确非易事,跟IM里传统的实时音视频一样,这样的技术都是音视频编解码网络传输技术的综合应用体。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/12171071.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-21
下一篇2023-05-21

发表评论

登录后才能评论

评论列表(0条)

    保存