如何实时h264编码及aac编码_系统运维

1. 简单介绍

首先是捕获，这里采用了DirectShow的方式，对它进行了一定程度的封装，包括音视频。好处是直接使用native api，你可以做想做的任何修改，坏处是，不能跨平台，采集音视频这种应用，linux平台也是需要滴呀。有跨平台的做法，对视频，可以使用OpenCV，对音频，可以使用OpenAL或PortAudio等，这样就行了。

编码可以选择的余地比较大，对视频来讲，有H264, MPEG-4, WebM/VP8, Theora等，音频有Speex, AAC, Ogg/Vorbis等，它们都有相应的开源项目方案，我采用的是x264进行H264编码，libfaac进行aac编码，之后是否更改编码方案，等具体项目需求再说了。这里提一下WebM，Google牵头的项目，完全开放和自由，使用VP8和Vorbis编码，webm(mkv)封装，有多家巨头支持，目的是想要取代当前的H264视频编码，号称比后者更加优秀，我没有测试过实际效果。不过有商业公司牵头就是不一样，各项支持都很全面，有时间了关注一下。

2. 逻辑和流程

基本的思想是实现dshow ISampleGrabberCB接口，通过回调来保存每一个buffer。除了界面线程和dshow自己的线程之外，我们启动了两个线程，AudioEncoderThread和VideoEncoderThread，分别从SampleGrabber中取出数据，调用编码器进行编码，编码后的文件可以直接输出。看图：

程序是用VS2010构建的，看张工程截图：

Base下面的是对系统API的一些简单封装，主要是线程和锁。我这里简单也封装的了一下dshow的捕获过程，包括graph builder的创建，filter的连接等。directshow是出了名的难用，没办法，难用也得用。因为是VS2010，调用的Windows SDK 7.1中的dshow，没有qedit.h这个文件，而它正式定义ISampleGrabberCB的。不急，系统中还是有qedit.dll的，我们要做的就是从Windows SDK 6.0中，把它拷过来，然后在stdafx.h中加入这几行代码，就可以了

1 #pragma include_alias( "dxtrans.h", "qedit.h" )

2 #define __IDxtCompositor_INTERFACE_DEFINED__

3 #define __IDxtAlphaSetter_INTERFACE_DEFINED__

4 #define __IDxtJpeg_INTERFACE_DEFINED__

5 #define __IDxtKey_INTERFACE_DEFINED__

6 #include "qedit.h"

3. 音视频编码

相关文件：

Encoder下就是音视频编码相关的代码。X264Encoder封装了调用x264编码器的 *** 作，FAACEncoder封装了调用libfaac编码器的 *** 作，VideoEncoderThread和AudioEncoderThread负责主要的流程。下面我把关键代码贴出来，大家可以参考一下。

A. 视频编码线程

主要流程是首先初始化x264编码器，然后开始循环调用DSVideoGraph，从SampleGrabber中取出视频帧，调用x264进行编码，流程比较简单，调用的频率就是你想要获取的视频帧率。要注意的一点是，x264进行编码比较耗时，在计算线程Sleep时间时，要把这个过程消耗的时间算上，以免采集的视频帧率错误。

B. 音频编码线程

主要流程和视频编码线程相同，也是初始化FAAC编码器，然后循环调用DSAudioGraph，从SampleGrabber中取出视频帧，调用faac进行编码。和视频不同的是，音频的sample的频率是非常快的，所以几乎要不断的进行采集，但前提是SampleGrabber中捕获到新数据了才行，不然你的程序cpu就100%了，下面代码中IsBufferAvailaber()就是做这个检测的。

调用faac进行编码的时候，有点需要注意，大家特别注意下，不然编码出来的音频会很不正常，搞不好的话会很头疼的。先看下faac.h的相关接口

1 faacEncHandle FAACAPI faacEncOpen(unsigned long sampleRate, unsigned int numChannels,2 unsigned long *inputSamples, unsigned long *maxOutputBytes)3 4 int FAACAPI faacEncEncode(faacEncHandle hEncoder, int32_t * inputBuffer, unsigned int samplesInput,5 unsigned char *outputBuffer, unsigned int bufferSize)

faacEncEncode第三个参数指的是传入的sample的个数，这个值要和调用faacEncOpen返回的inputSamples相等。要做到这点，就要在dshow中设置好buffsize，公式是：

BufferSize = aac_frame_len * channels * wBytesPerSample// aac_frame_len = 1024

YUV格式通常有两大类：打包（packed）格式和平面（planar）格式。前者将YUV分量存放在同一个数组中，通常是几个相邻的像素组成一个宏像素（macro-pixel）；而后者使用三个数组分开存放YUV三个分量，就像是一个三维平面一样。

在摄像头之类编程经常是会碰到YUV格式,而非大家比较熟悉的RGB格式. 我们可以把YUV看成是一个RGB的变种来理解.

如果只有Y信号分量而没有U、V分量，那么这样表示的图像就是黑白灰度图像。因此用YUV格式由彩色转黑白信号相当简单. 在技术文档里，YUV经常有另外的名字, YCbCr ,其中Y与YUV 中的Y含义一致，Cb , Cr 同样都指色彩,，只是在表示方法上不同而已，Cb Cr 就是本来理论上的“分量/色差”的标识。C代表分量(是component的缩写)Cr、Cb分别对应r(红)、b(蓝)分量信号，Y除了g(绿)分量信号，还叠加了亮度信号。

下面的一切都是在 root 模式下进行的，可以不再 root 模式下进行

基础环境就是编译代码的基础库，Ubuntu联网安装软件很简单，一个语句即可搞定，这里列出语句如下：

依赖库分两方面，参考以下网站列出的依赖库信息，本文选择的版本均参考于此网页: FFmpeg依赖库信息

首先创建 FFmpeg 代码目录，所有的源代码放在这个目录下

FFmpeg 编译之后，即可使用。编译生成的可执行程序在 ~/bin 目录下

注：上面的 ./configure 配置编译后并不能进行调试，需要如下配置.

刚才的工程可以运行，但不能debug。解决此问题，首先认定一点，生成的可执行程序中，ffmpeg 不包含调试信息，调试信息在 ffmpeg_g 中,debug 要选择 ffmpeg_g。

另外，./config选项也是确定包含调试信息的核心，需要在config中添加：

采用以下命令重新config:

一些注意事项； 在使用 ffplay 播放生成 h264 格式的视频时，播放速度会加快，解决方式：不要使用 FFmpeg 转码生成纯 h264 格式的视频，要使用一种容器包含 h264 视频，即生成一种音视频流格式，也就是不要生成纯粹的 h264 码流，而是生成诸如 mkv 等格式的文件。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/8301841.html

如何实时h264编码及aac编码

发表评论

评论列表（0条）