
不明白你的意思。说具体一些。 如果指的是动态数字图像, 则最基础需要视频采集线,视频卡,用于记录的硬盘。 比较完备的,还需要磁带上下载系统(如DVCPRO50机),视频处理卡(如DECKLINK)等。
人,是感官的动物。
我们的大脑,像一块复杂度极高的CPU,每天在接收着各种格式的数据,进行着无休止的计算。我们以各种感官接触着这个世界,抽取着不同感官下的信息,从而认知了世界。而图像作为承载信息最为丰富的一种媒介,在人类探索智慧的历史中,一直占据着重要的位置。人用这样一双肉眼如何识别不同类别的图像(image classification and pattern recognition),如何在图像中分割出形形色色的物体(semantic segmentation and object detection),如何从模糊的图像中想象出物体的轮廓(image super-resolution),如何创作出天马行空的图画(image synthesis),都是目前 机器视觉图像处理领域 关注的热点问题。全世界的研究者都希望有朝一日,计算机能代替人眼来识别这一幅幅图像,发现在图像中隐藏的密码。
图像分类是图像处理中的一个重要任务 。在传统机器学习领域,去识别分类一个一个图像的标准流程是特征提取、特征筛选,最后将特征向量输入合适的分类器完成特征分类。直到2012年Alex Krizhevsky突破性的提出AlexNet的网络结构, 借助深度学习的算法,将图像特征的提取、筛选和分类三个模块集成于一体 ,设计5层卷积层加3层全连接层的深度卷积神经网络结构,逐层对图像信息进行不同方向的挖掘提取,譬如浅层卷积通常获取的是图像边缘等通用特征,深层卷积获取的一般是特定数据集的特定分布特征。AlexNet以154%的创纪录低失误率夺得2012年ILSVRC(ImageNet大规模视觉识别挑战赛)的年度冠军,值得一提的是当年亚军得主的错误率为262%。 AlexNet超越传统机器学习的完美一役被公认为是深度学习领域里程碑式的历史事件,一举吹响了深度学习在计算机领域爆炸发展的号角 。
时间转眼来到了2014年,GoogleNet横空出世,此时的深度学习,已经历ZF-net,VGG-net的进一步精炼,在网络的深度,卷积核的尺寸,反向传播中梯度消失问题等技术细节部分已有了详细的讨论,Google在这些技术基础上引入了Inception单元,大破了传统深度神经网络各计算单元之间依次排列,即卷积层->激活层->池化层->下一卷积层的范式,将ImageNet分类错误率提高到了67%的高水平。
在网络越来越深,网络结构越来越复杂的趋势下,深度神经网络的训练越来越难,2015年Microsoft大神何恺明(现就职于Facebook AI Research)为了解决训练中准确率先饱和后降低的问题,将residual learning的概念引入深度学习领域,其核心思想是当神经网络在某一层达到饱和时,利用接下来的所有层去映射一个f(x)=x的函数,由于激活层中非线性部分的存在,这一目标几乎是不可能实现的。
但ResNet中,将一部分卷积层短接,则当训练饱和时,接下来的所有层的目标变成了映射一个f(x)=0的函数,为了达到这一目标,只需要训练过程中,各训练变量值收敛至0即可。Resdiual learning的出现,加深网络深度提高模型表现的前提下保证了网络训练的稳定性。2015年,ResNet也以36%的超低错误率获得了2015年ImageNet挑战赛的冠军,这一技术也超越了人类的平均识别水平,意味着人工智能在人类舞台中崛起的开始。
图像分类任务的实现可以让我们粗略的知道图像中包含了什么类型的物体,但并不知道物体在图像中哪一个位置,也不知道物体的具体信息,在一些具体的应用场景比如车牌识别、交通违章检测、人脸识别、运动捕捉,单纯的图像分类就不能完全满足我们的需求了。
这时候,需要引入图像领域另一个重要任务: 物体的检测与识别 。在传统机器领域,一个典型的案例是利用HOG(Histogram of Gradient)特征来生成各种物体相应的“滤波器”, HOG滤波器 能完整的记录物体的边缘和轮廓信息,利用这一滤波器过滤不同的不同位置,当输出响应值幅度超过一定阈值,就认为滤波器和中的物体匹配程度较高,从而完成了物体的检测。这一项工作由Pedro F Felzenszalb,Ross B Girshick,David Mcallester还有Deva Ramanan以Object Detection with Discriminatively Trained Part-Based Models共同发表在2010年9月的IEEE Transactions on Pattern Analysis and Machine Interlligence期刊上。
时间如白驹过隙,惊鸿一瞥,四年过去,Ross B Girishick已由当年站在巨人肩膀上的IEEE Student Member成长为了AI行业内独当一面的神级人物,继承了深度学习先驱的意志,在2014年CVPR会议上发表题为Rich Feature Hirarchies for Accurate Object Detection and Semantic Segmentation文章。RCNN,一时无两,天下皆知。
RCNN 的核心思想在于将一个物体检测任务转化为分类任务 ,RCNN的输入为一系列利用selective search算法从图像中抽取的图像块,我们称之为region proposal。经过warping处理,region proposals被标准化到相同的尺寸大小,输入到预先训练好并精细调参的卷积神经网络中,提取CNN特征。得到了每一个proposal的CNN特征后,针对每一个物体类别,训练一个二分类器,判断该proposal是否属于该物体类别。2015年,为了缩短提取每一个proposal的CNN特征的时间,Girishick借鉴了Spatial Pooling Pyramid Network(SPPnet)中的pooling技术,首先利用一整幅图像提取CNN特征图谱,再在这张特征图谱上截取不同的位置的proposal,从而得到不同尺寸的feature proposals,最后将这些feature proposals通过SPPnet标准化到相同的尺寸,进行分类。这种改进,解决了RCNN中每一个proposal都需要进行CNN特征抽取的弊端,一次性在整图上完成特征提取,极大的缩短了模型的运行时间,因而被称作“Fast R-CNN”,同名文章发表于ICCV 2015会议。
2015年,Girishick大神持续发力,定义RPN(region-proposal-network)层,取代传统的region proposal截取算法,将region proposal的截取嵌入深度神经网络中,进一步提高了fast R-CNN的模型效率,因而被称作“Faster R-CNN”,在NIPS2015上Girishick发表了题为“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”的关键文章,完成了RCNN研究领域的三级跳壮举。
随着时代的发展, 科学家们不仅仅是技术的研究者,更是艺术的创造者 。
在人工智能领域的另一位新一代灵魂人物,Ian Goodfellow在2014年提出了Generative Adversarial Net的概念,通过定义一个生成器(generator)和一个判别器(discriminator)来完成图像生成任务。其原理在于生成器的任务是从随机噪声中“创造”出接近目标图像的“假图像”去欺骗判别器,而判别器的任务是去甄别哪一些图像是来自于真实的数据集,哪一些图像是来自于生成器,在生成器和判别器的互相对抗中,通过合理的损失函数设计完成训练,最终模型收敛后,判别器的概率输出为常数05,即一幅图像来自于生成器和真实数据集的概率相同,生成器生成的图像的概率分布无限趋近于真实数据集。
GAN技术成为2015,2016年深度学习研究的热门领域,在图像恢复、降噪、超分辨重建等方向获得了极佳的表现,衍生出一系列诸如WGAN,Info-GAN,DCGAN,Conditional-GAN等技术,引领了一波风潮。
当我们把一帧帧图像串联在一起,变成流动的光影,我们研究的问题就从空间维度上扩展到了时间维度,我们不仅需要关心物体在图像中的位置、类别、轮廓形状、语义信息,我们更要关心图像帧与帧之间的时间关系,去捕捉、识别一个物体的运动,去提取视频的摘要,去分析视频所表达的含义,去考虑除了图像之外的声音、文本标注,去处理一系列的自然语言,我们的研究一步一步,迈向了更广阔的星辰与大海。
图像和视频,都是虚拟的一串串数字,一个个字节,但却让这个世界更加真实 。
1、程度不同
图像处理,用计算机对图像进行分析,以达到所需结果的技术。
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。
2、内容不同
图像处理技术一般包括图像压缩,增强和复原,匹配、描述和识别3个部分。
计算机视觉技术包括图像获取、预处理、特征提取、检测分割、高级处理。
3、应用程度不同
图像处理应用于:摄影及印刷、卫星图像处理、医学图像处理、面孔识别,特征识别、显微图像处理、汽车障碍识别
计算机视觉应用于:视觉是各个应用领域,如制造业、检验、文档分析、医疗诊断,和军事等领域中各种智能/自主系统中不可分割的一部分。由于它的重要性,一些先进国家,例如美国把对计算机视觉的研究列为对经济和科学有广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。
参考资料来源:百度百科-计算机视觉
参考资料来源:百度百科-图像处理
从今天开始,会分享一些视频和图像相关的技术,主要包括视频图像的基本概念,图像的缩放处理,视频压缩编码、视频打包传输和音视频相关同步等相关知识
像素是图像的基本单元,一个个像素就组成了图像,你可以认为像素就是图像中的一个点,那么一张图像中有多少个像素呢,那么接下来就引申出了另外一个非常重要的概念-分辨率
分辨率
图像的分辨率是指图像的尺寸或大小,我们一般用像素个数来表示图像的尺寸,比如说一张 1920x1080 的图像,前者 1920 指的是该图像的宽度方向上有 1920 个像素点,而后者 1080 指的是图像的高度方向上有 1080 个像素点。
视频行业常见的分辨率有 QCIF(176x144)、CIF(352x288)、D1(704x576 或 720x576),还有我们比较熟悉的 360P(640x360)、720P(1280x720)、1080P(1920x1080)、4K(3840x2160)、8K(7680x4320)等。
首先像素就只是一个带有颜色的小块。
其次 图像的分辨率越高,图像就越清晰
准确的来说,第二句话不是那么准确,因为对于原始图像,确实是分辨率越高,图像越清晰,但是我们通常看到的一般是经过后期处理的,比如放大缩小,或者磨皮美颜。经过处理过后的图像,尤其是放大之后的图像,分辨率很高,但是它并没有很清晰
这是因为放大的图像是通过“插值”处理得到的,而插值的像素是使用邻近像素经过插值算法计算得到的,跟实际相机拍摄的像素是不一样的,相当于“脑补”出来的像素值。因此,放大的图像还是会存在偏差,表现出来就是会模糊。我们会在之后的课程中来具体聊聊这个过程是怎么做的。总之,我们不能简单地认为分辨率数值越高的图像就越清晰
刚才我们在前面还提到,像素就是一个带有颜色的小块,那这个小块到底是怎么组成的呢?接下来就说说RGB 图像像素和位深的概念。
位深
一般来说,我们看到的彩色图像中,都有三个通道,这三个通道就是 R、G、B 通道。简单来说就是,彩色图像中的像素是有三个颜色值的,分别是红、绿、蓝三个值。也就是说我们看到的那个带有颜色的块其实是由 R、G、B 三个值组成的(有的时候还会有 Alpha 值,代表透明度,我们这里不展开讨论)。
通常 R、G、B 各占 8 个位,也就是一个字节。8 个位能表示 256 种颜色值,那 3 个通道的话就是 256 的 3 次方个颜色值,总共是 1677 万种颜色。我们称这种图像是 8bit 图像,而这个 8bit 就是位深。我们可以看到,位深越大,我们能够表示的颜色值就越多。因此,图像就可以更精确地展示你拍摄的真实世界。
比如现在有 10bit 图像和 12bit 图像,8bit 图像的每一个像素需要占用 3x8 总共 24 个位,3 个字节,同理 10bit、12bit 就会占用更多。所以,图像的位深越大,需要的存储空间就会越大,传输这张图像使用的流量就会越多。目前我们大多数情况下看到的图像以及视频还是 8bit 位深的。
Stride
接下来我们来看一个特别的概念——Stride。这个 Stride 不是图像本身的属性,但是视频开发者经常会碰到,也是经常会出问题的一个东西。我们团队在工作中就多次遇到过由于客户没有处理好这个东西,从而导致播放的图像出现“花屏”的情况。
Stride 也可以称之为跨距,是图像存储的时候有的一个概念。它指的是图像存储时内存中每行像素所占用的空间。你可能会问,一张图像的分辨率确定了,那一行的像素值不就确定了吗?为什么还需要跨距这个东西呢?其实,为了能够快速读取一行像素,我们一般会对内存中的图像实现内存对齐,比如 16 字节对齐。举个例子,我们现在有一张 RGB 图像,分辨率是 1278x720。
我们将它存储在内存当中,一行像素需要 1278x3=3834 个字节,3834 除以 16 无法整除。因此,没有 16 字节对齐。所以如果需要对齐的话,我们需要在 3834 个字节后面填充 6 个字节,也就是 3840 个字节做 16 字节对齐,这样这幅图像的 Stride 就是 3840 了。如下图所示:
以上就是图像的基本概念,接下来我们来讲讲视频的一些基本概念。前面我们说到,视频是由一系列图像组成的,即“连续”的一帧帧图像就可以组成视频。
但事实上,视频中的图像并不是真正意义上的连续。也就是说,在 1 秒钟之内,图像的数量是有限的。只是当数量达到一定值之后,人的眼睛的灵敏度就察觉不出来了,看起来就是连续的视频了。这个 1 秒钟内图像的数量就是帧率。据研究表明,一般帧率达到 10~12 帧每秒,人眼就会认为是流畅的了。当然,可能会有个体差异。
通常,我们在**院看的**帧率一般是 24fps(帧每秒),监控行业常用 25fps,而我们声网常用的帧率有 15fps、24fps 和 30fps。你可以根据自己的使用场景来具体设定你想使用的帧率值。选择帧率的时候还需要考虑设备处理性能的问题,尤其是实时视频通话场景。帧率高,代表着每秒钟处理的图像数量会很高,从而需要的设备性能就比较高。
如果是含有多个图像处理过程,比如人脸识别、美颜等算法的时候,就更需要考虑帧率大小和设备性能的问题。同样,也要考虑带宽流量的问题。帧率越大,流量也会越多,对带宽的要求也会越高。
码率
我们已经知道,视频的帧率越高,1 秒钟内的图像数据量就会越大。通常我们存储视频的时候需要对图像进行压缩之后再存储,否则视频会非常大。
那么压缩之后的视频一般如何描述它的大小呢?一般对于一个视频文件,我们直接看视频的大小就可以了。但是在实时通信或者直播的时候,视频是视频流的形式,我们怎么衡量呢?这就涉及到我接下来要介绍的概念——码率。
码率是指视频在单位时间内的数据量的大小,一般是 1 秒钟内的数据量,其单位一般是 Kb/s 或者 Mb/s。通常,我们用压缩工具压缩同一个原始视频的时候,码率越高,图像的失真就会越小,视频画面就会越清晰。但同时,码率越高,存储时占用的内存空间就会越大,传输时使用的流量就会越多。
那么同一个原始视频被压缩之后,真的是码率越高,清晰度就越高吗?其实准确来说的话,不是。因为视频的压缩是一个非常复杂的过程,事实上,视频压缩之后的清晰度还跟压缩时选用的压缩算法,以及压缩时使用的压缩速度有关。压缩算法越先进,压缩率就会越高,码率自然就会越小。压缩速度越慢,压缩的时候压缩算法就会越精细,最后压缩率也会有提高,相同的清晰度码率也会更小。所以,并不是码率越高,清晰度就会越高。
类似于把颜色空间分段归类。
下图为一个HSV空间下的例子:
解决量化颜色直方图的稀疏的缺点:只有出现过的颜色才会在直方图里分布,相近的颜色聚在一起。避免出现大量bin的像素数量非常稀疏的情况。
考虑相似但不相同的颜色之间的相似度:(各个“零”之间离的远近:二次式方法)
比如A图有5个像素点,颜色为255;B图有5个像素点,颜色为254,;C图有5个像素点,颜色为260。
先高斯去噪(用高斯函数进行滤波),再用一阶导数获取极值。
高斯去噪的原因:极值对噪声特别敏感。
高斯函数的导数:标准差sigma代表边缘提取的尺度。
对x,y求导:两个峰分辨是横向和纵向分布。
梯度的概念:
图上每一个点都可以求出它的梯度。
X方向高斯梯度着重关注纵向边缘,Y方向高斯梯度着重关注横向边缘。重点看人物左边的那一根柱子就可以确定。
sigma代表了边缘提取的模板的尺度,比如如果边界清晰,sigma可以取得较大;如果边界模糊,sigma需要取得较小。
反过来,sigma越小,提取到的边界越清晰。
Harris角点的理解:
人眼对角点的识别通常是在一个局部的小区域或小窗口完成的。如果在各个方向上移动这个特征的小窗口, 窗口内区域的灰度 发生了较大的变化,那么就认为在窗口内遇到了角点。如果这个特定的窗口在图像各个方向上移动时,窗口内图像的灰度没有发生变化,那么窗口内就不存在角点;如果窗口在某一个方向移动时,窗口内图像的灰度发生了较大的变化,而在另一些方向上没有发生变化,那么,窗口内的图像可能就是一条直线的线段。
图中的变动是指: 小观察窗区域内图像灰度的变动 。
对于图像I(x,y)I(x,y),当在点(x,y)(x,y)处平移(Δx,Δy)(Δx,Δy)后的自相似性,可以通过自相关函数给出:
其中,W(x,y)是以点(x,y)为中心的窗口,w(u,v)为加权函数,它既可是常数,也可以是高斯加权函数。
判断Harris角点的方法:
计算并比较特征值。
计算Harris角点的步骤:
举例说明:计算Harris角点的响应值——>阈值化——>获取局部最大值点(左下图中标红点的部分)
FAST角点的概念:
求FAST角点的具体步骤:
斑点又称为拉普拉斯梯度,其定义以及算法如下:
高斯滤波的二阶导数:
高斯算子中sigma对斑点识别的影响:
斑点是什么:边界包围的部分就是斑点,如下图:
大小、方向、明暗不能作为特征描述子。
特征点的应用:
其实不够快,因此在SIFT之后产生了SURF和ORB。
这边只列一些基本的概念吧。
DoG是高斯差分空间。LoG高斯拉普拉斯尺度空间和DoG之间有一个转换关系,为了计算方便我们通常用拉普拉斯空间来替代高斯差分空间。
关键点描述子生成的解释:
(1)找到关键点;
(2)在其附近划一块区域,然后把这块区域转化成一个由梯度所描述的高维向量(即:用合理的特征来描述),以代表这个点周围的所有信息。
LoG:先进行高斯平滑,再进行拉普拉斯滤波以发现边缘和斑块。
拉普拉斯二阶求偏导,运算量很大:用差分代替微分。见下图最下面两张图:左边代表了差分,右边两条曲线是差分和微分的结果对比。
参考文献:
Harrris角点部分参考:>
常用的数据获取方式有:
1、公开信息及整理
比如统计局的数据、公司自己发布的年报、其他市场机构的研究报告、或者根据公开的零散信息整理;
2、购买的数据库
市场上有很多产品化的数据库,比如Bloomberg、OneSource、Wind等等,这个一般是以公司的名义买入口,不光咨询公司还有很多高等院校及研究机构也买了;
3、自己的数据库
自己维护的数据库有,但是比较少,一是专业的数据公司差不多能想到的都做了,二是自己做数据库其实是一件很麻烦的事情。在有些数据是外界无法得到的情况下有可能自己维护一个小型的数据库;
4、咨询行业专家
当然是有偿的,这个在项目中应该蛮常见的。有些行业专家会专门收集和销售数据,想要的基本能买到。
5、发问卷
有时候为了单独的项目也会收集很特别的数据,如果外界实在没有但是项目上没有不行就只有自己做了,比如自己发发问卷之类的,但是这类数据需求要控制工作量,因为除非数据本身是交付内容之一,要不然不能为了个中间件花费太多时间和精力;
6、客户
有些数据就是来源于客户,甚至是咨询公司的产品。举个例子,比如HR咨询公司的行业工资数据、四大的一些数据库等等,这些数据的采集需要比较强的专业性或者时间积累,很大一部分是通过调查客户的HR收集来的数据进行统计的。
以上就是关于图像的获取包括那些步骤各个步骤有会影响图像的那些参数全部的内容,包括:图像的获取包括那些步骤各个步骤有会影响图像的那些参数、图像简史——程序员眼中的图像发展史、图像处理和计算机视觉的区别等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)