
1 信息素养或素质的具体内容要求有哪些?
信息素养一词最早来源于美国,简单地讲信息素养即通过教育所培养的在信息社会中对信息资源的获取、加工、处理以及信息工具的掌握和使用等的能力。1998年美国制定了学生学习的九大信息素养标准,包括:能够有效地和高效地获取信息;能够熟练地、批判地评价信息;能够精确地、创造性地使用信息;能探求与个人兴趣有关的信息;能欣赏作品和其他对信息进行创造性表达的内容;能力争在信息查询和知识创新中做到最好;能认识信息对民主化社会的重要性;能履行与信息和信息技术相关的符合伦理道德的行为规范;能积极参与活动来探求和创新信息。综上所述,完整的信息素养应包括三个层面:文化素养(知识层面)、信息意识(意识层面)、信息技术(技术层面)。
2 信息、知识、情报、文献的概念?文献的组成要素?
信息包含了知识、文献和情报。是一个从低级到高级的信息集合。
知识是人类对各种信息认识和加工形成的精神产品,是人的大脑对大量信息通过思维重新认识
情报是指被传递的知识或事实,是知识的激活,是运用一定的媒体(载体),越过空间和时间传递给特定用户,解决科研,生产中的具体问题所需要的特定知识和信息.
情报应具有3个基本属性:一是知识或信息;二是要经过传递;三是要经过用户使用产生效益.情报不仅取决于情报源,也取决于情报用户.
文献是用文字、图形、符号、声频、视频等技术手段记录人类知识的一种载体,或理解为固化在一定物质载体上的知识。现在通常理解为图书、期刊等各种出版物的总和。文献是记录、积累、传播和继承知识的最有效手段,是人类社会活动中获取情报的最基本、最主要的来源,也是交流传播情报的最基本手段。
文献的构成要素应包括:知识性内容,文献符号系统,文献记录方式,文献载体,这些要素之间相互联系,相互促进
3 信息、信息资源有哪些类型?
信息的类型:
从产生信息的客体的性质来分,可分为自然信息(瞬时发生的声、光、热、电、形形色色的天气变化、缓慢的地壳运动、天体演化……)、生物信息(生物为繁衍生存而表现出来的各种形态和行为,如遗传信息、生物体内信息交流、动物种群内的信息交流)、机器信息(自动控制系统)和(人类)社会信息。
信息资源的类型:
按文献信息的载体材料和制作方式划分:
(1) 印刷型
(2) 缩微型
(3) 声像型(视听型)
(4) 电子型(机读型)
以撰写的目的和文体划分:
文献信息资源以撰写的目的和文体划分,主要可分为著作、学术论文、专利说明书、科技报告、技术标准、科技档案、产品资料。其中信息含量、学术价值和使用频率较高的为前五种。
按文献信息的产生秩序与整理加工深度划分:
文献信息资源按其信息加工深度划分,可分为零次文献信息、一次文献信息、二次文献信息、三次文献信息和高次文献信息。
根据出版形式和内容公开程度划分:
文献可划分为白色文献、灰色文献、黑色文献三种类型
4 文献有哪些类型?将文献分成这些类型的依据是什么?
根据划分标准的不同,文献有多种分类方式。
按文献的编辑方法和出版特点划分:
1.图书
2.期刊
3.特种文献资料
特种文献资料主要包括以下几种类型:
(1)科技报告
(2)政府出版物
(3)会议文献
(4)学位论文
(5)专利文献
(6)标准文献
(7)产品样本
4.其他零散资料
按文献载体形式划分:
1.印刷型文献
2.缩微型文献
3.视听型文献
4.机读型文献
按文献加工层次分:
1.一次文献
2.二次文献
3.三次文献
5 数据库的类型?网络资源有哪些特点?
数据库有类型之分,是根据数据模型划分的。目前成熟地应用在数据库系统中的数据模型有:层次模型、网壮模型和关系模型。
另:
模糊数据库
指能够处理模糊数据的数据库。一般的数据库都是以二直逻辑和精确的数据工具为基础的,不能表示许多模糊不清的
事情。随着模糊数学理论体系的建立,人们可以用数量来描述模糊事件并能进行模糊运算。这样就可以把不完全性、不确定性、模糊性引入数据库系统中,从而形成模糊数据库。模糊数据库研究主要有两方面,首先是如何在数据库中存放模糊数据;其次是定义各种运算建立模糊数据上的函数。模糊数的表示主要有模糊区间数、模糊中心数、模糊集合数和隶属函数等。
统计数据库
管理统计数据的数据库系统。这类数据库包含有大量的数据记录,但其目的是向用户提供各种统计汇总信息,而不是提供单个记录的信息。
网状数据库
处理以记录类型为结点的网状数据模型的数据库。处理方法是将网状结构分解成若干棵二级树结构,称为系。系类型
是二个或二个以上的记录类型之间联系的一种描述。在一个系类型中,有一个记录类型处于主导地位,称为系主记录类
型,其它称为成员记录类型。系主和成员之间的联系是一对多的联系。网状数据库的代表是DBTG系统。1969年美国的
CODASYL组织提出了一份“DBTG报告”,以后,根据DBTG报告实现的系统一般称 为DBTG系统。现有的网状数据库系统大都是采用DBTG方案的。DBTG系统是典型的三级结构体系:子模式、模式、存储模式。相应的数据定义语言分别称为子模式定义语言SSDDL,模式定义语言SDDL,设备介质控制语言DMCL。另外还有数据 *** 纵语言DML。
演绎数据库
是指具有演绎推理能力的数据库。一般地,它用一个数据库管理系统和一个规则管理系统来实现。将推理用的事实数据存放在数据库中,称为外延数据库;用逻辑规则定义要导出的事实,称为内涵数据库。主要研究内容为,如何有效地计
算逻辑规则推理。具体为:递归查询的优化、规则的一致性维护等。
网络学术信息资源的特点:
1内容极为丰富。
网上的学术信息资源覆盖面广,涵盖了各个学科领域;信息种类繁多,正式出版的,非正式出版的,学术机构提供的、个人提供的都交织在一起。当然,着其中既有有价值的信息,又有很多有意义的信息。
2 整体分布混乱
由于网上信息没有统一的管理机构,也没有统一的发布标准,且变化、更迭、新生、消亡等都时有发生,难以控制。这就造成了网络学术资源在某个局部范围内是有序的,而资源的整体分布较为分散、无序,甚至呈混乱状态。
3信息动态变化
网络是一个巨大的动态系统,不仅信息分散无序,且经常更替,每天都有新的网站出现,又有网站撤消或重组,并且每个网站自身的链接地址、栏目设置也经常变动。
4网络信息时效性强
网络信息的发布压缩了传统文献的编辑、出版和发行等环节,有的甚至完全在网上发行,实现了作者与编辑不受时空限制的即时交流,大大缩短了信息编辑出版的时间,使得信息具有较强的时效性。
5检索快捷迅速
6 何为“核心期刊”?本专业的核心期刊有哪些?
核心期刊是期刊中学术水平较高的刊物,是我国学术评价体系的一个重要组成部分它主要体现在学术水平的确认方面如在相当一批教学科研单位。申请高级职称,取得博士论文答辩资格,申报科研项目,科研机构或高等院校学术水平评估,教师,工作人员完成的工作量等,前提条件之一就是在一定时间段内,在核心期刊上发表若干篇论文分为国家级\省级\市级等等级别。
材料成型专业的核心期刊有:
金属热处理、金属成形工艺、模具工业、北方论丛、热加工工艺、模具工业、特种铸造及有色合金、工程塑料应用、锻压技术、铸造技术、特色铸造及有色合金、轻合金加工技术、铸造、铸造技术、材料研究学报、热加工工艺、机械工程材料、兵器材料科学与工程、汽车技术、中国塑料、工程塑料应用、机床与液压、锻压装备与制造技术、中国塑料、现代制造工程、工程塑料应用、现代制造工程、锻压机械、微物电机、新技术新工艺、微特电机、重庆大学学报(自然科学版)、重庆大学学报(自然科学版)、武汉理工大学学报、塑性工程学报
7 什么是信息检索?信息检索的类型有哪些
信息检索是指将信息按一定方式组织和存贮起来,并针对用户的需求找出所需信息的过程,又称为“信息存贮与检索”。
信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。
类型:
(一)按检索内容划分
1、书目检索
2、数据检索
3、事实检索
4、全文检索
5、图像检索
6、多媒体检索
(二)按是否使用检索工具划分
1、直接检索
2、间接检索
(三)按信息检索手段划分
1、传统信息检索
2、现代信息检索
8 简述信息检索的原理。
信息检索的基本原理是:通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。其中存储是为了检索,而检索又必须先进行存储。
另
信息检索的基本原理可从文献的替代、整序和标识的匹配三方面来讲述。
1.文献的替代
2.文献的整序
3 文献特征标识与检索提问标识的匹配
而所谓信息检索原理,简单地讲,就是检索提问标志与存储在检索工具中的文献特征标志进行比较或称匹配,然后提取相符合的文献信息的检索方法。
9 什么是计算机信息检索系统,它由几部分组成?
计算机信息检索系统:利用计算机系统有效存储和快速查找的能力发展起来的一种计算机应用技术。它与信息的构造、分析、组织、存储和传播有关。计算机信息检索系统是信息检索所用的硬件资源、系统软件和检索软件的总合。它能存储大量的信息,并对信息条目(有特定逻辑含义的基本信息单位)进行分类、编目或编制索引。它可以根据用户要求从已存储的信息集合中抽取出特定的信息,并提供插入、修改和删除某些信息的能力。
计算机信息检索系统的组成,从物理构成来讲、检索系统由硬件、软件、数据库三部分组成
10 计算机信息检索技术有哪些?
布尔逻辑检索
截词检索
邻近检索
字段限制检索
模糊检索
1、根据教材,我们常见的文献信息的出版、发布及外在表现形式特征,可以把文献资源归结为11大类,分别是:图书、报刊、科技报告、会议资料、政府出版物、毕业论文、标准资料、产品样本、专利文献、档案材料、网络文本2、EBSCOhost数据库系统不论是在基本检索界面还是在高级检索界面,除了最基本的关键词检索功能外,还针对每一特定数据库提供了主题检索、期刊检索、公司名录、检索等检索方式。3、学术侵权主要包括的情形有:剽窃、不正当署名、一稿多投4、提高查全率的技巧通常包括:(1)使用“全文”等相关度低的检索入口(字段)进行检索(2)使用“同义词”和“近义词”(3)使用“模糊检索”和“截词检索”(4)利用文后的参考文献进行检索。5、利用《中国期刊网》检索到论文,如果要阅读全文必须下载并安装CAJ浏览器。6、查找浙江大学2009年申请的专利文献可以通过国家知识产权局专利检索系统来实现。7、信息素质的内涵实际包含了三方面的内容:信息意识信息能力、信息道德8、事实型数据库中,法律和商业金融类占多数。9、学位论文数据库,由于收录的内容都是已经通过论文答辩后的硕士、博士学位论文,其内容具有专业性强、学术水平高、内容相对可靠且详实具体、参考文献丰富、信息量大、多涉及最新研究领域和成果的特点。10、学术论文的主要表现形式有学术性论文、技术性论文、学位论文及其它(综述、述评、可行性报告)等。11、万方资源系统的浏览器是PDF浏览器,中国期刊网可使CAJ或PDF浏览器。12、根据我国《专利法》的规定,中国专利分为发明专利、实用新型专利、外观设计专利3种类型。14、利用《超星数字图书馆》检索到图书,如果要阅读全文必须下载并安装超星浏览器。15、三次文献是指对一次文献和二次文献的内容进行综合分析、系统整理、高度浓缩等深加工后而形成的文献。如综述、述评、词典、百科全书(至少写出三种)年鉴、指南等。16、《中图法》将图书划分为“A马列主义、毛泽东思想,B哲学,C-K社会科学,N-T自然科学,Z综合性图书”五大部类,共32个基本大类。17、常用的书目检索途径有题名、作者、分类号、主题词、ISSN/ISBN等。18、当检索结果信息量过多时,优化检索结果的方法有:缩小检索范围、选择合适的检索系统等。19、查“防腐蚀技术”方面图书,一般可以通过“分类检索”途径来进行检索。20、常用国内期刊全文数据库有《中国期刊全文数据库》、《中文科技期刊数据库》、《人大复印报刊资料数据库》等。21、《CALIS公共目录检索系统》主要可以提供查询书目数据共享服务信息。22、常用布尔算符有AND、OR、NOT等,当采用同义词进行检索时应当选用的算符是OR23、三次文献是指对一次文献和二次文献的内容进行综合分析、系统整理、高度浓缩、综述评价等深加工后而形成的文献。如字典、词典、手册、综述、述评、百科全书、年鉴、指南(数据库)等等。24、利用文献末尾所附的参考文献为线索,查找原始文献的检索方法是引文法25、根据我国国家标准,文献是记录有知识的一切载体26、增加限制性概念,采用逻辑“与”连接检索词是缩小检索范围的有效方法。而选上位词或全同义词与相关词、并用逻辑“或”将它们连接起来则是提高查全率的有效方法。27、学术论文的主体部分主要由前言、正文、参考文献、致谢(附录)等组成28、提高检索效果的三大举措是:提高检索人员素质、优选检索工具和数据库、优化检索策略与步骤29、相对于文献信息数据库,事实型数据库具有更强的实用性,涉及面广,查准率高,检索结果往往只是单一记录。30、一篇完整的学术论文包含参考文献部分,著录文后参考文献的主要作用是对前人成果继承的反映,是尊重他人著作权的标志,是真实反映论文中某些论点、数据、资料来龙去脉的一句,是向读者准确地提供检索信息资源的线索31、根据国家标准的规定,学术论文主要由前置部分、主体部分组成。32、专利就是在一定时空范围内受国家专利法保护的申请人在一定时间内对其发明创造成果所享有的独占、使用和处分的权利33、参考文献的记录形式一般有三种情形:夹注、脚注、尾注34、《中文科技期刊数据库》的传统检索功能,为我们选取恰当的检索词及准确的作者信息提供了方便。35、当检索结果过多、过泛的时候,我们可以采取(1)使用高相关度的检索入口(字段)进行检索;(2)使用限制检索;(3)反复使用“二次检索”(AND);(4)使用精确检索等三种以上的检索技术来精确检索结果。36、学术论文应提供新的科技信息,其内容应有所发现、有所发明、有所创造、有所前进,而不是重复、模仿、抄袭前人的工作38、Web20主要包括有:①博客(Blog)②移动博客(mblog)③播客(podcasting/podcast),④社会化标签(Tag),⑤内容聚合(RSS、Atom),⑥对等互联网(P2P),⑦维基(Wiki),⑧阿贾克斯(Ajax),⑨WEB服务,⑩社会化网络软件(SNS)40、对于一些阅读频率较高的图书,在超星数字图像站点中可以添加个人书鉴以方便快速找到特定的页面。41、通过检索数据库“方正Apabi”可以查到杭州解放的具体时间。43、在搜索引擎中,检索词上加双引号,检索结果相当于精确匹配检索44、在数据库检索中,要想精确检索结果,可以采用的主要方法有:1使用高相关度的检索(入口进行检索),2使用限制检索3反复使用“二次”检索4使用精确检索45、科研课题立项信息检索(也叫科技查新),是国家科技部为避免科研课题重复立项和客观正确地判别科研成果的新颖性47、当检索结果过少时,我们可以采取(1)使用“全文”的相关程度低的检索入口(字段)进行检索;(2)使用“同义词”和“近义词”;(3)使用“模糊检索”和“截词检索”;(4)利用文后的参考文献进行检索等多种检索技术来调整检索策略。49、文献综述一般由前言、正文、结语和参考文献构成,每一部分都有独特的写作要求和方法。50、论文的创作与发,实际上集中地表现了一个人的科学研究、写作水平、信息素质等多方面的能力和水准。51、如果采用学科分类途径进行检索,那么我们必须在检索前知道检索目标的学科范围52、查找原文总的原则是方便获得。即首先应该在本校范围内查找,若没有再在全国乃至世界范围内查找。54、我国专利法规定:发明专利的保护期为20年,实用新型专利和外观设计专利保护期为10年。56、WebofKnowledge是一个综合性数据库系统服务平台。目前该系统的普通检索为用户提供了多个检索途径(字段),它们是主题词检索、篇名、作者姓名、团体作者、来源出版物名称、出版年、作者单位或地址、语种、文献类型57、开放获取资源出版的形式有:开放存取期刊、学科仓储、机构仓储、合作与竞争性电子出版资源、开放存取仓储搜索以及其他开放存取资源等,而其中OA期刊和OA仓储是主要的两种出版形式。58、一用户在某个数据库中检索到了50篇文献,查准率和查全率分别为40%、80%,则全部相关文档有100篇。59、信息污染危害人类信息环境,影响人们对有效信息及时而正常的吸收和利用,信息污染主要包括陈旧信息、重复信息、干扰信息、虚假信息、错误信息、有害信息60、文献综述的内容具有以下特点:语言的概括、信息的浓缩、评述的客观61、学术侵权是指违反我国著作权法规定,侵犯他人著作权的行为,通常表现在违背学术规范,抄袭、剽窃他人学术论著、学术思想、学术观点,其主要的行为方式有不适当地引用他人论著、不正当署名、一稿多投等。62、为了便于读者从期刊来源、期刊学科分布、期刊出版发行动态、期刊重要程度等不同的角度进行了解期刊情况,《中国期刊全文数据库》提供了多种导航,它们是专辑导航、数据库刊源导航、刊期导航、出版地导航、主单位导航、发行系统导航、期刊荣誉榜导航、世纪期刊导航、核心期刊导航63、EBSCOhost的Images\图像检索提供类型有人物照片、自然科学照片、地方风景照片、历史照片、地图、标志64、开放获取资源出版形式中OA期刊和OA仓储是主要的两种。其中OA期刊是指以电子文献形式通过网络出版的期刊;OA仓储是指某组织(如研究机构、学校、校会)将用于共享的学术信息存放在服务器中供用户免费访问和使用66、文献信息的社会传播渠道有以下三种基本形式:人际传播、组织传播、大众传播67、我国专利法所规定的授予专利权的条件是:授予专利权的发明和实用新型、应当具备新颖性、创造性和实用性68、Elsevier全文电子期刊数据库中的检索字段Affiliation的代表的是什么检索途径作者单位,同样的检索途径在WebofScience中用的是什么检索字段?Address70、目前国内比较有影响的学位论文数据库有万方公司编制的《中国学位论文全文数据库》、清华同方公司编制的《中国博士学位论文全文数据库》、《中国优秀硕士学位论文全文数据库》71、搜索引擎按其搜索收录内容可分为综合型和专题型两大类,其中前一类是指:搜索各种主题、类型资源的搜索引擎后一类是指:专门用来检索某一主题范围或某一类型资源的72、我国专利法规定:专利说明书所描述的技术实质内容,要做到该技术领域的一般技术人员因为学习和研究的缘故,经过阅读、分析、领会,基本可以在实验室等场合下进行复制完成73、一次文献是指作者以本人的生产实践、学术研究与科技工作成果为依据,进行创作、撰写而形成的文献。如期刊论文、科技报告、会议论文、专利说明书及各种专著等等。74、国际公认的三大检索系统是:SCI、EI工程索引、ISIProceedings
全局视觉定位
1 引言
自主机器人是机器人研究的重点方向,定位和导航是自主机器人研究的核心问题。机器人在执行任务过程中需要确定自身当前位置,根据目标位置和当前位置之间的关系计算如何到达目的地完成任务,其中前者要解决的是自定位问题,后者是导航问题,本文主要研究前者。基于视觉的定位技术还能帮助盲人、视弱以至普通人确定自身位置。 环境模型是定位的基础。基于模型的定位方法包括基于环境三维模型和基于拓扑地图的定位方法。环境三维模型的建模过程非常复杂,特别是在室外的场景中建模可能遇到极大的困难。拓扑定位用图的形式来表示环境模型,其中图中的节点表示环境中的地点,连接节点的边表示地点之间的联系,拓扑定位目的是确定机器人当前的位置与地图中的哪个节点最近,也就是机器人处于哪个地点。
在无人驾驶中,感知、定位、规划决策、控制是四个基本的系统模块。由于当前算法还无法实现绝对的智能,因此依然需要大量的先验知识来提高模块性能、鲁棒性,以实现安全的自动驾驶。其中,高精地图是对道路及周边环境先验知识的集成。而建立在地图之上的准确定位,是判断行车状况的重要依据,为后续的感知、规划决策提供有力支撑。
用于定位的主要数据源目前主要有 GPS、激光雷达、视觉、毫米波雷达。对于视觉而言,虽然目前还没有一套产业内公认的足够可靠的定位方案,但是在这方面探索从未停止过,主要原因如下:
安全性是无人驾驶系统最重要的指标,因此大部分功能的实现,都是多源数据、不同算法结果的耦合。没有哪种传感器方案是完美的,比如 GPS RTK 作为广泛使用的方案,容易受卫星状况、天气状况、 数据链传输状况影响,在隧道内、室内和高楼密集区无法使用。再者,激光雷达虽然具有运算量小,提供深度信息,不受光照影响等优点,但信息稀疏,造价目前还十分昂贵,还不具备大批量车辆装配能力。相比较而言,摄像头提供的视觉信息,虽然会受到光照、天气影响,但是成本低,内容丰富,是目前辅助驾驶方案主要数据源,在地图定位方面也具有很大潜力。
由于主流基于视觉定位算法的核心思想一脉相承,所以本文仅从一系列重要算法框架组件角度,介绍了目前实践中最常用的、基于特征点的全局定位算法,即在地图坐标系下进行定位。本文省略了其中涉及到的优化、几何约束公式推导,旨在给同学们一个定位算法的宏观介绍,具体细节可以参考相关文献和书籍。
2 基于特征点的全局定位算法视觉全局定位,指的是根据当前图像,求出相机在地图坐标系中的 6 个自由度 (Degree of freedom, DoF) 位姿 (Pose) , 即 (x, y, z) 坐标,以及环绕三个坐标轴的角度偏转 (yaw, pitch, roll) 。目前主要可以分类为基于 3D 结构的方法、基于 2D 图像的方法、基于序列图像的方法、基于深度学习的方法。其中,基于深度学习的方法属于端到端 (End-to-end) 的方法,而其它多阶段 (Multi-stage) 非端到端方法虽然流程有所差别,但算法思路大都如 Fig 1 所示:
Figure 1: 根据查询图像,计算 2D-3D 转换矩阵,求解相机位姿
基于已建的地图,匹配历史中最相似的地图子集(图像/点云/特征点),根据匹配到的地图子集所提供的历史位姿真值、特征点坐标真值,计算点对间的变换矩阵,求解当前相机位姿。
所以,其核心包含图像描述、建图查询、特征匹配,位姿计算四个方面。这里仅仅是技术层面的宏观分类,实际算法框架不一定按照此顺序执行,而学者在研究中主要针对这些技术进行改进。整体而言,基于特征点的图像描述基本成熟,发展较少。而位姿计算由于是基于几何约束的优化问题,所以方法也较为固定。相对地,建图查询和特征匹配中改进技术较多。根据数据源不同,建图查询、匹配可以是2D-2D,2D-3D,3D-3D。2D 图像由相机得到,3D 点云可以由提供深度的双目相机、RGB-D 相机产生。
21 特征点提取
2D 图像本身是一个由亮度、色彩组成的矩阵,对视角、光照、色调变化等很敏感,直接使用十分困难。所以,一般会使用具有代表性的点进行相关计算。人们希望这样的点具有旋转、平移、尺度、光照不变性等优点。这些点称为图像的特征 (Feature) 点,包含关键点(Key-points) 和描述子 (Descriptor) 两部分。关键点表达了特征点的位置,而描述子则是对于特征点视觉特性的描述,大多为向量形式。一般而言,描述子主要是以某种模式,统计关键点周围的灰度/色彩梯度变化。一种鲁棒的描述子,在不同图像 的不同情况下,同一特征点的描述子的距离 (Distance) 应当较小。
描述子一般是人为手工设计的 (Hand-crafted features) 。经典的描述如 HOG(Histogram of oriented gradients)[1],SIFT(Scale-invariant feature transform)[2],SURF(Speeded up robust features)[3],AKAZE(Accelerated KAZE)[4] 等。
为了实时性的要求,一些计算速度更快的二值模式描述子被设计出来,如 LBP(Local binary patterns)[5],BRIEF(Binary robust independent elementary features),ORB(Oriented FAST and rotated BRIEF)[6],BRISK(Binary robust invariant scalable key-point)[7],FREAK(Fast retina key-point)[8] 等。
在深度学习流行之前,这些手工特征一直引领着整个计算视觉产业,直到今天,这些特征在那些缺少标注数据、约束较多的场景下,依然被广泛应用。下面简单介绍两类常用的描述子。
211 SIFTSIFT 描述子可以算是 CV 界最具影响力的技术之一。从关键点检测层面,主要使用高斯差分 (Difference of Gaussian, DoG) 方法检测多尺度空间上的极值点,作为关键点。而 Babaud 等人 [9] 证明了高斯平滑是唯一的能用多尺度空间平滑滤波核,为相关方法提供了充足的理论支持。
那么为什么这样的方法可以找到特征关键点呢
由于高斯核可以通过模糊的方式把图像缩放到不同尺度空间,而梯度变化较小的平滑区域在不同尺度空间的值差距较小。相反,边缘、点、角、纹理等区域则差距较大。这样通过对相邻尺度的图像做差分,最终可以算得多尺度空间的极值点。但是,不同的图像细节本身就处于不同的尺度中。比如一副人物画像中,人脸可能经过较小的模糊就会被平滑为一片,而画框的角则可能需要更大尺度的平滑才会体现出局部“极值”。
因此,如 Fig 2 所示,首先利用图像金字塔将图像先分组 (Octave) ,每组中再使用不同尺度的高斯核,形成一系列的层。这种方式比单纯地使用更多尺度的高斯核效果更好,可以检测到更多的特征点。需要注意的是,虽然 SIFT 使用了 DoG 进行关键点检测,但是其它检测方法也是可行的,并不影响 SIFT 描述子的建立。
Figure 2: 高斯差分方法
SIFT 特征点的描述子,可以理解为一种简单统计版的 HOG。如 Fig 3所示,以检测到的关键点为中心,选取周围 16 × 16 的区域,将区域再组织为 4 个 4 × 4 的块(Patch)。对每一个块,使用 8-bins 的直方图对梯度进行统计,梯度方向决定落入哪个 bin,而梯度的模决定值的大小。为了保证尺度一致性,梯度大小需要进行归一化。为了保证旋转不变性,会根据 16 × 16 的区域内的所有梯度计算出一个主方向, 所有梯度按照主方向进行旋转。最终形成 4 × 4 × 8 的 128 维向量。
Figure 3: 基于梯度分块统计的 SIFT 描述子
212 二值描述子虽然在 SIFT 提出后,又产生了一些改进算法如 SURF、AKAZE 等,但是即使放在 2019 年的今天, 依然难以保证一些场景对算法实时性的要求。例如,手持设备一般算力有限。而无人驾驶中,CPU、GPU资源需要被多个计算密集型模块同时调度。因此,效率是考察算法实用性的重要指标。
为了提高效率,一些二值描述子被学者们提出。一般地,这些方法都是在特征关键点周围进行点采 样。然后比较一对点的灰度大小,结果以 0/1 表示,形成 N 维的二进制描述向量,构成特征点的二值模式。而不同二值描述子最大的差别,主要在于特征采样模式不同、点对选取方法不同。
Figure 4: LBP 描述子采样模式
如 Fig 4所示,LBP 描述子采用对关键点周围,进行环形采样,并与中心关键点的灰度进行比较的方案。圆环上展示了灰度比较结果,黑色的点是 0,白色的点是 1。LBP 是二值描述子最简单的形式,而 ORB 改进了 BRIEF 特征,是目前比较常用的二值描述子。如 Fig 5所示,在点对选取上,与单纯使用中心点不同,ORB 采用了随机的方式,更全面地描述局部细节。但点对的相关性会比较大,从而降低描述子的判别性(Discriminative)。ORB 直接采用了贪婪法、穷举法解决这一问题,寻找相关性低的随机点对。
Figure 5: ORB 描述子点对选取模式
以上二值描述子的采样方式和点对选取方式符合人们一般直觉,而 BRISK、FREAK 等描述子则提供了更加规则化、自带尺度信息的二值模式构建方法。例如,FREAK 描述子模仿了人眼的视觉采样模式。如 Fig 6所示,每个采样点的值是红色圆圈范围内的灰度均值,蓝线则表示点对选取方案。
Figure 6: FREAK 描述子采样、点对选取摸式
二值描述子的高效率,主要体现在三个方面。
(1)二值描述子使用二进制向量作为特征描述,只需要 比较点对大小而不需要计算具体梯度。(2)两个描述子之间比较可以使用计算更快,更容易优化的汉明距离 (Hamming distance)。(3)由于每个二进制向量都对应一个十进制数,所以其本身也代了表一种模 式,而不需要像 SIFT 一样使用直方图进行表示。
二值描述子一般判别性不如 SIFT 家族描述子,但在特定场景下,配合并行化编程,可以在保证相似判别能力的同时,效率高出几十甚至百倍。
22 数据库建立与查询数据库可以理解为于地图 + 索引的集成。地图可以是由单纯的 2D 图像组成,也可以是由 3D 点云地图组成,也可以是 2D 图像和 3D 点云的结合。3D 点云地图生成主要使用三维重建的方法 SfM(Structure from motion),从时间序列的 2D 图像中推算 3D 信息。如果有双目、RGB-D 相机提供深度,可以获得 更准确的 3D 点信息。其中也包含了一些诸如关键帧(Key-frame)的选取策略,具体方法超出了本文的讨论范围,有兴趣的同学可以自行查阅相关资料。数据库的作用在于:
对于一张输入的观测图像,通过数据库,查询建图历史(图像/点云/特征点),得到当前图像最可能观测到的地图子集(图像/点云/特征点),将地图与观测信息进行匹配,计算变换矩阵,得到观测相机的位姿。
索引则是加速这一过程的关键。数据库本身往往是巨大的。以美团的小袋机器人在北京朝阳大悦城二层试运营为例,安装有 3 个深度相机,即使经过筛选,也使用了将近 8 万张 900 × 600 的。考虑到定位所需要的实时性,查询时不可能每次都和 8 万张一一对比,所以要使用索引技术加速整个算法。这方面技术与 SLAM 中的回环测试,视觉中的图像检索、位置识别等高度重合,以下仅介绍一般方法。
一张图像内有若干特征点,需要先对特征点进行编码,如 VLAD(Vector of locally aggregated descriptors) 编码,用局部描述子形成图像的全局描述。再使用索引,如 kd-tree,进行图像级查询。当然,编码和索引也可以同时进行,如层次化词袋模型(Bag-of-words,BoW)+ 正向索引 + 逆向索引的方法。
221 VLAD 编码VLAD(Vector of locally aggregated descriptors)[10],如 Fig 7所示,是一种通过聚合局部描述子形成码本 (Codebook) ,通过累加计算描述子与码词 (Word) 的距离,进行全局编码的简单方法。一个 d 维描述子 x 通过 k 个码词的码本进行编码,可以形成一个 dk 维的描述向量,向量中的值是描述子与第
k个码词在第 d 维的差。之后进行 L2 归一化,形成最后的 VLAD 向量。
Figure 7: VLAD 通过描述子与码词的距离进行编码
这里要特别提介绍一下 DenseVLAD[11] 和 NetVLAD[12] 。Torii 等人证明,DenseSIFT 在查询、匹配上都优于标准 SIFT。DenseVLAD 在四个尺度,以 2 个像素间隔的网格状采样模式,提取 SIFT 点。在全局随机采样 25M 个描述子,用 k-means 算法生成 128 个码词的码本。VLAD 向量在归一化后使用 PCA(Principal component analysis) 降维,形成最后 4096 维的 DenseVLAD 向量。如 Fig 8所示,使用DenseSIFT 匹配后的内点(绿)数量更多。
Figure 8: DenseSIFT 和标准 SIFT 特征点,匹配后内点(绿)对比
而 NetVLAD,将 VLAD 中加入了监督信息,加强 VLAD 编码的判别性。如 Fig 9所示,假设红、绿两个描述子来源于不应匹配到一起的两张。由于它们都离 VLAD 中心(×)半径较大且距离相似,经过 L2 归一化,它们编码后值也会很相似。而加入了红、绿描述子所对应不匹配的监督信息后,NetVLAD 生成的中心点(★)则可以更好地区分两个描述子,增加他们编码后的距离(半径)差。
Figure 9: NetVLAD 聚类中心(×)与 VLAD 聚类中心(★)对比。
222 BoW 编码 + 索引基于词袋模型 BoW[13, 14] 的特征编码及其设计思想在计算机视觉发展中具有举足轻重的地位,这里不再展开介绍。本文以 2D 查询图像匹配 2D 图像数据库为例,介绍一种常见的 BoW 编码、索引一体化的模型。如 Fig 10所示,词典 (Vocabulary) 生成采用层次化方法,对于数据集中的所有描述子,按树状结构进行空间划分,每一层都是由 k-means 聚类计算。最终叶子节点就相当于码词(Fig 10中有 9个码词)。
Figure 10: 带正向索引、逆向索引的层次化 BoW 模型
树的构造过程,实际上就是将原始图像编码的过程。但是编码本身并不能加快搜索过程,与 VLAD 相似,还是需要与数据库中的图像逐一比较。因此,这里设计了一种逆向索引(Inverse index) ,不需要比较编码后的向量。其原理如 Fig 11所示,对于一张查询图像 (Query image) ,将提取的描述子输入到 BoW 中,最终会落入码词叶子结点 (Visual word) k 中。而每个码词对应一个索引,记录码词 k
对于数据库中第 i
张图的权重
(Fig10)。这里权重使用 TF-IDF(Term frequency–inverse document frequency) 计算。即如果一个词 k
在某个图像 i
中出现频率高,在其它图像出现频率低,则这个词对于图像判别性较好,权重值
较高。最终通过投票 (Voting) 机制,选出匹配图像。同样需要注意的是,逆向索引不一定建立在树形结构的 BoW 上,它仅仅是提供一种快速查询的方法。
Figure 11: 通过逆向索引 + 投票机制,直接查询图像
而正向索引 (Direct Index) 的作用主要是记录构造 BoW 时,数据库的特征点都落入了哪些结点中,这样当查询到图像后,不需要计算特征点,可以直接通过索引提取特征点。
223 3D 点云查询2D 图像查询中,是先从语意层面查询图像,因此可以通过图像对特征点的空间范围进行约束。3D 点云查询没有这样的约束,所以具诸多难点。如需要考虑空间连续性,查询到的点是否都在可观测范围内等。这里仅介绍 Sattler 在 TPAMI 2016 上发表的方法 [15],经过多年的打磨,这套方法框架相对简洁、完善。由于其中的词典编码搜索步骤与上节内容有所重叠,这里仅介绍 Active Search 和 Visbility Filtering 两种机制。
Active Search 主要是为了使得匹配到的 3D 点尽可能空间中临近、有几何意义。如 Fig 12所示,红 色的点通过一系列编码、精化过程(红线),匹配到了点云中一个点。根据所提出优先排序(Prioritization) 框架,从点云中找到一个概率最大的 3D 点,并反向(蓝线)匹配查询图像中的一个对应的 2D 点。
Figure 12: Active Search
Figure 13: Visbility Filtering
Visbility Filtering 主要是为了让匹配到的点尽可能可以被相机观测到(定位是无监督的,并不能知道所匹配到的点是否正确)。这里采用的方法是在使用 SfM 建立 3D 点云地图时,同时建立一个双向可见图 (Bipartite visibility graph) 。如 Fig 13(左)所示,当一个点可以同时被两个相机观测时,则建立拓扑关系。Fig 13(中)里,蓝色的点为匹配到的点,它们从观测视角上存在冲突。通过在已有拓扑上进 行图聚类,将相机两两分组,如 Fig 13(右)。这样就可以生成新的图拓扑关系。之后通过判断每个子图(Sub-graph)间的重合情况,过滤掉那些那大概率不可见的点。
需要说明的是,虽然双目相机和 RGB-D 相机可以获取深度,查询 2D 图像也可以获得限定范围内的 3D 特征点坐标,但是由于目前技术限制,在室内材质复杂,室外大尺度场景下,深度并不可靠。所以 2D图像点和 3D 点云地图的匹配依然是一种重要的方法。
23 特征点匹配特征点匹配过程可以是在数据库查询中自适应完成的,这多见于基于 3D 结构的查询。匹配也可以是在查询后单独进行,多见于基于 2D 图像查询。特征匹配的目的是,为后续的变换矩阵计算提供匹配的点对集,实现位姿的解算。
231 经典 RANSAC随机抽样一致算法 (Random sample consensus,RANSAC)[16] 是一种经典的数据过滤、参数拟合算法。它假设数据(内点,Inliers)分布符合一定的数学模型,通过迭代计算,去除外点 (Outliers) 、噪声点, 同时获取概率上最佳的模型参数。在全局定位中,内点指正确的匹配,外点指错误的匹配,参数模型指匹配点对的空间变换矩阵。如 Fig 14所示,经过 RANSAC 算法优化后,匹配更加合理。RANSAC 所期望找到的匹配子集需要满足两个指标:内点重投影误差尽可能小;内点数量尽可能多。所以基本流程如下:
· ①采样初始子集。
· ②计算变换矩阵。
· ③ 根据变换矩阵计算匹配点的重投影误差。
· ④ 去除误差较大的点
· ⑤ 循环①-④,保留最满足指标的匹配方案。
Figure 14: (上)原始特征匹配;(下)经过 RANSAC 算法优化后的匹配
其中,初始候选匹配是根据描述子之间的距离产生的,但重投影误差则只和关键点的空间位置有关, 与描述子本身无关。具体投影矩阵方法请参考“24 位姿计算”。需要指出的是,RANSAC 算法受到原始匹 配误差和参数选择的影响,只能保证算法有足够高的概率合理,不一定得到最优的结果。算法参数主要包括阈值和迭代次数。RANSAC 得到可信模型的概率与迭代次数成正比,所得到的匹配数量和阈值成反比。因此实际使用时,可能需要反复尝试不同的参数设置才能得到较优的结果。
学者们对经典 RANSAC 算法进行了很多改进,如 Fig 15所示,提出了全局 RANSAC(Universal- RANSAC)[17] 的结构图,形成了具有普适性的 RANSAC 架构,涵盖了几乎所有的 RANSAC 的改进方 面,如预滤波、最小子集采样、由最小子集生成可靠模型、参数校验、模型精化。
Figure 15: Universal-RANSAC 通用算法框架
233 可微分 RANSAC由于手工描述子在定位领域依然表现出较高的性能,所以一些学者开始探索使用深度学习代替算法框架中的某些部分,而不是直接使用端到端的位姿估计模型完全代替传统方法。可微分 RANSAC(Differentiable RANSAC,DSAC)[18] 旨在用概率假说选择代替确定性假说选择,使得 RANSAC 过程可以被求导,流程如 Fig 16所示,其中“Scoring”步骤依然采用重投影误差作为指标,所不同的是,误差是基于整张图像而不是特征点,而原先筛选特征点匹配的过程被换为了直接以概率筛选相机位姿假设 h 的过程。虽然目 前方法局限性比较大,但 DSAC 为如何在当前无监督为主的定位算法框架中加入先验知识,提供了一种可行的思路。
Figure 16: 差分 RANSAC 算法框架
P3P 法可以看作是 PnP 法的特殊解法,如 Fig 17所示,利用三角形相似性质增加更多约束,只需要 3 对点就可以求解。其它解法还有直接线性变换法 (Direct linear transformation,DLT),EPnP(Efficient PnP) 法,和 UPnP(Uncalibrated PnP)等。相对于以上线性优化方法,非线性优化方法如Bundle Adjustment(BA) 也有着广泛的应用。BA 方法在视觉 SLAM 中是一种“万金油”的存在,可以同时优化多个变量,这样可以一定程度缓解局部误差带来的系统不鲁棒,感兴趣的同学可以翻阅相关资料更深入地进行了解。
Figure 17: 2D-3D 变换矩阵计算中的 P3P 方法
3 总结与展望
本文从图像描述、建图查询、特征匹配,位姿计算四个方面介绍了基于特征点的位姿估计算法。虽然传统视觉全局定位方法目前依然是实际应用中的首选,但是,传统方法是建立在特征点被正确定义、正确提取、正确匹配、正确观测的前提下进行的,这一前提对于视觉本身而言就是巨大的挑战。其次,由于传统方法是 multi-stage 框架,而非 end-to-end,所以中间每个环节,环节之间的交互,都需要众多参数调整,每个环节的技术都可以作为一个单独的研究方向。实际应用时,也需要加入对应具体场景的大量tricks,工程上比较复杂。
而人们对 end-to-end 方法的期望催生出了如 PoseNet,VLocNet,HourglassNet 等网络,在 benchmark上取得了不错的成绩。笔者认为目前 end-to-end 的方法还存在很多问题,主要有 loss function 缺少几何 约束,建图时位姿的 6 自由度空间并不连续,与输入空间难以形成良好映射,而且缺少相应的位姿回归、 精化机制等。不能否认,作为非线性空间最有力的建模工具,深度学习在未来会更多地出现在定位领域中。
回归到视觉定位本身,由于视觉最重要的优势就是成本低、语意丰富、使用场景限制少。因此,以视觉为主,其它低成本传感器为辅的定位融合方案在未来也将会是一个重要的课题。
参考资料
[1] Dalal, N, and B Triggs ”Histograms of oriented gradients for human detection” CVPR, 2005
[2] Lowe, David G ”Distinctive Image Features from Scale-Invariant Keypoints” IJCV, 2004
[3] Bay, Herbert, T Tuytelaars, and L V Gool ”SURF: Speeded Up Robust Features” ECCV, 2006[4] PFAlcantarilla,JNuevo,andABartoliFast explicit diffusion for accelerated features in nonlinear scale spaces BMVC, 2013
[5] Ojala, Timo ”Gray Scale and Rotation Invariant Texture Classification with Local Binary Patterns” ECCV, 2000
[6] Rublee, Ethan , et al ”ORB: An efficient alternative to SIFT or SURF” ICCV, 2011
[7] Leutenegger, Stefan , M Chli , and R Y Siegwart ”BRISK: Binary Robust invariant scalable keypoints” ICCV, 2011
[8] Alahi, Alexandre , R Ortiz , and P Vandergheynst ”FREAK: Fast retina keypoint” CVPR, 2012
[9] Witkin, A P, M Baudin, and R O Duda ”Uniqueness of the Gaussian Kernel for Scale-Space Filtering” TPAMI, 1986
[10] Jegou, Herve , et al ”Aggregating local descriptors into a compact image representation” CVPR, 2010
[11] Torii, Akihiko , et al ”24/7 place recognition by view synthesis” CVPR, 2015
[12] Arandjelovic, Relja, et al ”NetVLAD: CNN architecture for weakly supervised place recognition” TPAMI, 2017
[13] Li, Fei Fei ”A Bayesian Hierarchical Model for Learning Natural Scene Categories CVPR, 2005
[14] Galvez-Lopez, D , and J D Tardos ”Bags of Binary Words for Fast Place Recognition in Image Sequences” TRO, 2012
[15] Sattler, Torsten , B Leibe , and L Kobbelt ”Efficient & Effective Prioritized Matching for Large- Scale Image-Based Localization” TPAMI, 2016
[16] Fischler, Martin A, and R C Bolles ”Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography” Communications of the ACM, 1981
[17] Raguram, Rahul , et al ”USAC: A Universal Framework for Random Sample Consensus” TPAMI, 2013
[18] Brachmann, Eric, et al ”DSAC —Differentiable RANSAC for Camera Localization” CVPR, 2017
以上就是关于现代软件开发工具有哪些及优缺点,主要的针对那些方向开发,这些工具的进步,及数据库在其中的作用全部的内容,包括:现代软件开发工具有哪些及优缺点,主要的针对那些方向开发,这些工具的进步,及数据库在其中的作用、中国专利文献的手工检索和网络检索,网络检索对知识产权的保护带来哪些影响、全局视觉定位系统研究的意义等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)