python数据分析需要哪些库_python用什么数据库_工具

1Numpy库

是Python开源的数值计算扩展工具，提供了Python对多维数组的支持，能够支持高级的维度数组与矩阵运算。此外，针对数组运算也提供了大量的数学函数库，Numpy是大部分Python科学计算的基础，具有很多功能。

2Pandas库

是一个基于Numpy的数据分析包，为了解决数据分析任务而创建的。Pandas中纳入了大量库和标准的数据模型，提供了高效地 *** 作大型数据集所需要的函数和方法，使用户能快速便捷地处理数据。

3Matplotlib库

是一个用在Python中绘制数组的2D图形库，虽然它起源于模仿MATLAB图形命令，但它独立于MATLAB，可以通过Pythonic和面向对象的方式使用，是Python中Z出色的绘图库。主要用纯Python语言编写的，它大量使用Numpy和其他扩展代码，即使对大型数组也能提供良好的性能。

4Seaborn库

是Python中基于Matplotlib的数据可视化工具，提供了很多高层封装的函数，帮助数据分析人员快速绘制美观的数据图形，从而避免了许多额外的参数配置问题。

5NLTK库

被称为使用Python进行教学和计算语言学工作的Z佳工具，以及用自然语言进行游戏的神奇图书馆。NLTK是一个领先的平台，用于构建使用人类语言数据的Python程序，它为超过50个语料库和词汇资源提供了易于使用的接口，还提供了一套文本处理库，用于分类、标记化、词干化、解析和语义推理、NLP库的包装器和一个活跃的讨论社区。

在法学中，DNA的核对使犯罪的解决有了革命性的突破。从嫌疑犯和犯罪现场得到的样本，能够用来与DNA的数据库比较，能容易地证明嫌疑人有罪。然而，DNA的核对遭受到很多的批评，尤其是在法庭上作为呈堂证供时。

DNA指纹鉴定

DNA是脱氧核糖核酸的学术名词缩写。DNA看起来象一条不断盘旋的阶梯，并有30亿个梯级附在其上。梯级是由单一的，化学上称为：鸟嘌呤、胞嘧啶、胸腺嘧啶和腺嘌呤，的自然基团构成。这些化合物在DNA上的排列次序，在每一个独立的人体中是唯一的，这使得DNA在辨别个人方面，成为非常有效的工具。

DNA存在于身体的每一个单一细胞中，仅用一分钟的分析时间，就很容易地把标本取到手。DNA也会用来鉴别受害者，因为我们都从每一个父母亲那里遗传到一半自身的DNA，因此，从失踪人口的父母亲中，进行部分核对，将会揭示未知尸体的亲缘关系。

仅有一小段DNA链负责我们的外貌，同时的DNA残余被称为"垃圾"，并似乎没有特别的用途或功能。然而，这些"垃圾"却给鉴证人员在辨别项目中提供了重要的情报。它由小的，被称为"短重复链"（STR's）的化学基础序列，所组成，它头接尾地不断重复着。

在每一个独立个体中，STR's的重复次数是明显变化的，因此，有利于鉴别。STR's通常须要有十三次的重复，才能在鉴定是作比较。

DNA会从混合了氯仿和苯酚的标本中萃取，它们能令DNA链从细胞核的其他物质中分离开来。这种方法通常不能产生足够的DNA提供分析，因此要采用一种称为聚合酶连锁反应（PCR）的方法，进行人工合成该链。这个过程，包含了从人体中提取一种称"聚合酶"的酶，它被用于增加已经被萃取的DNA。作为一种催化剂，聚合酶有效地复制该链，生产足够的DNA，以供分析。

然后，通过使用一种限制酶，把DNA长链分成（大小不一）的短片段，它能够每一次从DNA中切一个特殊的核苷样品。随后把这些DNA的片段，通过电脉的方法，依照大小进行分类。

DNA的片段会被倒入一条窄的凝胶管中，该管的底部连接正电极、顶部连接负电极。因为DNA有微弱的负电荷，与南北极磁场互相吸引的原理相同，它被吸往正电极，DNA会开始向底部运动。然而，较小的DNA会移动得较快和下降得较远，同时较大的片段会运动得相对慢。这最终会在凝胶上形成了"带"，它们被用于与其他的标本作比较。

精确度

作为快捷和有效率的解决犯罪途径，DNA数据库已经建立了好名声。一个个体的特性，是用不多于四个电话号码的数字来编辑数据库，用它来核对罪犯和犯罪现场的数字的匹配性，是十分之简单的。DNA的核对，在法庭上作为证据时，经常引发问题，因为样本的污染是有可能的，因而要在提交的地方就需要严格地防止污染。例如，在一个人口一千万的国家里，一个含有DNA的污点在犯罪现场被发现，犯罪现场的DNA样本就要核对其人口的1%。一个嫌疑犯被扣留，个人的DNA样本，应该完美地与犯罪现场所发现的其中之一相吻合。由于仅有人口的1%拥有相同的DNA外形，公诉人要辩论：只有百分之一的机会，此人是清白的。然而，随后的答辩人会辩论：如果人口的1%拥有相同的DNA，那么可能有99999（一千万的1%减1）个其他的个体出现在犯罪现场。假如是清白，嫌疑人的犯罪几率实际上是十万分之一。这个例子显示，过分地依赖DNA作为证据是非常冒险的事。如果有足够的证据去支持DNA样本，那么就能增加了对罪行的怀疑，并能成为很有说服力的个案。但是，如果很少或没有证据支持DNA标本，那么该项标本实际上是没用的。

下一代

随着2001年的人类基因组图谱的完成，将来的DNA核对前途无量。科学家现在能够确定基因是遗传性的原因，并用它能揭示嫌疑人的头发颜色。科学家预言将来的DNA研究将有能力去揭示嫌疑人的高度和种族，并能仅从嫌疑人留下的一滴血中，建造其脸孔。这还有一段很长的路要走，但随着探索的加深，和技术的发展、进步，这定能实现的

还有一些其他的方法，也来看看

顺便说一句，有网易博客的话，加入圈子“推理俱乐部”

数据库还存在其它巨大的利用价值。比如，可通过数据库来研究DNA形态与某种疾病的对应关系，进而早期预测、预防、精准治疗这种疾病。通过DNA形态分析，可动态监测疾病发生发展规律，指导卫生防疫、医疗资源配备、药物生产等。由于DNA信息具有唯一性，全民DNA数据库将使每个人无法再隐匿其身份，这对社会管理尤其是打击犯罪大有好处。

然而，建立全民DNA数据库也存在巨大的风险。首当其冲的，是信息泄漏的风险。DNA是个人最核心最隐秘的信息，从DNA信息中可以解读出许多个人特征，包括性格、体貌、爱好、潜力、疾病风险等诸多方面。一旦个人DNA信息遭泄露并被不当利用，后果不堪设想。

此外，人类DNA信息的普遍运用，还存在伦理道德方面的风险。譬如，在一个家庭中，当两代人之间存在非亲生关系，在不知情的情况下，这家人可能生活得很幸福，但DNA数据库让人不再“难得糊涂”，反而可能使这些家庭从此变得不幸。DNA信息被窃取后若用于克隆或重组，更会颠覆现有的家庭婚姻等方面的社会秩序，给人类带来伦理危机。

一, 生物信息学发展简介

生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就

必须先对分子生物学的发展有一个简单的了解研究生物细胞的生物大分子的结

构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物

成分存在[1],1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),

在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们

仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色

1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧

定的量总是相等,腺嘌呤与胸腺嘧啶的量相等与此同时,Wilkins与Franklin

用X射线衍射技术测定了DNA纤维的结构1953年James Watson 和Francis

Crick在Nature杂志上推测出DNA的三维结构(双螺旋)DNA以磷酸糖链形

成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基

对这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的

遗传信息可以精确地进行复制他们的理论奠定了分子生物学的基础

DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大

肠杆菌(Ecoli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接

成DNADNA的复制需要一个DNA作为模板Meselson与Stahl(1958)用实验

方法证明了DNA复制是一种半保留复制Crick于1954年提出了遗传信息传递

的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心

法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起

到了极其重要的指导作用

经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码

得到了破译限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程

的技术基础

正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息

学的出现也就成了一种必然

2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮

由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每

天106bp速度增长,生物信息迅速地膨胀成数据的海洋毫无疑问,我们正从一

个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发

现的可能,"生物信息学"正是从这一前提产生的交叉学科粗略地说,该领域

的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA

序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,

分子演化及结构生物学,统计学及计算机科学等许多领域

生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信

息的获取,处理,存储,分配和解释基因组信息学的关键是"读懂"基因组的核

苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在

发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的

功能进行药物设计[2]了解基因表达的调控机理也是生物信息学的重要内容,根

据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律它的研

究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗

传语言生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研

究的前沿

二, 生物信息学的主要研究方向

生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些

主要的研究重点

1,序列比对(Sequence Alignment)

序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似

性从生物学的初衷来看,这一问题包含了以下几个意义[3]:

从相互重叠的序列片断中重构DNA的完整序列

在各种试验条件下从探测数据(probe data)中决定物理和基因图

存贮,遍历和比较数据库中的DNA序列

比较两个或多个序列的相似性

在数据库中搜索相关序列和子序列

寻找核苷酸(nucleotides)的连续产生模式

找出蛋白质和DNA序列中的信息成分

序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前

两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权

和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等两个

序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海

量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算

法复杂性为线性的也难以奏效因此,启发式方法的引入势在必然,著名的

BALST和FASTA算法及相应的改进方法均是从此前提出发的

2, 蛋白质结构比对和预测

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性

蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般

相似蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),

蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等氨基酸

的序列内在的决定了蛋白质的3维结构一般认为,蛋白质有四级不同的结构

研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找docking

drugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成

直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构

在进化中更稳定的保留,同时也包含了较AA序列更多的信息

蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应

(不一定全真),物理上可用最小能量来解释

从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构同

源建模(homology modeling)和指认(Threading)方法属于这一范畴同源建模用

于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较

进化族中不同的蛋白质结构

然而,蛋白结构预测研究现状还远远不能满足实际需要

3, 基因识别,非编码区分析研究

基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组

序列中的精确位置非编码区由内含子组成(introns),一般在形成蛋白质后被丢

弃,但从实验中,如果去除非编码区,又不能完成基因的复制显然,DNA序

列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中分析非编码

区DNA序列目前没有一般性的指导方法

在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已

完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序

列是难以想象的

侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔

可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden

Markov Model)和GENSCAN,Splice Alignment等等

4, 分子进化和比较基因组学

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进

化树既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相

关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似

性通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的

早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化

的依据近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角

度来研究分子进化在匹配不同种族的基因时,一般须处理三种情况:

Orthologous: 不同种族,相同功能的基因

Paralogous: 相同种族,不同功能的基因

Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因

这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白

质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统

的聚类方法(如UPGMA)来实现

5, 序列重叠群(Contigs)装配

根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,

如人类基因的测量就采用了短q(shortgun)方法,这就要求把大量的较短的序列

全体构成了重叠群(Contigs)逐步把它们拼接起来形成序列更长的重叠群,直

至得到完整序列的过程称为重叠群装配从算法层次来看,序列的重叠群是一个

NP-完全问题

6, 遗传密码的起源

通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上

一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今

不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说

来解释遗传密码随着各种生物基因组测序任务的完成,为研究遗传密码的起源

和检验上述理论的真伪提供了新的素材

7, 基于结构的药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,

相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物

治疗基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要

的研究领域为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础

上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物这一

领域目的是发现新的基因药物,有着巨大的经济效益

8, 其他

如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,

逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的

学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组

学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学

从现在的发展不难看出,基因工程已经进入了后基因组时代我们也有应对

与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认

识

三, 生物信息学与机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入

常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问

题究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完

备的生命组织理论

西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作

时更有效[4]机器学习的目的是期望能从数据中自动地获得相应的理论,通过采

用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"

模式,及大规模数据集因此,机器学习形成了与常规方法互补的可行的方法

机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能

[5]

机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,

而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花

费巨大的人工处理方法早期的科学方法—观测和假设----面对高数据的体积,

快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了因

而,生物信息学与机器学习相结合也就成了必然

机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是

统计模型拟合的延续,其目的均为提取有用信息机器学习与模式识别和统计推

理密切相关学习方法包括数据聚类,神经网络分类器和非线性回归等等隐马

尔可夫模型也广泛用于预测DNA的基因结构目前研究重心包括:1)观测和

探索有趣的现象目前ML研究的焦点是如何可视化和探索高维向量数据一般

的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析

(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(Locally

Linear embedding)2)生成假设和形式化模型来解释现象[6]大多数聚类方法可

看成是拟合向量数据至某种简单分布的混合在生物信息学中聚类方法已经用于

microarray数据分析中,癌症类型分类及其他方向中机器学习也用于从基因数

据库中获得相应的现象解释

机器学习加速了生物信息学的进展,也带了相应的问题机器学习方法大多

假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息

学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻

找数据集的内在结构其次,机器学习方法中常采用"黑箱" *** 作,如神经网络

和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚

四, 生物信息学的数学问题

生物信息学中数学占了很大的比重统计学,包括多元统计学,是生物信息

学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型

(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质

空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓

扑学;研究遗传密码和DNA序列的对称性方面的群论等等总之,各种数学理

论或多或少在生物学研究中起到了相应的作用

但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学

和度量空间为例来说明

1, 统计学的悖论

数学的发展是伴随悖论而发展的对于进化树研究和聚类研究中最显著的悖

论莫过于均值了,如图1:

图1 两组同心圆的数据集

图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也

就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多

的数据的几何性质那么,如果数据呈现类似的特有分布时,常有的进化树算法

和聚类算法(如K-均值)往往会得错误的结论统计上存在的陷阱往往是由于

对数据的结构缺乏一般性认识而产生的

2, 度量空间的假设

在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念举

例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分

值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立

那么,是否这种前提假设具有普适性呢

我们不妨给出一般的描述:假定两个向量为A,B,其中,

,则在假定且满足维数间线性无关的前提下,两个

向量的度量可定义为:

(1)

依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息

学中常采用的一般性描述,即假定了变量间线性无关

然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考

虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的

度量公式可由下式给出:

(2)

上式中采用了爱因斯坦和式约定,描述了变量间的度量关系后者在满足

(3)

时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线

性相关性,我们正在研究这个问题

五, 几种统计学习理论在生物信息学中应用的困难

生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却

一般难以给出明确的定义生物信息学面临的这种困难,可以描述成问题规模的

巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来

改善性能是必然的[7]以下对基于这一思想产生的统计学习理论[8],Kolmogorov

复杂性[98]和BIC(Bayesian Information Criterion)[109]及其存在的问题给出简要介

绍

支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计

学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则

采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性

质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函

数的选择,因此,受到广泛的注意在生物信息学中也开始受到重视,然而,核

函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选

择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中

又一个大气泡

Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习

的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性Kolmogorov

复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只

适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参

数的最小描述其缺陷在于建模的复杂性过高,导致在大数据集中难以运用

BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的

惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近

年也广泛应用于生物信息学中BIC准则的主要局限是对参数模型的假定和先验

的选择的敏感性,在数据量较大时处理较慢因此,在这一方面仍然有许多探索

的空间

六, 讨论与总结

人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平

上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互

关系这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这

些问题做出探讨和思索

启发式方法:

Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优

的方法,而只要求找到一个满意的方法因为即使是解决最简单的问题,要想得

到次数最少,效能最高的解决方法也是非常困难的最优方法和满意方法之间的

困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能

达到解决的程度就可以了正如前所述,面对大规模的序列和蛋白质结构数据集,

要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,

要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工

智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法

问题规模不同的处理:

Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数

据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化这

好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法

一样在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据同

样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据

挖掘问题如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用

动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA

乐观中的隐扰

生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因

组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在

的隐扰呢

不妨回顾一下早期人工智能的发展史[11],在1960年左右,西蒙曾相信不出

十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相

同的机器人而至今为止,这一诺言仍然遥遥无期尽管人工智能研究得到的成

果已经渗入到各个领域,但对人的思维行为的了解远未完全明了从本质来看,

这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的

本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不

能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现

实

反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从

结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所

有行为和功能和致病原因这类似于人工智能早期发展中表现的乐观行为,也来

自于早期分子生物学,生物物理和生物化学的成就然而,从本质上来讲,与人

工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的

功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用我

们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐

观呢现在说肯定的话也许为时尚早

综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,

是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为

各种学科的简单堆砌,相互之间的联系并不是特别的紧密在处理大规模数据方

面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全

明了,这使得生物信息学的研究短期内很难有突破性的结果那么,要得到真正

的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从

数学上的新思路来获得本质性的动力

毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,

这个世界上发生的一切事情,都与这一序列息息相关"但要完全破译这一序列

以及相关的内容,我们还有相当长的路要走

（来源 ------[InfoBioorg | 生物信息学研讨组]）>

最全生物、化学、先进制造、科研软件大合集

生物化学制图、分析类软件及小众通用办公软件，

良心推荐！！！

有免费下载安装包

以下为已整理软件List：

1、 MEGA 7026

MEGA是一款功能强大的进化树软件，用于分析来自物种和种群的DNA和蛋白质序列数据。功能齐全，界面简单直观，非常适合生物学家和科研人员轻松进行进化分析和分子鉴定。

MEGA 7026带来了更多的功能和改善，增加了了向导式系统，用于识别树中的基因复制事件；并且重新考虑树资源管理器，以便可以显示多达100k类群的树；70重新考虑了Timetree系统，用于估计系统发育中所有分支点的相对和绝对发散时间，以便使用更直观的向导式界面，打开软件界面就可以直接选择所需功能。

有一个新功能小编必须要给程序员点个赞，Caption Expert系统终于更新了，以后就可以将标题停靠在Tree Explorer窗口中。

下载方式见文末

2、 Primer Premier 5

Primer Premier是一款专业的引物设计软件，具有PCR或测序引物以及杂交探针设计功能，它的算法可以给定条件，搜索到最合适的引物，并筛检二级结构、二聚体、发夹结构等，以排序方式呈现在报告中。

主要界面包括了序列编辑窗口（Genetank），引物设计窗口（Primer Design），酶切分析窗口（Restriction Sites）和 Motif 分析窗口。

这是一款很老的软件了，堪称最强大的引物搜索工具，界面简洁明了，是很多的分子生物学实验室的标配，通常我用来设计引物、看酶切位点、得到互补/反向/反向互补的序列。

目前的引物设计软件都是基于 Primer 系列，我认为在所有版本里，最好的是 Primer 5，因为小编平时用的大多是比较常规的模板，比如常规 PCR 引物设计，Primer 6 太过智能了，不适用于常规模板。

下载方式见文末

3、 SPSS 25

SPSS是一款全球领先的统计分析与数据挖掘软件，可以解决从策划、数据收集到分析、报告和部署的整个分析过程，有十几个完全集成的模块可供选择，几分钟之内你就可以找到你需要的集成模块。

其实SPSS是一个傻瓜 *** 作软件，只要认识了软件基本界面和功能，然后把你的数据准备好，输进去，点击需要进行分析的功能，软件会自动给你算出分析结果，并不需要写代码或者程序。小编最开始用的还是13的版本，现在都出到25了，软件版本也暴露年龄呀，有空我开个专题大家一起讨论用过最老的软件是什么？

回归正题，SPSS 25新增了新图表模板，可实现word等微软家族中编辑。这个新功能，通俗的说，就是SPSS输出的图表，你可以不用在原始的输出界面进行编辑修改，可以直接保存到word等里面，在进行修改。想想都很高大上!

SPSS 25还增强了最受欢迎的高级统计功能，混合线性模型(混合)和广义线性混合模型(genlin混合)、一般的线性模型(GLM)和UNIANOVA等方面都有增强。

建造现代化、吸引人的、详细的图表从来都不容易，让我们为SPSS疯狂打call！

下载方式见文末

4、 Image Lab 3

Image Lab是一款十分专业且优秀的凝胶成像分析软件，主要用于生命科学和生化实验室，通过紫外线对目标进行图像的采集，然后将信息传输到电脑中，方便研究人员进行各项数据的分析以及计算。

相比其他凝胶成像分析软件，Image Lab具有速度快、高度智能化的特点。Image Lab 3做了以下改进：可以自动作业，只需单击鼠标即可开始执行预设的和用户自编的程序，完成从图像采集到分析再到打印输出的整个实验流程；自动进行所有图像分析，或者为了进行更准确的条带检测以及控制背景水平、选择泳道等进行人为干预。

最重要的是：参数调整后报告中的数据将随时都可以进行人工调整，随时可以调整！随时！欢呼吧,改数据再也不用重新开始了!

下载方式见文末

5、 EndNote X9

EndNote是一个专门用于管理参考文献数据库的软件，有了它，再也不用手动给参考文献编号。通过插件可以很方便地在 word 中插入文献，软件自动根据文献的先后顺序编号，并根据指定的格式将文献附在文章的最后。如果在文章中间插入了引用的新文献，软件会自动更新编号，并将引用的文献插入到文章最后参考文献中合适的位置。

文献共享之后，是不是又担心小伙伴不小心更改了你的文献记录？使用EndNote X9就完全不用担心。通过共享权限管理可将小伙伴的权限设置为“只读”或“读写”，打消你的一切顾虑！

而且用过EndNote X8的同学都知道，共享文献只能通过共享整个个人图书馆来实现。这样做既浪费科研伙伴的时间去查找所需文献，又因为共享了全部文献而无法保证科研人员其他研究的私密性。EndNote X9更新添加了分组共享的功能，只需将指定文件拖入分组中即可实现精准分享，再也不用在查找文献上面浪费时间了！

下载方式见文末

6、 DNAMAN 9

DNAMAN：生信数据的挖掘机，一款高度集成化的分子生物学应用软件。主要功能包括多重序列对比、PCR引物设计、蛋白质分析、质粒绘图等功能，广泛应用在各大研究实验方面。

DNAMAN几乎可完成所有日常核酸和蛋白质序列分析工作，包括多重序列比对、PCR引物设计、限制性酶切分析、蛋白质分析、质粒绘图等。

DNAMAN 9新增了编辑记录信息、数据库管理、DNA和蛋白质数据库编辑等功能，可以为不同的记录使用相同的名称，还可以选择对结果的最终输出使用快速对齐或最佳对齐方式，大大的降低了 *** 作的复杂程度！

下载方式见文末

7、 SnapGene 505

SnapGene是一款非常好用的日常分子生物学软件，可以提供最快和最简单的方式来计划、可视化和文档化的分子生物学方法，还可以进行多序列比对、自动引物设计、支持 Gibson Assembly、直接导入 Genbank 序列号等。

Snapgene 功能十分强大且实用，你可在SnapGene中完成所有克隆，并且优化改善你的策略，快速创建质粒图谱，并提供优雅，信息丰富的窗口，用于模拟各种常见的克隆和PCR方法

Snapgene 既可以模拟的标准限制性克隆，也可以模拟融合克隆。比如可以用来模拟建立克隆，这使得我们设计建立克隆方案更加简便，如果克隆过程设计方案有缺陷，我们可以借助模拟发现并做出纠正。

SnapGene单一授权 $350/年，或 $750/永久，小编提供的免费破解版不香吗！！！

下载方式见文末

8、 OriginPro 850

推荐一款 *** 作简单的函数绘图工具，可用于函数的数据分析和绘图；

这是同事推荐给小学妹的软件，美名其曰在保证功能的同时比同类型软件的 *** 作都要简单，小编在表示不屑一顾之后，真香！Origin85 *** 作简单，满足新手基本制图需要的同时，也适用于小编这种高级用户数据分析、函数拟合的需要；

Origin85的绘图是基于模板而运行的，其系统本身就为用户提供了几十种二位和三维的绘图模板，同时允许用户自行定制模板，用户可根据自己的喜好进行函数的设置。不仅可以自定义模板之外，还可自定义数学函数、图形样式和绘图模板；

最方便的是，Origin85与其他程序相比最大的不同在于它可以和各种数据库软件、办公软件、图像处理软件等方便地连接，省时！省事！

下载方式见文末

9、 SigmaPlot14

一个完全专业的图形和数据分析程序，它比Excel程序功能更强大，工具更多，推荐给需要专业数据分析图表的战友；

下载前小编面对官网800多页的使用手册望而却步，但实际 *** 作下来非常简单，新手小伙伴建议咨询高级玩家，不要独自“打野”：打开软件即可快速创建详细图表，只需点击创建图表选项卡，选择图形类型，使用图形向导选择你的数据，就可以在几秒钟内创建一个图形。还可以创建一个格式化的工作表，或使用模板或图形样式库一次又一次应用喜欢的图形样式；

同时支持直接在Word或PowerPoint中编辑图形，或者在SigmaPlot内用Excel电子表格绘制数据；允许用户自行建立任何所需的图型，自定义所有图表和地图，并具有多种2D和3D效果；

隐藏技巧：只要用SigmaPlot将图制作完成即可动态连结给其它软件展示使用，并可输出成EPS、TIFF、JPEG等图形格式，即使在网页上也可以发布高质量的地图和图表。

下载方式见文末

10、 Jade 65

MDI Jade是处理粉末XRD数据的重要软件，也是搜索标准衍射数据的有力工具，因此，它是化学、材料研究人员的必备软件之一。

我当前使用的软件版本为MDI Jade 65，这是小编使用下来最好用的一个版本，软件打开界面的菜单栏已经囊括了常用的功能，如平滑，寻峰，检索等。

MDI Jade可以对X射线衍射进行分析，通过分析结果，可以直观的判断分辨出材料的构造，知道材料的成分、内部原子、分子的结构形态等等，对于刚走上科研的用户来说，是非常不错的选择。

很多读者都在问Coffeekup和Jade哪个更好用，小编平时用Jade更多，同事也都认为Jade更纯粹一些，因为它设计为专门用于view的template语言，因此语法设计上、特性裁剪上更好一点。

下载方式见文末

11、 Gaussian 09W

一个功能强大的量子化学综合软件包，可预测周期体系的能量、结构和分子轨道，我一般把它作为计算工具，用于取代基的影响，化学反应机理，势能曲面和激发能等化学课题的研究；

建议与Gaussview连用，有网友反馈Gaussview比较鸡肋，但这年头搞什么不得会点计算，原理不用全会，会用就成；

小编接触Gaussian软件大约三年，关于使用手册有以下建议，Gaussian官方推荐的教材是Explore the world with electronic methods，目前出到第三版。但扫描版本只有第二版，使用的软件是Gaussian94，我倾向于改改个别关键词用于Gaussian09的学习；

熟悉Gaussian的用户都清楚仅仅靠算例是不够的，应该多去读文献，个人推荐jacs，angew，jpcc一类的杂志，重复他们的结果，不久之后计算水平大大的提高。

下载方式见文末

12、 ChemOffice suit 2018

Chemoffice可以说是化学结构绘制工具中的王牌软件，功能强大，涉及面广。看软件的大小就知道比化学金排大很多倍；

软件开始界面给出了直观的图形界面，开创了大量的变化功能，只要稍加实践，便会很容易地绘制出高质量的化学结构图形；

我用chemdraw最多，主要用来画分子结构式用的，画完结构式Analysis立马各种信息都出来了哈哈，还可以进行NMR预测，各种强大，搞科研必备；

Chemdraw是Chemoffice套件里面唯一支持Mac版的。

下载方式见文末

13、 Mestrenova14

一款好用的核磁共振数据处理软件，可预测化合物氢谱、碳谱，HSQC，杂核谱，其中Mestrenova预测更为准确，可模拟峰形，准确度高于同类型软件；

在此给mestrenova直观可视化的 *** 作界面点个赞，回想小编对着电脑挠头寻找某功能的经历，简单可 *** 作才是王道（PS：划重点！科研人员发量还是很优秀的）；

新版本的Mestrenova14采用了全新的ui界面，增加了多个实用新功能，包括NMR，MS，NMRPredict，屏幕，数据库，结构解析等；增加了自定义NMR数据导入功能，改进了堆积图，增加了用于2D NMR光谱分辨率的新算法；同时改进了Mnova屏幕，现在对布鲁克的FBS提供了高级支持，同事更新后发现导入/导出结果时间缩短了一半，小编终于不用再苦等了！

下载方式见文末

14、 HyperChem 81

一款以高质量，灵活易 *** 作而闻名的分子模拟软件。利用 3D 对量子化学计算，对分子力学及动力学进行模拟动画，主要是用于教学，极少用于科研；

HyperChem的优点是可以提供比其它 Windows 软件更多的模拟工具、图形界面，可进行量子化学计算(分子力学及分子动力学模拟）；可使用量子化学半经验（AM1、PM3）；

小编翻了一下帖子，好像没人提到Hyperchem,与上面推荐的Chemdraw相似，个人认为大多功能相似，但各有亮点。计算功能上HyperChem好得多，特别适用于不做专业计算的有机化学研究者，当然科研方面的专业计算除外；

存在的问题是所有功能较简单，复杂模拟结果可信性低。推荐给新手作为入门程序，灵活易 *** 作,上手快，功能也比较多，QM，MD,MM都能做；

此外，这个程序是商业软件，发表文章的小伙伴注意处理好版权问题。

下载方式见文末

15、 GaussView 6

搞科研的同学都知道，制图软件一般对设备的要求非常高， GaussView软件作为化学软件中的一股清流，既可以画结构还能做各种数据计划，但本身对电脑要求很低，软件本身也是免费的！免费的东西不香吗！！

软件的制图能力也是很抗打的，论分子的三维模型制图没有比GaussView 6更强大的软件，熟练了以后画一个C60都是很容易的事。另外，有时也会用ChemDraw画出二维结构，再导出到GaussView的输入文件格式也是很方便的。

喜欢玩游戏的科研党的福利来了，在GaussView你可以用球键模型创造各种化合物并验证是否可能存在，有时候计算复杂的化合物都可以算个好几天呢，一边玩游戏，一边学习化学，导师都没有理由反驳你！

下载方式见文末

16、 AutoCAD 2019

AutoCAD一般用于二维绘图、详细绘制、设计文档和基本三维设计，现已经成为国际上广为流行的绘图工具。

AutoCAD最大的优点就是功能齐全，可用范围广，它具有良好的用户界面，通过交互菜单或命令行方式便可以进行各种 *** 作，同时它的多文档设计环境，让非计算机专业人员也能很快地学会使用。

从当初的08换成了现在的19，小编不由感慨：CAD，有你真的挺好！小编推荐新手下载2019的版本，2019版的相对之前的版本优化了很多细节，使 *** 作更加的流畅，而且在之前的基础上增加了一些适合新手用户的文档设计环境，更容易上手。

小编不推荐下载迷你CAD，迷你CAD虽然不吃配置，但它阉割了很多功能，普通看图用用还行，实际涉及到工业层面和设计上是完全比不上AutoCAD的。

下载方式见文末

17、 3Dmax 2018

3DMAX是一款强大的三维设计软件，产品设计、影视动画、虚拟现实这三类它都可以很好的适用进去，而且还有很多插件和模型库可以使用。

3Dmax自学是有一定的难度，但并不是不可以达成。学3Dmax的话，那就从建模开始，3Dmax可分为建模、材质、渲染、灯光（学习的过程可按照顺序来），这几个都是基本，每个都包含着大量的 *** 作。建议如果自学需要有简单建模软件的基础，才能更快的对3Dmax上手。

小编建议把3DMAX和Lumion配合使用，Lumion属于渲染器是将模型与材质进行渲染，3DMAX虽然能渲染但是主要功能则是建模，产品设计先用3DMAX建模然后交给Lumion渲染

PS：3DMAX做室外模型也很厉害的，而不是“室内专业户”！

下载方式见文末

18、 Multisim 14

Multisim是一款功能强大的电路仿真软件，在用multisim仿真的时候，在电路中加入的器件一定范围内都是可以用数学来建模器件特性的。

如果小白想从0开始学习Multisim，推荐用protues，因为这个软件可以仿真单片机，很适合电子专业大一大二大三的同学。

有读者问Multisim仿真时电脑黑屏是什么原因，小编在此说明一下，不是软件的问题！因为仿真的时候对CPU和显卡运算要求是很高的，出现黑屏或者卡屏大概率是你的电脑比较老了，无论是显卡还是CPU的发热比较大，散热又比较差。

提供几个解决黑屏、卡屏的方法：1 清理一下电脑的风扇。改善散热。2 重装一下显卡的驱动，很大可能是显卡原因。3 重装下multisim软件。

下载方式见文末

19、 Lumion 5

Lumion是一个实时的3D可视化工具，涉及到的领域包括建筑、规划和设计。它的强大就在于能够提供优秀的图像，表现是这软件的强项，上手版容易，1天就OK；模型不用渲染，软件是实时渲染的，为你节省时间、精力和金钱。

小编刚接触lumion的时候那个时候还是lumion20,当时看到后就惊呆了，原来还有这么有意思的制图软件，一下子迷恋上了，当时拿着三千多块配置的电脑就是一顿乱撸。从此一发不可收拾……

如今lumion已经不只是那个单纯做效果图和简易动画的软件了，它的功能足以强大到你窒息……每一次升级都是一次质的飞跃，每一次的更新都会让 *** 作更加得心应手（但是对电脑的要求也越来越高）！

小编推荐下载Lumion 5，该版本对CPU的要求不高，而且简单易懂， *** 作便利，出图效果快。

下载方式见文末

20、 UG 100

UG是为用户的产品设计及加工过程提供数字化造型和验证手段的三维软件。该软件拥有强大的功能性版块，既可以进行造型和三维设计，又可以进行编程以及后期的模具设计。

小编对UG感触比较深的是软件命令比较强大，自由度高，对于有些特征你不想让它发生关系，软件就会默认特征间没有关系，而且UG中将很多规格化的特征划分的非常细致，如Pocket、Slot等，建模效率非常高，还有一点就是UG转换机器码的效果很好。

注意：UG从100才开始支持中文文件名，而且有些老的CPU平台上都装不了高版本的UG了，90开始没有32位的安装包了，也不支持XP系统了！

下载方式见文末

21、 Matlab 2018a

Matlab2018a是一款十分专业的实用型商业数学工具，软件 *** 作便捷，是根据用户的思维方式和工作内容打造的软件，目前已有数百万工程师和科学家使用该软件来解决复杂的设计难题。

Matlab的长处是矩阵运算，对于信号处理、图像处理、数学建模、数据分析等方面非常擅长，它的中文版功能全面，能够支持用户快速分析数据、开发算法或者创建模型。

小编发现Matlab软件的规律是越新的版本，支持的库越多，2018a就继承了深度神经网络部分，可以调用GPU训练网络，或者直接用现成的网络，这个对于不想学python的人来说，是福音啊！

此外，2015之前的版本，矩阵和数组的 *** 作不够灵活，比如一个列向量+行向量，这个 *** 作就不能实现，而2018a，会自动计算成一个矩阵。

下载方式见文末

22、 Honeyview V532

小编用过的看图软件不少，轻量级的Honeyview是一款非常不错的软件，比系统自带的强，比强大到翻天的ACDSEE等老牌要快，毕竟大部分人能用到的功能就那几样。

首先界面干净、整洁，无广告，这一点相对于市场上同类软件就很难得，如果你愿意，甚至可以隐藏全部边栏，给你一个全面屏的看图效果。

支持几乎所有格式的浏览，GIF动图，甚至RAW文件、PSD文件（Photoshop专用格式），功能强大到秒开，同时支持不解压浏览ZIP、RAR和7z压缩包中的，还免费！

经某资深漫画党同事发掘，Honeyview 特有的智能对开看图功能，开启模式后，秒变看漫画利器。

下载方式见文末

23、 WinRAR 590

用过最好的解压软件，没有之一，之前在使用360解压软件的时候，文件解压容易出现错误，且不支持Unicode，更换为WinRAR就没有问题；

该软件为国际通用版，不会出现格式不兼容；体积小巧，不附带插件（比如：看图软件）。不过这一点有利有弊，有些人还是很喜欢附带的看图、批量命名等插件的，但小编不喜欢（豪横）！

下载方式：

可关注科邦实验室回复软件名获取免费下载链接。

小编后续将持续更新办公软件、化学、生物、先进制造类优质软件。

中国将DNA用于犯罪检测是1987年。

中国警方在1987年首次将DNA检测技术应用于侦查破案，经过20多年的发展，DNA检测技术已经广泛应用于侦查办案和法庭取证上。

每个人的DNA都是独一无二的，绝无重复，一旦采集到DNA证据，嫌疑人是否与犯罪行为有关系就一目了然了。如今世界上都在不断加大对DNA技术的研究投入，利用DNA破案也成为了警界共识。

DNA在警界享有“证据之王”的美誉，只要有一个细胞就可以从中提取到DNA，人体的头发、皮肤、血液、唾液都是DNA样本的来源，因此无论犯罪分子如何小心，想要在犯罪现场不留下一点蛛丝马迹是非常困难的。

扩展资料

苏州警方建立DNA数据库：

在刑侦过程中，如果只是掌握到了单一的DNA信息，还不足以找到犯罪嫌疑人，只有将DNA检测技术和一个拥有庞大信息的数据库结合起来，才能从茫茫人海中找出犯罪嫌疑人。

据了解，苏州警方从2000年开始筹备建立DNA数据库，在随后6年里，所有在刑事案件现场收集到的嫌疑人DNA全部录入数据库。2006年，公安部统一了全国各地市级数据库的采集软件系统，制定了DNA数据入库比对标准，实现了全国各地的DNA数据库的联网。

参考资料来源：中国警察网-DNA技术助刑侦一年破案1887起

参考资料来源：人民网-“极速神探”DNA检测技术缉凶、鉴定都能干

以上就是关于python数据分析需要哪些库_python用什么数据库全部的内容，包括:python数据分析需要哪些库_python用什么数据库、DNA与破案的问题、DNA指纹数据库的优缺点等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9784152.html

python数据分析需要哪些库_python用什么数据库

发表评论

评论列表（0条）