Python语言程序设计之程序设计基本方法

Python语言程序设计之程序设计基本方法,第1张

计算机的概念:计算机是 根据指令 *** 作数据的设备

计算机具有 功能性 可编程性。

功能性,指对数据的 *** 作,表现为数据计算、输入输出处理和结果存储等。

可编程性,指根据一系列指令自动地、可预测地、准确地完成 *** 作者的意图。

计算机的发展参照 摩尔定律 ,表现为指数方式。

计算机硬件所依赖的集成电路规模参照摩尔定律发展,计算机运行速度因此也接近几何级数快速增长,计算机高效支撑的各类运算功能不断丰富发展。

摩尔定律 Moore’s Law——计算机发展 历史 上最重要的预测法则

Intel公司创始人之一戈登·摩尔在1965年提出单位面积集成电路上可容纳晶体管的数量约每两年翻一番,CPU/GPU、内存、硬盘、电子产品价格等都遵循摩尔定律。计算机是当今世界,唯一长达50年有效且按照指数发展的技术领域,计算机深刻改变人类 社会 ,甚至可能改变人类本身,可预见的未来30年,摩尔定律还将持续有效。

程序设计

程序设计是计算机可编程性的体现。

程序设计,亦称编程,是深度应用计算机的主要手段,程序设计已经成为当今 社会 需求量最大的职业技能之一,很多岗位都将被计算机程序接管,程序设计将是生存技能。

程序设计语言

程序设计语言是一种用于交互(交流)的人造语言。

程序设计语言,亦称编程语言,是程序设计的具体实现方式,编程语言相比自然语言更简单、更严谨、更精确,编程语言相比自然语言更简单、更严谨、更精确。

编程语言种类很多,但生命力强劲的却不多。编程语言有超过600种,绝大部分都不再被使用。C语言诞生于1972年,它是第一个被广泛使用的编程语言,Python语言诞生于1990年,它是最流行最好用的编程语言。

编程语言的执行方式

计算机执行源程序的两种方式:编译和解释。

源代码:采用某种编程语言编写的计算机程序,人类可读。

例如:result = 2 + 3

目标代码:计算机可直接执行,人类不可读 (专家除外)。

例如:11010010 00111011

编译

将源代码一次性转换成目标代码的过程。

执行编译过程的程序叫作编译器(compiler)。

解释

将源代码逐条转换成目标代码同时逐条运行的过程

执行解释过程的程序叫做解释器(interpreter)。

编译和解释

编译:一次性翻译,之后不再需要源代码(类似英文翻译)。

解释:每次程序运行时随翻译随执行(类似实时的同声传译)。

静态语言和脚本语言

根据执行方式不同,编程语言分为两类。

静态语言:使用编译执行的编程语言,如C/C++语言、Java语言。

脚本语言:使用解释执行的编程语言,如Python语言、JavaScript语言、PHP语言。

执行方式不同,优势也各有不同。

静态语言:编译器一次性生成目标代码,优化更充分,程序运行速度更快。

脚本语言:执行程序时需要源代码,维护更灵活,源代码在维护灵活、跨多个 *** 作系统平台。

IPO

程序的基本编写方法。

I:Input 输入,程序的输入。

P:Process 处理,是程序的主要逻辑。

O:Output 输出,程序的输出。

理解IPO

输入 ,程序的输入 文件输入、网络输入、控制台输入、交互界面输入、内部参数输入等,输入是一个程序的开始。

输出 ,程序的输出,控制台输出、图形输出、文件输出、网络输出、 *** 作系统内部变量输出等,输出是程序展示运算结果的方式。

处理 ,处理是程序对输入数据进行计算产生输出结果的过程,处理方法统称为 算法 ,它是程序最重要的部分,算法是一个程序的灵魂。

问题的计算部分

一个待解决的问题中,可以用程序辅助完成的部分。

计算机只能解决计算问题,即问题的计算部分,一个问题可能有多种角度理解,产生不同的计算部分,问题的计算部分一般都有输入、处理和输出过程。

编程解决问题的步骤

6个步骤 (1-6)

分析问题 :分析问题的计算部分,想清楚。

划分边界 :划分问题的功能边界,规划IPO。

编写程序 :编写问题的计算机程序,编程序。

调试测试 :调试程序是正确运行的,运行调试。

升级维护 :适应问题的升级维护,更新完善。

求解计算问题的精简步骤

3个精简步骤

确定IPO :明确计算部分及功能边界。

编写程序 :将计算求解的设计变成现实。

调试程序 :确保程序按照正确逻辑能够正确运行。

编程能够训练思维

编程体现了一种抽象交互关系、自动化执行的思维模式。计算思维:区别逻辑思维和实证思维的第三种思维模式。能够促进人类思考,增进观察力和深化对交互关系的理解。

编程能够增进认识

编程不单纯是求解计算问题。不仅要思考解决方法,还要思考用户体验、执行效率等方面。能够帮助程序员加深对用户行为以及 社会 和文化的认识。

编程能够带来乐趣

编程能够提供展示自身思想和能力的舞台。让世界增加新的颜色、让自己变得更酷、提升心理满足感。在信息空间里思考创新、将创新变为现实。

编程能够提高效率

能够更好地利用计算机解决问题。显著提高工作、生活和学习效率。为个人理想实现提供一种借助计算机的高效手段。

编程带来就业机会

程序员是信息时代最重要的工作岗位之一。国内外对程序员岗位的缺口都在百万以上规模。计算机已经渗透于各个行业, 就业前景非常广阔。

学习编程的误区

Q:编程很难学吗? A:掌握方法就很容易!

首先,掌握编程语言的语法,熟悉基本概念和逻辑。其次,结合计算问题思考程序结构,会使用编程套路。最后,参照案例多练习多实践,学会举一反三次。

词法分析从语法分析中分离出来作为一个独立的阶段基于如下的因素:

1、使得整个编译程序的结果更加简洁、清晰和条理化。就像流水线工作中一样,将一个工作分解为一道道工序,然后每道工序犹具体的人负责,除了问题也更容易发现。

2、编译程序的效率会改进。只要分解适当,流水线工作的效率会大大提高。

3、增强编译程序的可移植性。譬如有的编译程序可能就词法部分不同,那么只需要改变一些词法分析的处理就能够很快的进行移植。

词法分析是计算机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数叫作词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。词法分析器一般以函数的形式存在,供语法分析器调用。

词法分析阶段是编译过程的第一个阶段,是编译的基础。这个阶段的任务是从左到右一个字符一个字符地读入源程序,即对构成源程序的字符流进行扫描然后根据构词规则识别单词(也称单词符号或符号)。词法分析程序实现这个任务。词法分析程序可以使用Lex等工具自动生成。

中文分词,即 Chinese Word Segmentation,即将一个汉字序列进行切分,得到一个个单独的词。表面上看,分词其实就是那么回事,但分词效果好不好对信息检索、实验结果还是有很大影响的,同时分词的背后其实是涉及各种各样的算法的。

中文分词与英文分词有很大的不同,对英文而言,一个单词就是一个词,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分。根据其特点,可以把分词算法分为四大类:

基于规则的分词方法

基于统计的分词方法

基于语义的分词方法

基于理解的分词方法

下面我们对这几种方法分别进行总结。

基于规则的分词方法

这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功。该方法有三个要素,即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。

最大匹配法(MM)。基本思想是:假设自动分词词典中的最长词条所含汉字的个数为 i,则取被处理材料当前字符串序列中的前 i 个字符作为匹配字段,查找分词词典,若词典中有这样一个 i 字词,则匹配成功,匹配字段作为一个词被切分出来;若词典中找不到这样的一个 i 字词,则匹配失败,匹配字段去掉最后一个汉字,剩下的字符作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。统计结果表明,该方法的错误率 为 1/169。

逆向最大匹配法(RMM)。该方法的分词过程与 MM 法相同,不同的是从句子(或文章)末尾开始处理,每次匹配不成功时去掉的是前面的一个汉字。统计结果表明,该方法的错误率为 1/245。

逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料,一直到把全部的词切分出来为止。不论分词词典多大,被处理的材料多么小,都得把这个分词词典匹配一遍。

设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号,如标点符号等;非自然标志是利用词缀和不构成词的词(包 括单音词、复音节词以及象声词等)。设立切分标志法首先收集众多的切分标志,分词时先找出切分标志,把句子切分为一些较短的字段,再用 MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法,只是自动分词的一种前处理方式而已,它要额外消耗时间扫描切分标志,增加存储空间存放那些非 自然切分标志。

最佳匹配法(OM)。此法分为正向的最佳匹配法和逆向的最佳匹配法,其出发点是:在词典中按词频的大小顺序排列词条,以求缩短对分词词典的检索时 间,达到最佳效果,从而降低分词的时间复杂度,加快分词速度。实质上,这种方法也不是一种纯粹意义上的分词方法,它只是一种对分词词典的组织方式。OM 法的分词词典每条词的前面必须有指明长度的数据项,所以其空间复杂度有所增加,对提高分词精度没有影响,分词处理的时间复杂度有所降低。

此种方法优点是简单,易于实现。但缺点有很多:匹配速度慢;存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没有统一标准的词集;不同词典产生的歧义也不同;缺乏自学习的智能性。

基于统计的分词方法

该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好地反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程 度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又称为无字典分词。

该方法所应用的主要的统计模型有:N 元文法模型(N-gram)、隐马尔可夫模型(Hiden Markov Model,HMM)、最大熵模型(ME)、条件随机场模型(Conditional Random Fields,CRF)等。

在实际应用中此类分词算法一般是将其与基于词典的分词方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

基于语义的分词方法

语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理,如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词法、特征词库法、矩阵约束法、语法分析法等。

扩充转移网络法

该方法以有限状态机概念为基础。有限状态机只能识别正则语言,对有限状态机作的第一次扩充使其具有递归能力,形成递归转移网络 (RTN)。在RTN 中,弧线上的标志不仅可以是终极符(语言中的单词)或非终极符(词类),还可以调用另外的子网络名字分非终极符(如字或字串的成词条件)。这样,计算机在 运行某个子网络时,就可以调用另外的子网络,还可以递归调用。词法扩充转移网络的使用, 使分词处理和语言理解的句法处理阶段交互成为可能,并且有效地解决了汉语分词的歧义。

矩阵约束法

其基本思想是:先建立一个语法约束矩阵和一个语义约束矩阵, 其中元素分别表明具有某词性的词和具有另一词性的词相邻是否符合语法规则, 属于某语义类的词和属于另一词义类的词相邻是否符合逻辑,机器在切分时以之约束分词结果。

基于理解的分词方法

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。

专家系统分词法

从专家系统角度把分词的知识(包括常识性分词知识与消除歧义切分的启发性知识即歧义切分规则)从实现分词过程的推理机中独立出来,使知识库的维护与推理机的实现互不干扰,从而使知识库易于维护和管理。它还具有发现交集歧义字段和多义组合歧义字段的能力和一定的自学习功能。

神经网络分词法

该方法是模拟人脑并行,分布处理和建立数值计算模型工作的。它将分词知识所分散隐式的方法存入神经网络内部,通过自学习和训练修改内部权值,以达到正确的分词结果,最后给出神经网络自动分词结果,如使用 LSTM、GRU 等神经网络模型等。

神经网络专家系统集成式分词法

该方法首先启动神经网络进行分词,当神经网络对新出现的词不能给出准确切分时,激活专家系统进行分析判断,依据知识库进行推理,得出初步分析,并启动学习机制对神经网络进行训练。该方法可以较充分发挥神经网络与专家系统二者优势,进一步提高分词效率。

以上便是对分词算法的基本介绍。

以上就是关于Python语言程序设计之程序设计基本方法全部的内容,包括:Python语言程序设计之程序设计基本方法、词法分析作为一个独立的阶段,主要考虑的因素有哪些、Python中文分词的原理你知道吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/9819536.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-02
下一篇2023-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存