词法分析（编译）_CMS教程

#include <stdioh>

#include <stdlibh>

#include <stringh>

#include <ctypeh>

#include <conioh>

int IsLetter(char ch)

{

if (isalpha(ch))

return 1;

return 0;

}

int IsDigit(char ch)

{

if (isalnum(ch))

return 1;

return 0;

}

int IsSpace(char ch)

{

if (isspace(ch))

return 1;

return 0;

}

void GetChar(FILE fp, char ch)

{

ch = fgetc(fp);

}

void GetBC(FILE fp,char ch)

{

GetChar(fp,ch);

}

while (IsSpace(ch) && (ch != EOF));

}

void Retract(FILE fp, char ch)

{

fseek(fp,-1,SEEK_CUR);

ch = ' ';

}

char Reserve(char strToken)

{

if (strcmp(strToken,"BEGIN") == 0) return '1';

if (strcmp(strToken,"FOR") == 0) return '2';

if (strcmp(strToken,"END") == 0) return '3';

if (strcmp(strToken,"DIM") == 0) return '4';

if (strcmp(strToken,"WHILE") == 0) return '5';

if (strcmp(strToken,"STOP") == 0) return '6';

if (strcmp(strToken,"IF") == 0) return '7';

if (strcmp(strToken,"ELSE") == 0) return '8';

if (strcmp(strToken,"INT") == 0) return '9';

return '0';

}

void Concat(char strToken, char ch)

{

int i;

for (i=0;i<80;i++)

{

if (strToken == NULL)

{

strToken = ch;

break;

}

strToken++;

}

int lexSubFunc(FILE fp1,FILE fp2)

{

char ch,code;

int i;

char strToken[80];

while (1)

{

GetBC(fp1,&ch);

for (i=0;i<80;i++) strToken[i]=' ';

if (ch == EOF) return 0;

if (IsLetter(ch))

{

while (IsLetter(ch) || IsDigit(ch))

{

Concat(strToken,&ch);

GetChar(fp1,&ch);

}

Retract(fp1,&ch);

code = Reserve(strToken);

if (code == '0')

{

printf("<$ID,%s>\n",strToken);

fputs("<$ID,",fp2);

fputs(strToken,fp2);

fputs(">\n",fp2);

}

else

{

printf("<%c,->\n",code);

fputs("<",fp2);

fputc(code,fp2);

fputs(",->\n",fp2);

}

else if (IsDigit(ch))

{

while (IsDigit(ch))

{

Concat(strToken,&ch);

GetChar(fp1,&ch);

}

Retract(fp1,&ch);

printf("<$INT,%s>\n",strToken);

fputs("<$INT,",fp2);

fputs(strToken,fp2);

fputs(">\n",fp2);

}

else if (ch == '=')

{

printf("<$ASSIGN,->\n");

fputs("<$ASSIGN,->\n",fp2);

}

else if (ch == '+')

{

printf("<$PLUS,->\n");

fputs("<$PLUS,->\n",fp2);

}

else if (ch == '')

{

GetChar(fp1,&ch);

if (ch == '')

{

printf("<$POWER,->\n");

fputs("<$POWER,->\n",fp2);

}

else

{

Retract(fp1,&ch);

printf("<$STAR,->\n");

fputs("<$STAR,->\n",fp2);

}

else if (ch == ';')

{

printf("<$SEMICOLON,->\n");

fputs("<$SEMICOLON,->\n",fp2);

}

else if (ch == '(')

{

printf("<$LPAR,->\n");

fputs("<$LPAR,->\n",fp2);

}

else if (ch == ')')

{

printf("<$RPAR,->\n");

fputs("<$RPAR,->\n",fp2);

}

else if (ch == '{')

{

printf("<$LBRACE,->\n");

fputs("<$LBRACE,->\n",fp2);

}

else if (ch == '}')

{

printf("<$RBRACE,->\n");

fputs("<$RBRACE,->\n",fp2);

}

int main()

{

FILE fp1,fp2;

if ((fp1=fopen("abctxt","r"))==NULL)

{

printf("Cannot open file");

getch();

exit(1);

}

if ((fp2=fopen("outtxt","w"))==NULL)

{

printf("Cannot create outtxt");

getch();

exit(1);

}

lexSubFunc(fp1,fp2);

fclose(fp1);

fclose(fp2);

return 0;

}

任务1：识别小型语言所有单词的词法分析程序设计

源程序设计语言 G[<程序>]

<程序>→<变量说明><BEGIN> <语句表> <END>

<变量说明>→VAR<变量表>:<类型>；|<空>

<变量表>→<变量表>,<变量>|<变量>

<类型>→INTEGER

<语句表>→<语句> | <语句>;<语句表>

<语句>→<赋值语句>|<条件语句>|<WHILE语句>|<复合语句>

<赋值语句>→<变量>:=<算术表达式>

<条件语句>→IF<关系表达式>THEN<语句>ELSE<语句>

<WHILE语句>→WHILE<关系表达式>DO<语句>

<复合语句>→BEGIN<语句表>END

<算术表达式>→<项>|<算术表达式>+<项>|<算术表达式>-<项>

<项>→<因式>|<项><因式>|<项>/<因式>

<因式>→<变量>|<整数>|(<算术表达式>)

<关系表达式>→<算术表达式><关系符><算术表达式>

<变量>→<标识符>

<标识符>→<标识符><字母>|<标识符><数字>|<字母>

<整数>→0|<非零数字><泛整数>

<泛整数>→<数字>|<数字><泛整数>|ε

<关系符>→<|<=|==|>|>=|<>

<字母>

→A|B|C|D|E|F|G|H|I|J|K|L|M|N|O|P|Q|R|S|T|U|V|W|X|Y|Z

<非零数字>→1|2|3|4|5|6|7|8|9

<数字>→<非零数字>|0

<空>→

要求和提示：

词法分析阶段，可以打开任意位置和名称的源文件进行词法分析，可以进行非法字符和数字后边跟字母的错误判断，如果没有错误则提示“词法分析正确完成！”，并且可以选择输出tokentxt（token文件）stringtxt（符号表）两个文件；

1．词法分析程序的主要任务如下：

① 组织源程序的输入，识别出源程序中的各个基本语法单位（也称为单词或语法符号），按规则转换成二元式的形式；

② 删除无用的空白字符、回车符、及其它非实质性符号；

③ 删除注解行；

④ 为后面的语法和语义分析提供二元式链表；

单词编码单词编码

标识符 1 < 15

正整数 2 <= 16

BEGIN 3 > 17

END 4 >= 18

IF 5 <> 19

THEN 6 == 20

ELSE 7 ； 21

WHILE 8 ． 22

DO 9 := 23

INTEGER 10 ， 24

+ 11 ( 25

- 12 ） 26

/ 14

1) 对标识符的长度控制在8个字符（包括8个）以内，超过的做截断处理；

2) 数字不大于65535，否则报错；

3) 能跳过源程序中的空白格：两个单词之间的任何空格，制表符，回车，换行都是白空格，除了用来分隔单词以外，没有意义；

4) 能跳过注释：

a) 接连出现的/到下一次接连出现的/之间的任何文字都是注释（多行）；

b) 从某行接连出现的//到该行的结尾的任何文字都是注释（单行）。

3怎样编写词法分析程序：

1）预处理：把源文件一个字符一个字符的读入词法分析程序设置的输入字符结构体数组中（输入缓冲区），读入过程要删除注释，删除多余的白空格；

2）从源程序字符数组中获得单词, 编码为二元式：

二元式采用结构体数组存储, 把单词类型和词元记录下来。

分解单词的方法：

1） Case多路转换语句根据单词的特点直接编写；

2）通过描述单词的正规文法得到相应的有穷自动机，通过case多路转换语句完成有穷自动机的处理流程。

3．编写词法分析程序要注意的问题：

1）检查词法是否有错误

检查是否有非法字符：如 @, &, !

检查标志符和数字是否满足限制条件

检查注释符号是否配对

2）符分隔单词

能够区分两个单词的符号为界符

有些界符不是单词：如白空格

有些界符仅仅用来分隔：如；

有些界符本身还是源程序不可缺少的单词，如(, ), +, /, 等等

有些界符包含两个字符：如<>, >=等等

3）输出词法错误

如果有错误，需要报告词法错误的原因。并且要能够越过错误，分解下一个单词，直到源程序结束。

4）输出的二元式流保存在二元式结构体数组中。

语言

正则表达：

正则表达式可以由较小的正则表达式递归构建。每个正则表达式r定一个语言记作L(r)。

正则表达式优先级为：克林闭包>连接>或。

简单来说就是重定义。

例如：

letter -> 字母

number -> 数

\d -> 整数

系统根据 当前状态 与 当前的输入信息 决定 后继行为 。

每当处理完当前输入后，状态也发生改变。

如果给定输入串x，如果存在对于该串 从初始状态到某个终止状态 的转换序列，则该串被该FA 接收。

例：对于FA

abbaabb 是被接收的，而 abbaaba 则不被接收。

重点： 转换表 ；

一个有穷自动机可以由转换表表示。

例：

以上两种自动机都可以用正则表达式来表示。

事实上， 正则表达式与有穷自动机是等价的 。

从人的角度看，NFA比DFA更加直观；但对于程序来说，DFA比NFA容易实现。

直接从RE转换到DFA是比较困难的，所以一般通过NFA作为中介。

DFA中的每个状态都是NFA中状态集合的一个子集。

即，先写出NFA的转换表，再通过新的状态构建出DFA。

例：

记数字为，字母为，那么标识符的正则表达式为：

这个正则表达式转换为NFA，表示如下：

这个NFA同时也是一个DFA，所以不用再进行转换。

记：

数字

数字串

小数部分

指数部分

数

即一个数由一个数字串+可选的小数部分+可选的指数部分构成。

转换为NFA，表示如下：

通过子集构造法，将NFA转换为DFA：

可以表示10进制、8进制、16进制的DFA：

以上就是关于词法分析（编译）全部的内容，包括:词法分析（编译）、c语言词法分析器、【编译原理】第三章：词法分析等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10211882.html

词法分析（编译）

发表评论

评论列表（0条）