Construindo seu próprio compilador - Parte 1 - Programação - Mente Binária

Ir para conteúdo

Construindo seu próprio compilador - Parte 1
(3 análises)
Por Edinho Sousa

Janeiro 7, 2021 em 13:09
Compartilhar

Follow on

Seguidores 0
Os compiladores são ferramentas muito úteis e importantes no mundo da programação e desenvolvimento. A função básica dos compiladores é pegar uma linguagem de "alto nível" (linguagem com maior nível de abstração do hardware) e produzir um código semanticamente equivalente em "baixo nível". A velocidade de execução do código compilado é uma vantagem que se destaca, tendo em vista que o compilador faz otimizações no processo de compilação. Verificações de erros sintáticos e semânticos são outras funcionalidades também executadas pelo compilador.

Por que criar um compilador?

Além dos motivos mencionados anteriormente, a forma mais simples e rápida de entender como os compiladores funcionam é criando um. Neste tutorial iremos criar um compilador simples, porém abordando os principais conceitos da compilação de forma teórica e prática.
Para seguir esse tutorial será necessário o conhecimento de algoritmo e no mínimo uma linguagem de programação. Neste artigo estarei utilizando a linguagem C.

Antes de começarmos a criação do projeto, vamos organizar o nosso projeto:
- Criaremos uma linguagem que trabalha com números inteiros e reais;
- Utilizaremos condições (if, else, etc);
- Utilizaremos expressões aritméticas e relacionais;
Etapas da compilação

As etapas que um compilador executa são: Análise léxica, Análise sintática, análise semântica, otimizador de código e gerador de código objeto. Alguns compiladores tem uma estrutura bem mais complexa, dependendo da linguagem a ser compilada:

Nosso projeto terá as seguintes etapas: análise léxica, análise sintática, análise semântica e gerador de código. O gerador de código vai gerar um bytecode para uma máquina virtual que também vamos implementar. Bytecodes são instruções para uma máquina virtual, como mover um valor para a memória ou para um registrador, por exemplo. Abaixo podemos ver um trecho de código em Python e seus respectivos bytecodes:
```
def soma():
    print(10 + 10)
```
```
0 LOAD_GLOBAL      0 (print)
    2 LOAD_CONST      1 (20)
    4 CALL_FUNCTION  1
    6 POP_TOP
    8 LOAD_CONST      0 (None)
    10 RETURN_VALUE
```
No final desta série estaremos executando o seguinte código:
```
INIT
 
VAR max := 10
VAR num
 
INPUT num
 
IF (num < max)
    INIT
        PRINT 0
    END
 
ELSE
    INIT
        PRINT 1
    END
 
END
```
Análise Léxica

A análise léxica consiste em pegar cada caractere de uma linguagem e identificar os padrões da linguagem. Exemplo:
```
int a = 10
```
Aqui podemos identificar os seguintes padrões:
- int é uma palavra reservada do compilador;
- a é um identificador/variável;
- = é um sinal de atribuição;
- 10 é um número inteiro;
Ao realizar esse processo estamos identificando os lexemas, que são pedaços de uma string (texto), reconhecidos pelo analisador léxico. Os tokens são um par constituído de um nome e um valor de atributo, sendo este último opcional:
```
<tipo, valor>
```
Onde:
- tipo como o nome já diz seria o tipo do token.
- valor é o valor de um token. Alguns tokens não utilizam este campo.
Representação da análise léxica:

Para uma entrada como VAR num := 100 + 10 obtemos os seguintes tokens:
```
<PC_VAR> <ID, num> <OP_ATR> <T_INT, 100> <OP_MAIS> <T_INT, 10>
```
Onde:
- <PC_VAR> representa a palavra chave VAR;
- <ID, num> representa um identificador (variável ou função) tendo o valor num;
- <OP_ART> representa o operador de atribuição =;
- <OP_MAIS> representa o operador aritmético mais (+);
- <T_INT, 100>, <T_INT, 10> representa um inteiro com o valor 100 e 10 respectivamente;
Não se esqueça que os tipos de token são definidos por você!

Usarei o gcc como compilador C e o vscode como editor. Iremos começar de uma forma simples, melhorando tudo aos poucos, vamos nessa!

Essa é a estrutura de pastas do nosso projeto. Temos uma pasta para os headers, uma pasta src para o código fonte e a pasta exe, que terá o executável:

Escreva o texto seguinte no arquivo teste.txt:
```
INIT
PRINT 1 + 2 * 3
END
```
include/lex.h - Aqui simplesmente criamos um módulo para tratar da análise léxica e definimos a função que retorna um token:
```
#ifndef art_lex_h
#define art_lex_h
 
void proximo_token();
 
#endif
```
src/lex.c: Esta é nossa função inicial que lê cada caractere e mostra na console. Se o caractere for EOF, significa que não há mais caracteres no arquivo (fim de arquivo) e então paramos o loop:
```
#include <string.h>
#include <ctype.h>
 
#include "glob.h"
#include "lex.h"
 
// variável que passará por cada caractere do arquivo
static int c; 
 
void proximo_token()
{
    while (1)
    {
        c = fgetc(file);
 
        if (c == EOF)
            break;
 
        else
            printf("%c", c);
    }
}
```
includes/glob.h: Este outro arquivo serve para algumas definições globais (que vamos usar em mais de um arquivo). Definimos os tipos dos tokens, um enum para representar o token e uma struct com os campos tipo e val:
```
#ifndef art_glob_h
#define art_glob_h

#include <stdio.h>
#include <stdlib.h>

FILE *file;

// linha atual
static int linha = 1;

// tipos de tokens 
enum {
    // palavras chave
    PC_INIT, PC_END, PC_PRINT, PC_INPUT, PC_VAR, PC_IF, PC_ELSE, 

    // numeros
    T_INT,

    // operadores
    OP_MAIS, OP_MENOS, OP_MULT, OP_DIVI,

    // ( ) := < > <= >=  =
    T_LPARENT, T_RPARENT, T_ATRIB, T_MENOR, T_MAIOR, T_MENOR_I, 
    T_MAIOR_I, T_IGUAL,

    // identificador
    ID
};

typedef struct {
    int tipo;
    int val;
} Token;

Token tok;

#endif
```
src/main.c: Na função main iremos tentar abrir um arquivo. Caso haja algum erro o programa sairá mostrando a mensagem de erro. Caso contrário, leremos todos os caracteres do arquivo teste.txt. Vamos ver se funciona:
```
#include <stdlib.h>
 
#include "lex.h"
#include "glob.h"
 
int main(int argc, char *argv[])
{
    // abrir o arquivo
    file = fopen(argv[1], "r");
 
 
    if (file == NULL)
    {
        printf("Erro ao abrir o arquivo");
        exit(EXIT_FAILURE);
    }
 
    proximo_token();
 
    fclose(file);
    return EXIT_SUCCESS; // ou return 0
}
```
Para facilitar o processo de compilação usaremos o seguinte Makefile:
```
all:
    gcc -c src/lex.c -I includes -o exe/lex.o
 
    gcc src/main.c exe/*.o -I includes  -o exe/main
    rm -r exe/*.o
```
*Se você estiver em um ambiente Windows saiba que o comando rm -r exe/*.o não funcionará.

Ao executar o Makefile teremos na pasta exe o arquivo compilado. Ao executarmos teremos a seguinte saída:
```
INIT
PRINT 1 + 2 * 3
END
```
Perfeito! Por agora vamos ignorar espaços em branco, tabulação e quebra de linha.

Criaremos agora uma função que vai criar um token. Por enquanto ela irá apenas mostrar na saída algo como <’+’, 0> <’INIT’, 0>, mas depois vamos mudar isso.

lex.c: Aqui estamos somando 1 na variável linha para uso posterior em caso de nosso compilador ache um caractere que não existe em nossa linguagem (como um “$”, por exemplo):
```
void makeToken(char *nome, int val) // mostrar o token
{
    printf("<%s, %d>", nome, val);
}
 
void voltaPonteiro() // volta um caracter se necessário
{
    if (c != EOF)
        fseek(file, ftell(file)-1, SEEK_SET);
}
 
void proximo_token()
{
      // após o if
        else if (c == ' ' || c == '\t')
            continue;
 
        else if (c == '\n')
        {
            linha++;
            continue;
        }
}
```
No código acima temos uma função voltaPonteiro, que é responsável por voltar um caractere no arquivo. Em alguns casos vamos ter que ver o caractere a frente e depois voltar o caractere quando estivermos analisando uma palavra chave. Enquanto o caractere for alfanumérico o ponteiro avança.

Para facilitar o entendimento vamos utilizar a imagem abaixo como exemplo. Aqui reconhecemos a palavra num e paramos no caractere =, ou seja, reconhecemos o token <ID, num>. Quando vamos continuar o processo iniciamos do =, isto é, o próximo caractere é o espaço, seguido do número 1 e assim por diante. Tendo em vista que = é um caractere diferente do que estaríamos esperando iremos esquece-lo e então voltaremos um caractere parando assim no m.

lex.c: vamos reconhecer operadores aritméticos como mais (+), menos (-), multiplicação (*) e divisão (/):
```
void proximo_token()
{      
      // codigo anterior
      else if (c == '+')
            makeToken("+", 0);
 
        else if (c == '-')
            makeToken("-", 0);
 
        else if (c == '*')
            makeToken("*", 0);
 
        else if (c == '/')
            makeToken("/", 0);
 
      // codigo else
```
Ao compilar o código e executar teremos algo como:
```
$ ./exe/main.exe teste.txt
INITPRINT1<+, 0>2<*, 0>3END
```
lex.c: Agora vamos reconhecer os demais números, palavras, parênteses, etc:
```
else if (c == '+') {
            makeToken("+", 0);
        }
 
        else if (c == '-') {
            makeToken("-", 0);
        }
 
        else if (c == '*'){
            makeToken("*", 0);
        }
 
        else if (c == '/') {
            makeToken("/", 0);
        }
 
        else if (c == '(') {
            makeToken("(", 0);
        }
 
        else if (c == ')') {
            makeToken(")", 0);
        }
 
        else if (c == ':')
        {
            c = fgetc(file); // pega o próximo caractere
 
            if (c == '=') // se for '=' sabemos que é o token ':='
                makeToken(":=", 0);
        }
 
        else if (c == '<')
        {
            c = fgetc(file); // pega o próximo caractere
 
            if (c == '=') // se for '=' sabemos que é o token '<='
                makeToken("<=", 0);
 
            else
                makeToken("<", 0);
 
        }
 
        else if (c == '>')
        {
            c = fgetc(file);
 
            if (c == '=')
                makeToken(">=", 0);
 
            else
                makeToken(">", 0);
 
        }
 
        else if (c == '=') {
            makeToken("=", 0);
 
        }
 
        else if (isdigit(c)) {
            numero();
        }
 
        else if (isalpha(c)) {
            palavra();
        }
 
        else
        {
            printf("O caracter '%c' na linha %d nao reconhecido.\n", c, linha);
            exit(EXIT_FAILURE);
        }
```
lex.c: Temos duas novas funções, são elas palavra e numero:
```
void palavra()
{
    char palavra[100] = "";
    int pos = 0;
 
    while (isalnum(c))
    {
        palavra[pos++] = c;
        c = fgetc(file);
    }
 
    voltaPonteiro();
    if (strcmp(palavra, "INIT") == 0)
        makeToken("INIT", 0);
 
    else if (strcmp(palavra, "PRINT") == 0)
        makeToken("PRINT", 0);
 
    else if (strcmp(palavra, "INPUT") == 0)
        makeToken("INPUT", 0);
 
    else if (strcmp(palavra, "VAR") == 0)
        makeToken("VAR", 0);
 
    else if (strcmp(palavra, "IF") == 0)
        makeToken("IF", 0);
 
    else if (strcmp(palavra, "ELSE") == 0)
        makeToken("ELSE", 0);
 
    else if (strcmp(palavra, "END") == 0)
        makeToken("END", 0);
 
    else
        makeToken("ID", 0);
}
```
Não é a função mais otimizada que você já viu, mas funciona:
```
void numero()
{
    int k = 0;
    while (isdigit(c))
    {
        k = k * 10 + c - '0';
        c = fgetc(file);
    }
 
    voltaPonteiro();
    makeToken("T_INT", k);
}
```
Testamos o código agora:
```
$ ./exe/main teste.txt
<INIT, 0><PRINT, 0><T_INT, 1><+, 0><T_INT, 2><*, 0><T_INT, 3><END, 0>
```
Olha só, reconhecemos a maior parte dos tokens de nossa linguagem! Agora que tal mais um teste utilizando outro teste.txt?
```
INIT
 
VAR max := 10
VAR num
 
INPUT num
 
IF (num < max)
    INIT
        PRINT 0
    END
 
ELSE
    INIT
        PRINT 1
    END
 
END
```
```
$ ./exe/main teste.txt
<INIT, 0><VAR, 0><END, 0><:=, 0><=, 0><T_INT, 10><VAR, 0><END, 0><INPUT, 0><END, 0><IF, 0>
<(, 0><END, 0><<, 0><END, 0><), 0><INIT, 0><PRINT, 0><T_INT, 0><END, 0><ELSE, 0><INIT, 0>
<PRINT, 0><T_INT, 1><END, 0><END, 0>
```
Na próxima parte vamos fazer algumas alterações no analisador léxico e depois daremos início ao analisador sintático. Até lá. ?
Revisão: Leandro Fróes
2

3
Compartilhar
Follow on

Seguidores 0
Ir para lista de artigos

Feedback do Usuário
- 3 Análises
Participe da conversa

Você pode postar agora e se cadastrar mais tarde. Se você tem uma conta, faça o login para postar com sua conta.
Nota: Sua postagem exigirá aprovação do moderador antes de ficar visível.

Seu endereço de email Obrigatório

Isso não será mostrado para outros usuários.

Sua avaliação Obrigatório

1 2 3 4 5

Sua análise Obrigatório

Adicionar um análise...

× Você colou conteúdo com formatação.   Remover formatação

Apenas 75 emojis são permitidos.

× Seu link foi automaticamente incorporado.   Mostrar como link

× Seu conteúdo anterior foi restaurado.   Limpar o editor

× Não é possível colar imagens diretamente. Carregar ou inserir imagens do URL.

×

Computador

Tablet

Smartphone

MAIS ÚTEIS

Mais Recentes

Pablo Simplicio 2

Maio 15, 2021 em 22:28

   3 de 3 membros acharam esta análise útil 3 / 3 membros

Compartilhar esta análise

Muito bom, já tem continuação?

1

1

Link para a análise

Compartilhar em outros sites

Valmir Vasconcelos 1

Outubro 17, 2021 em 23:26

   2 de 2 membros acharam esta análise útil 2 / 2 membros

Compartilhar esta análise

Muito bom ? Continue, por favor.

1

1

Link para a análise

Compartilhar em outros sites

Otniel Eliazar Funny Gomes 1

Julho 29, 2022 em 14:20

   1 de 1 membros acharam esta análise útil 1 / 1 membro

Compartilhar esta análise

Sendo sinceros: -só novo nesse universo de evolução científicas atrasado pela linguagem da nossa independência G.B "Megatrote" vou estudar o código porque estou a encaixar as peças e veio me curiosidade por trás do compilador?

1

Link para a análise

Compartilhar em outros sites
Conteúdo Similar
- GambiConf: pra quem ama desenvolver projetos por pura curiosidade!
  
  Por Camilo de Azevedo, Agosto 28, 2023 em 19:11
  - evento
  - programação
  - (e 1 mais)
    
    Tags:
    
    evento
    
    programação
    
    hacking
  - 0 comentários
  - 1.399 visualizações
- Dúvida sobre a contagem dos ítens de um array em C
  
  Por Fabiano Furtado, Junho 10, 2022 em 18:25
  - c
  - 6 respostas
  - 1.117 visualizações
- Dicas para aprimorar o seu código de programação focando em segurança
  
  Por Gabriel Galdino, Maio 27, 2022 em 12:42
  - programação
  - segurança
  - (e 1 mais)
    
    Tags:
    
    programação
    
    segurança
    
    conviso
  - 1.586 visualizações
- manw
  
  Por Leandro Fróes, Março 7, 2022 em 21:03
  - linux
  - programação
  - (e 2 mais)
    
    Tags:
    
    linux
    
    programação
    
    windows
    
    engenharia reversa
  - 0 comentários
  - 712 visualizações
- Mais rápido que o APT: OPM é um gerenciador de pacotes DEB feito no Brasil
  
  Por Fernando Mercês, Janeiro 20, 2022 em 17:35
  - linux
  - programação
  - 1 comentário
  - 1.795 visualizações

Artigos mais lidos
- O que fazer antes que seu celular seja roubado
  
  Por Fernando Mercês
  Maio 14, 2019 em 22:19
- Extensões perigosas no Windows
  
  Por Fernando Mercês
  Dezembro 28, 2007 em 02:00
- Como ser um bom profissional em segurança da informação?
  
  Por Fernando Mercês
  Junho 5, 2015 em 03:00
- Como são feitos os keygens
  
  Por Fernando Mercês
  Maio 12, 2011 em 03:00
- Especificações da linguagem C
  
  Por Fernando Mercês
  Março 4, 2012 em 13:00
- O que fazer com o C que se aprendeu na faculdade
  
  Por Fernando Mercês
  Janeiro 6, 2011 em 12:00
- Comparando executáveis
  
  Por Fernando Mercês
  Outubro 18, 2018 em 06:22
- Montando sua máquina virtual para engenharia reversa em Windows
  
  Por Fernando Mercês
  Março 18, 2014 em 13:00
- Filmes e séries sobre informática
  
  Por Fernando Mercês
  Janeiro 30, 2017 em 02:00
- Entenda o DNS sobre HTTPS
  
  Por AndreAlves
  Maio 6, 2018 em 21:37
Tweets by mentebinaria

×

Home
- Voltar
- Home
- Todas Atividades
- Notícias
- Eventos
- Blogs
- Regras
- Sobre
- Usuários Online
Ensino
Pesquisa
Fóruns
- Voltar
- Fóruns
- Clubes
Loja
- Voltar
- Loja
- Camiseta

×

Criar Novo...