Principios básicos del generador JavaCC
El generador JavaCC (Java Compiler Compiler) es una herramienta para generar programas escritos en lenguaje Java; acepta como entrada una especificación de un determinado lenguaje y produce como salida un analizador para ese lenguaje. En la manera más simple de funcionamiento, la especificación proporcionada define las características sintácticas y lexicográficas de un lenguaje y se genera un analizador léxico-sintáctico del lenguaje especificado; pero también es posible completar una especificación léxico-sintáctica con la inclusión adecuada de código para que el programa generado llegue a ser un analizador completo del lenguaje.
Obtención de un analizador léxico-sintáctico
• Pasos para la generación del analizador
1.- Edición de la especificación (editor de texto plano)
vi | edit | • • • NombreFichero.jj
(El nombre del fichero puede tener cualquier extensión; suele usarse .jj)
2.- Ejecución del generador
javacc NombreFichero.jj
como resultado de la generación se obtiene (además de otros ficheros auxiliares) el fichero NombreDeLaEspecif.java
3.- Compilación del analizador generado
javac NombreDeLaEspecif.java
Como resultado de la compilación se obtiene (además de otras clases auxiliares) el fichero
• Ejecución del analizador generado
Si el nombre del fichero donde se encuentra el texto fuente (escrito en el lenguaje para el que se ha generado el analizador) que se pretende analizar es Programa.len
java NombreDeLaEspecif < Programa.len
Si se desea que los resultados del análisis, en vez de presentarse por pantalla, queden grabados en un fichero de nombre Salida.dat
java NombreDeLaEspecif < Programa.len > Salida.dat
Ejemplo de presentación
• Descripción del lenguaje
El lenguaje L está formado por las expresiones en las que pueden aparecer:
- variables
- constantes
- operadores + y *
Las variables son nombres formados por una única letra (minúscula o mayúscula); las constantes son números enteros de una o más cifras. El espacio y el tabulador pueden estar presentes, pero no tienen ningún significado; los finales de línea tampoco son significativos (una expresión puede codificarse ocupando una o más líneas).
La sintaxis de las expresiones se especifica mediante la siguiente gramática:
::= { + }
::= { * }
::= variable
| constante
| ( )
• Especificación léxico-sintáctica codificada con la notación JavaCC
Una manera de escribir la especificación (para la que se ha elegido el nombre ExprMin) de forma que sea aceptada por el generador es:
options { Ignore_Case = true; }
PARSER_BEGIN (ExprMin)
public class ExprMin {
public static void main (String[] argum) throws ParseException {
ExprMin anLexSint = new ExprMin (System.in);
anLexSint.unaExpresion();
System.out.println("Análisis terminado:");
System.out.println
("no se han hallado errores léxico-sintácticos");
}
}
PARSER_END (ExprMin)
void unaExpresion() :
{ }
{
expresion()
}
void expresion() :
{ }
{
termino() ( "+" termino() )*
}
void termino() :
{ }
{
factor() ( "*" factor() )*
}
void factor() :
{ }
{
|
| "(" expresion() ")"
}
TOKEN:
{
< variable : ["a"-"z"] >
}
TOKEN:
{
< constante : ( ["0"-"9"] ) + >
}
SKIP:
{ " " | "\t" | "\n" | "\r" }
Obtención del analizador
Si la especificación precedente se tiene grabada en un fichero de nombre Ejemplo.jj, para obtener el analizador:
- se ejecuta el generador: javacc Ejemplo.jj
- se compila el analizador generado: javac ExprMin.java
• Ejecución del analizador
Si se quiere analizar una expresión grabada en un fichero de nombre PruebaExp.txt:
- se ejecuta el analizador obtenido: java ExprMin < PruebaExp.txt
Analizadores generados
En su funcionamiento más sencillo y habitual, JavaCC genera un analizador sintáctico, complementado con un analizador lexicográfico, para que, conjuntamente, se pueda realizar un análisis léxico-sintáctico de un texto de entrada.
El analizador sintáctico obtenido es, en general, LL(k): descendente y determinista con la consulta de k símbolos por adelantado; si la gramática proporcionada cumple la condición LL(1), se genera un analizador sintáctico descendente-predictivo-recursivo. Más adelante se hacen algunas precisiones sobre esta afirmación.
Si la especificación léxico-sintáctica de un lenguaje codificada en JavaCC tiene dado (como indicativo que acompaña a las palabras reservadas PARSER_BEGIN y PARSER_END) el nombre EspLexSin y se tiene grabada en un fichero de nombre Lenguaje.jj, cuando se ejecuta el generador tomando como entrada ese fichero
javacc Lenguaje.jj
Se obtienen los siguientes ficheros (clases) con código Java:
Token.java
Descripciones para la comunicación entre los analizadores léxico y sintáctico
TokenMgrError.java
Tratamiento de errores para el análisis lexicográfico
ParseException.java
Tratamiento de errores para el análisis sintáctico
SimpleCharStream.java
Componentes para la realización de las tareas de entrada/salida del analizador
EspLexSinConstants.java
Definición de la representación interna de las piezas sintácticas
EspLexSinTokenManager.java
Analizador lexicográfico
EspLexSin.java
Analizador sintáctico
Puede apreciarse que hay dos categorías de nombres de ficheros generados: los cuatro primeros nombres citados no dependen del nombre de la especificación considerada, los otros nombres de ficheros se forman a partir del nombre dado a la especificación.
Una especificación para el generador JavaCC puede considerarse dividida en cuatro secciones:
Sección de opciones
Sección de ejecución
Sección de sintaxis
Sección de lexicografía.
SITIO OFICIAL JAVACC