Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

El futuro de la LC

A lo largo de los apartados у capftulos anteriores ha podido observarse el modo en que la LC ha evoluctonado en general у tambien en la lingiifstica hispanica a lo largo de sus sesenta anos de vida. Son varias las h'neas que establecen el contexto en que tiene lugar esta evolucion. En primer lugar, la simplificacion у aharatamiento de las tareas necesarias para construir un corpus. Gracias a las enormes mejoras que han experimentado todos los pro- cesos vinculados a la informatica, hemos podido pasar de tener que picar de nuevo todos los textos en tarjetas perforadas, сото se hizo para el Brown Corpus у rnuchos otros, a la detec- cion, integracion, codificacion у anotacion automatica de textos ya existentes en la web. La fortisima reduccion de costes que todo esto supone ha permitido pasar de objetivos сото construir un corpus de un millon de formas, con varios anos de trabajo para conseguirlo, a lograr tamanos de varios miles de millones о incluso corpus sistematicamente abiertos, con lo que estos recursos han experimentado una enorme mejora cuantitativa que se ha conver- tido en un gran cambio cualitativo.

De toda esa evolucion deriva la segunda linea de progreso de la LC. En sus orfgenes, la construccion de corpus se justifica para la mejora de los analisis de frecuencias lexicas (el Brown Corpus), la mejora en la construccion de diccionarios (sobre todo de aquellos con enfoque diacronico, сото el TLF о el DOSL) о la obtencion de los materiales necesarios para mejorar la ensenanza у el aprendizaje de lenguas extranjeras (el COBUILD, por ejenv plo). En la situacion actual, el uso de corpus сото recurso basico se da a lo largo у ancho de todas las disciplinas у especialidades lingiiisticas. Esta ampliacion de areas esta relacio- nada tambien con los enormes avances logrados en los aspectos computacionales, con las deslumbrantes mejoras en la capacidad de memoria у la velocidad de las computadoras. No se trata simplemente de poder acumular mas textos у recuperar la informacion con mas rapidez, sino, sobre todo, de que esas mejoras permiten enriquecer la codificacion de los textos у afinar los procesos de lematizacion у anotacion, con lo que las ventajas de emplear los corpus сото fuente fundamental de datos se extiende a todas las disciplinas lingiiisticas). La revolucion experimentada en la lexicografia contemporanea es un buen exponente de todo esto. Por ultimo, es necesario tener en cuenta los cambios derivados de la aparicion у difusion de Internet, con la configuracion de la web сото factor fundamental, pero no unico, puesto que en ese punto se situa tambien todo lo relacionado con la ampliacion у simplificacion de la consulta de los corpus: en la mayor parte de los casos, boy pueden ser consultados desde cualquier lugar del mundo у sin necesidad de utilizar programas especiales.

La evolucion de la LC en los proximos anos pasara, sin duda, por la profundizacion en todos estos aspectos у su integracion. Los progresos en la capacidad de memoria у la velocidad de las computadoras, aliados con su abaratamiento, facilitaran la construccion de corpus de gran tamano. Naturalmente, no desaparecera la oposicion entre corpus pequenos, homoge- neos у de codificacion muy cuidada —small and tidy en la expresion de Mair (2006)—, у los grandes corpus, un tanto informes у heterogeneos —big and messy. La evolucion en este aspecto vendra por la consecucion de corpus de referencia, con tamanos de rnuchos cientos de millones de formas, pero con un control у una codificacion de textos que permita la recti' peracion selective de informacion por todos los parametros pertinentes. Es decir, corpus big and tidy, para seguir usando la expresion de Mair.

La insistencia en los tamanos de los corpus es comprensible у tiene su justificacion teorica en el caracter forzoso de muestra que tienen estos recursos. Sin embargo, el aspecto realmente decisivo es ya el grado de codificacion у anotacion que se anada a los textos. Es decir, no se trata solo de poder acceder a un total de miles de millones de formas, sino de que sea posible organizar la consulta de modo que podamos recuperar los casos que corres- ponden a un pafs, una cierta epoca, un tipo de texto determinado, etc. Estos aspectos se refieren, por supuesto, a los esperables en un corpus de referenda del espanol, pero tienen sus equivalentes en cualquier otra clase de corpus. A partir de un cierto tamano, que depende de los objetivos con los que se construya el corpus, lo cualitativo prima claramente sobre lo cuantitativo.

Algo parecido se puede decir de la anotacion. La adicion de informacion morfosintactica es imprescindible para analisis gramaticales у muy conveniente para analisis lexicos, de modo que ya no se construiran corpus no anotados. El avance en esta direccion exige mejoras importantes en dos direcciones distintas. Por una parte, las tasas de acierto en el proceso de desambiguacion deben subir. El trabajo en lingufstica computacional deberfa facilitarnos corpus anotados morfosintacticamente con un porcentaje de error proximo al 0 % en corpus con un detalle aceptable para la generalidad de los trabajos gramaticales. Por otra, es evidente que la informacion morfosintactica es solo el primer paso, imprescindible, pero insuficiente, para la mayor parte de los estudios sintacticos у las aplicaciones vinculadas a diferentes aspectos de ingenierta lingufstica (сото la traduccion automatica, por ejemplo). Es necesario disponer de corpus anotados desde los puntos de vista sintactico (tree-banks), semantico у pragmatico, lo cual requiere, a partir de un determinado volumen, el desarrollo de analiza- dores sintacticos, semanticos у pragmaticos automaticos.

Esta tarea, enormemente compleja en sf misma, tiene, ademas, dos terrenos en los que sera necesario realizar un esfuerzo complementario de gran importancia. La facilidad у velo- cidad de las comunicaciones que caracteriza actualmente a nuestro mundo ha tenido, entre otras consecuencias, la aceleracion de los procesos de cambio lingiifstico, con lo que hoy se habla con total naturalidad de estudios diacronicos para caracterizar, por ejemplo, los que comparan la lengua actual con la de hace cincuenta anos. No hay, en general, problemas especiales, que aparecen en cambio con toda su importancia cuando hay que enfrentarse con la lengua de los Siglos de Ого о de la Edad Media. Las diferencias de todos los tipos, comenzando por los usos ortograficos, que surgen en un corpus diacronico en el sentido tradicional hacen que el trabajo necesario para anotar textos de diferentes epocas exija muchfsimo mas trabajo у este mas expuesto a errores. Es, sin embargo, un terreno en el que la LC ha permitido grandes avances en nuestro conocimiento, de modo que es forzoso seguir profundizando en la construccion, codificacion, anotacion у explotacion de corpus diacronicos.

Los corpus multilingues paralelos pueden ser otro sector crucial, puesto que su construe- cion requiere la realizacion de los trabajos correspondientes a cada una de las lenguas impli- cadas, su armonizacion у todo lo derivado de la alineacion de los fragmentos correspondientes a todas las lenguas, a ser posible hasta el nivel de la palabra. Pero son, en mi opinion, los corpus orales los que constituyen el mayor desafto con el que la LC tiene que enfrentarse en los proximos anos. Se ha aludido en varias ocasiones a las dificultades existentes para afrontar la construccion de estos corpus. Aunque se detectan progresos importantes en la transcrip- cion automatica, buena parte del trabajo de transcripcion sigue siendo manual, con lo que los costes se encarecen considerablemente. A ese aspecto, tan evidente, se surnan otros a los que se alude con menos frecuencia. La lengua oral se diferencia en muchos aspectos de la lengua escrita у estas diferencias no estan reducidas unicamente a factores vinculados al registro informal (que se manifiestan en el lexico, la pronunciacion de ciertos elementos, etc.)- El problema mas importante para todo lo que implique un analisis gramatical es que las gramaticas habituales estan basadas en la lengua escrita, pero las unidades que se dan en los textos orales no tienen la estructuracion en oraciones, con funciones oracionales, frases nominales, adjetivas, etc. Es preciso, por tanto, trabajar de otro modo у esa diferencia se refleja incluso en la conveniencia de no caer en la tentacion de usar, en la transcripcion de textos orales, los signos de puntuacion que estamos acostumbrados a emplear en la lengua escrita. El desafio de la LC en los proximos anos se situara, en buena parte, en el desarrollo de herramientas de analisis automatico para textos orales у tambien para la enorme cantidad de textos escritos que, al estilo de los que encontramos en tuits, blogs, SMS, wasaps у otros tipos textuales surgidos en los ultimos anos que emplean el soporte escrito, pero no responden a las estructuras habituales en este tipo de textos.

De los textos orales у la creciente importancia que estan adquiriendo en la LC deriva otro factor que va a experimentar un desarrollo muy importante en los proximos anos. Si se pre- tende identificar у analizar los elementos lingiiisticos que intervienen en, por ejemplo, una conversacion, parece claro que no podemos limitarnos a transcribir el sonido. Los mecanis- mos conversacionales implican miradas, gestos у algunos otros mecanismos cuyo estudio requiere trabajar con la imagen, con una imagen que esta alineada con el audio y, natural' mente, con la transcripcion. Es decir, se trata de reforzar у ampliar la construccion de corpus multimodales que podri'an alinear, por ejemplo, audio, transcripcion ortografica, analisis morfosintactico, analisis sintactico e imagen. Esta multiplicidad de niveles se aplica tambien a textos escritos en los que, сото sucede ya en proyectos сото Biblia Medieval, CHARTA о CORDIAM, se vinculan las ediciones paleograficas у ediciones crfticas con la imagen del manuscrito.

 
<<   CONTENTS   >>

Related topics