Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Capi'tulo 7 Herramientas de recuperacion de datos:resumen у ampliacion

Resumen

Este capftulo tiene un caracter complementario con respecto a todos los anteriores. Su obje- tivo fundamental radica en el analisis de algunas herramientas que permiten recuperar у procesar informacion obtenida directamente de textos о corpus textuales, sin la interme- diacion de las aplicaciones de consulta que hemos venido utilizando hasta ahora. Como es logico, esta tarea exige una cierta familiaridad con procedimientos informaticos, pero todo el capftulo se mueve en un nivel elemental у no precisa conocimientos especializados.

Introducción

En los capftulos anteriores hemos estado trabajando con aplicaciones de consulta cons- truidas expresamente para explotar corpus textuales de muy distinta naturaleza, у hemos podido comprobar la flexibilidad у comodidad con que los diferentes corpus estudiados per- miten recuperar de forma selective la informacion que necesitamos. El procedimiento que he seguido pretende combinar el analisis del problema lingiifstico concreto que se plan- tea con la exposicion de los procedimientos que hay que utilizer en cada caso. Como ha podido observarse, los corpus presentan diferentes niveles de codificacion, distintos grados de anotacion morfosintactica у tambien diversos modos de utilizar esos rasgos para obtener los datos relevantes en cada ocasion. Dado que la organizacion de los capftulos anteriores atiende mas a los fenomenos que a los procedimientos, tratare en este capftulo de resumir lo que hemos utilizado, ahora reorientado desde el punto de vista de los procedimientos.

Por otro lado, las ventajas que presentan los corpus ya construidos у la comodidad que suponen nos permiten obtener todo о casi todo lo que podemos necesitar. Sin embargo, no sirven de mucho cuando hay que trabajar con un texto о una serie de textos no integra- dos en un corpus abierto a la consulta publica, о bien es necesario filtrar о reordenar los ejemplos obtenidos. Siendo realistas, no podemos esperar alcanzar por nuestra cuenta los resultados que en la codificacion, anotacion у explotacion consiguen los equipos formados por lingiiistas e informaticos profesionales, pero es relativamente sencillo lograr cierta sol- tura en el rnanejo de algunas herramientas о aplicaciones informaticas que nos propor- cionen al rnenos una buena parte de los datos que necesitamos para nuestra investigacion. El enorrne cambio que se ha producido gracias a la difusion de las redes у los recursos dis- ponibles en la web hacen que la construccion de un corpus especffico para una determinada investigacion sea algo perfectamente realizable por una sola persona, en un tiempo reducido у mediante la aplicacion de unos conocimientos bastante elementales. Cualquier persona con acceso a Internet puede reunir en pocos minutos una gran cantidad de textos en formato electronico de alguno(s) de los muchos repositorios que contienen textos en formato elec- tronico libremente descargables у procesables, о bien acceder a las paginas de los cientos de publicaciones periodicas disponibles e importar las noticias, reportajes, editoriales, etc. que figuran en esa publicacion en un momento determinado, un perfodo concreto, un cierto tema, etc. En una lfnea diferente, es bastante sencillo automatizar una parte de los procesos necesarios para extraer informacion de, por ejemplo, nn conjunto de documentos notariales, un archivo, un expediente, etc. Por supuesto, podemos encontrarnos tambien con la nece- sidad de complementar los materiales integrados en un corpus determinado. Como hemos visto en el capi'tulo 3, los corpus de referencia necesitan mantener el equilibrio entre sus diversos componentes, de modo que no es previsible que en ellos se pueda investigar un determinado fenomeno en, por ejemplo, la obra completa de un autor. Con un caso que hemos visto en los capitulos anteriores, el CREA у el CORPES nos permiten estudiar la utilizacion de adverbios en -mente en algunas obras de Garcia Marquez (las incluidas en ambos corpus), pero no en su totalidad. Para tratar un tema сото ese es necesario disponer (con los permisos necesarios, сото es logico) de la totalidad de las obras sobre las que se quiera trabajar.

Ampliando ligeramente el circulo de las posibilidades, podriamos estar interesados en investigar aspectos сото (entre otros muchos) los siguientes:

  • • Averiguar si un elemento (una palabra, una expresion) se documenta en un cierto autor о un determinado conjunto de obras, con su frecuencia, localizacion, etc.
  • • Obtener la lista de todas las formas ortograficas о todos los lemas documentados en un cierto autor о un determinado conjunto de obras, con sus frecuencias general у normalizada.
  • • Extraer las combinaciones de palabras que se documentan con cierta frecuencia en un texto о conjunto de textos.
  • • Obtener las coapariciones de una palabra en un texto о conjunto de textos.
  • • Identificar los elementos lexicos de especial relevancia en un texto о conjunto de textos (las keywords).
  • • Determiner los entornos sintacticos mas habituales de una palabra.
  • • En una obra narrativa, diferenciar entre las expresiones utilizadas por el narrador у las correspondientes a los distintos personajes.
  • • Contraponer el lexico о las estructuras gramaticales utilizadas por el mismo autor en dife- rentes obras о bien en diferentes partes de la misma obra.

En definitive, se trata de la posibilidad de analizar muy diferentes tipos de problemas linguisticos, pero que tienen en comun un universo de analisis constituido por un conjunto cerrado у complete (para los propositos de la investigacion), que es algo habitualmente no tratable en un corpus general que ha de someterse a factores сото la representatividad о el equilibrio entre los diferentes tipos de texto que lo componen. En la relacion (muy parcial) de temas mencionados puede observarse la existencia de aspectos bastante distintos. De una parte, los temas que pueden ser estudiados en un corpus general, pero aplicados ahora a un conjunto especificado (toda la obra de un autor, por ejemplo, frente a las que pueden haber sido incorporadas a un corpus). De otra, aspectos que en un corpus de referencia son anali- zados en general, pero no para una obra о un autor concretos, сото, por ejemplo, una lista de formas о de lemas. En tercer lugar, analisis que suponen el contraste entre diferentes segmentos de una obra, сото, por ejemplo, las intervenciones de distintos personajes, diferentes partes о capitulos, etc.1

Existen, pues, varias vfas mediante las cuales una persona formada en el mundo de los estudios linguisticos (o literarios) puede obtener los datos necesarios para llevar adelante su investigacion. En primer lugar, por supuesto, la utilizacion de todos los recursos que ponen a su disposicion las aplicaciones de consulta que trabajan con corpus ya construidos. Es la lfnea que hemos seguido hasta este momento у que revisaremos en algunos de sus detalles en el apartado siguiente. En segundo lugar, es posible familiarizarse con algunas de las aplica- ciones ya desarrolladas para el analisis de corpus textuales. Muchas de ellas son de caracter gratuito о requieren el pago de cantidades de escasa importancia, tienen versiones para diferentes sistemas operativos у resultan normalmente faciles de instalar у manejar. En una lfnea distinta, aunque conectada, cabe utilizar algunas aplicaciones disenadas especffica- mente para obtener cierto tipo de informaciones (por ejemplo, listas de formas de un texto), сото las que mencionare a continuacion. Por fin, la via a la que, por su importancia, dedicare la mayor parte de este capftulo pasa por la familiarizacion con utilidades incorporadas a algunos sistemas operativos con las que es posible obtener, procesar у reconvertir una gran cantidad de informacion textual. En terminos generales, este ultimo camino supone un mayor esfuerzo en los primeros pasos (siempre, claro esta, en funcion de los conocimientos previos de cada uno), pero no es excesivamente costoso lograr el dominio de los conceptos у tecnicas fundamentales para conseguir extraer informacion de interes de un conjunto de textos tan amplio сото sea necesario.

La lfnea de las aplicaciones ya existentes pasa por la utilizacion de recursos сото Word- Smith, MonoConc о AntConc. WordSmith Tools, probablemente la mas conocida у exten- dida entre los usuarios del sistema operativo Windows, requiere la compra tras un perfodo de prueba, pero puede conseguirse gratuitamente una version anterior, suficiente para la mayor parte de lo que se necesita obtener de un conjunto de textos. AntConc, por su parte, tiene versiones para Windows, Linux у macOS у se distribuye gratuitamente. Contiene algunas utilidades menos que WordSmith,2 pero ofrece casi todo lo que se necesita para el analisis de los textos у anade la enorme ventaja de ser utilizable desde diferentes sistemas operativos. En terminos generales, aplicaciones сото las mencionadas han sido disenadas precisamente para la explotacion de corpus textuales, de modo que facilitan la obtencion de resultados elaborados сото las concordancias, coapariciones, palabras clave, etc., con posibilidad, a veces, de filtrar los resultados segun las caracterfsticas de los textos. En otras palabras, proporcionan resultados del estilo de los que hemos obtenido en los capftulos 4 у 5 con textos que nosotros mismos hemos podido preparar para su procesamiento. En este capftulo no se hablara mas de aplicaciones de este tipo, que tienen sus ficheros de ayuda, gufas de uso, etc.

Relacionada con esta posibilidad esta otra, de gran interes para algunos objetivos, que consiste en la utilizacion de aplicaciones capaces de trabajar, en muchos casos a traves de Internet, con textos introducidos por quienes estan realizando la investigacion. Un ejemplo interesante de esta lfnea es el representado por las utilidades de uso libre disponibles en la pagina web de Lognostics5 (cf. Meara у Miralpeix 2017). Se trata de un conjunto variado de programas que llevan a cabo muy distintas tareas de analisis del contenido de textos у labores complementarias, dirigidas todas ellas al estudio del vocabulario de estudiantes de una lengua extranjera. Como todas las aplicaciones ya construidas, las desarrolladas en ese proyecto tienen la ventaja de que son inmediatamente utilizables, con una curva de aprendizaje muy favorable, у el inconveniente de que se ajustan a un cierto objetivo у tienen determinadas restricciones en, por ejemplo, el tamano de los textos de entrada.

Para anotacion morfosintactica у sintactica puede utilizarse la version de demostracion de FreeLing. El proyecto Linguakit reune en un recurso unico muy diversas utilidades у aplicaciones: frecuencias de palabras, concordancias, palabras clave de un texto, extraccion de unidades multipalabra, extraccion de terminos tecnicos, reconocimiento de entidades nombradas, etc. у, por supuesto, etiquetacion morfosintactica у analisis sintactico.4

En los apartados siguientes, resumire у reordenare en primer lugar los procedimientos que hemos utilizado en los capftulos anteriores у centrare el resto del capftulo en la exposicion de algunas de las utilidades mas interesantes para nuestros fines que se pueden localizar en distintos sistemas operativos para computadoras.

 
<<   CONTENTS   >>

Related topics