Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Capítulo 1 La explotación básica de los corpus

Resumen

Este capi'tulo pretende proporcionar una idea general de las grandes areas у temas de la lingiii'stica en las que el uso de corpus textuales puede ser de utilidad. Este primer analisis ha de ser forzosamente superficial, de modo que muchas de las cuestiones mencionadas aqui son retomadas у analizadas posteriormente con mayor profundidad. La intencion basica es la de mostrar, en diferentes areas, que los corpus constituyen el modo mas adecuado de llevar a cabo estudios de caracter empi'rico (con datos objetivos, replicables у pertinentes con relacion al fenomeno estudiado).

Frente a la tecnica adoptada en capitulos posteriores, en este no hay descripcion de los procedimientos necesarios para obtener los datos expuestos, por lo que, en algunos casos, se remite la descripcion que se hace en apartados posteriores.

¿Qué es un corpus?

Tratando de sintetizar las numerosas definiciones que se han dado de los corpus textuales, podemos partir de la siguiente: Un corpus es un conjunto de (fragmentos de) textos, ora- les о escritos, producidos en condiciones naturales, conjuntamente representatives de una lengua о una variedad lingufstica, en su totalidad о en alguno(s) de sus componentes, que se almacenan en formato electronico у se codifican con la intencion de que puedan ser analizados cientfficamente (cf. Rojo 2014a, 371). Veamos con mas detalle cada uno de los rasgos utilizados en la definicion.

Los textos que integran el corpus deben haber sido producidos en situaciones naturales. Es decir, antes de su inclusion en el corpus, los textos (o fragmentos de textos, cf. Sinclair 1996) fueron creados сото una novela, una obra de teatro, una noticia de un periodico, una carta personal, un mensaje de correo electronico si se trata de textos escritos о bien una conversacion en una cafeteria, una tertulia radiofonica, una conferencia, un discurso parla- mentario о una clase si se trabaja con textos orales. Se trata, pues, de textos generados con intencion real de comunicar algo, no concebidos para ilustrar un determinado fenomeno lingiifstico, сото sucede con los ejemplos creados expresamente para ejemplificar una acep- cion en un diccionario о un esquema sintactico en una gramatica.

Los textos que componen el corpus deben ser conjuntamente representatives de una lengua о una variedad lingufstica en un momento determinado de su historia о bien a lo largo de un cierto perfodo. Como veremos en el apartado 6.4, el concepto de representatividad es bastante complejo, de modo que tenemos que limitarnos aquf a la idea de que el analisis del conjunto de textos integrados en un corpus debe dar una vision adecuada de aquello que pretende representar. Una consecuencia inmediata de lo anterior consiste en que el corpus debe estar equilibrado, esto es, debe contener un niimero suficiente de textos de los diferentes tipos que integra: textos orales у escritos; de ficcion, ensayos, periodfsticos, etc.; novelas, obras de teatro, relatos, guiones, etc. en el bloque de los textos de ficcion; noticias, reportajes, editoriales, cartas al director, etc. en el bloque de los textos periodtsticos; textos mexicanos, argentinos, venezolanos, espanoles, etc. en el caso de la lengua espanola. Naturalmente, no todos los corpus tienen textos de todos los tipos, pero si deben poseer un volumen adecuado de aquellos sectores incluidos en su ambito de competencia.

Dado que los corpus con los que trabajamos actualmente estan formados por cientos о miles de millones de formas, es evidente que el tinico modo en que se puede recuperar la informacion necesaria para su estudio pasa por convertir los textos a formato electronico (si no lo estan ya previamente, сото sucede, por ejemplo, con la prensa digital). No hay otro modo de recuperar con rapidez у comodidad los casos de, por ejemplo, una determinada expresion en un corpus de trescientos millones de formas. Asi pues, aunque conceptualmente pueda pensarse que el formato electronico no es un rasgo constitutive de la definicion de los corpus,1 la realidad es que solo pueden ser manejados si poseen este caracter.

El rasgo anterior implica, ademas, que los textos que forman un corpus deben estar codi- ficados de modo que sea posible lograr la recuperacion selectiva de la informacion. Por poner un ejemplo perteneciente a un terreno distinto al nuestro, si introducimos en un buscador cualquiera Uruguay, nos devolvera las paginas en las que se localiza esa palabra, pero no aque- lias que hayan sido creadas en este pais о esten alojadas en servidores situados en el. Para lograr esto ultimo, algunos buscadores habilitan opciones de busqueda que se basan en las direccio- nes IP de los servidores que contienen las paginas; es decir, manejan una informacion que no forma parte del texto, sino que esta asociada a el. Es preciso, pues, anadir a la simple version electronica de lo que antes fue una noticia periodfstica, los metadatos que contienen la infer- macion acerca del periodico en que fue publicado, el dia, la empresa editorial, el pais al que pertenece, el nombre del autor, la indicacion de que es una noticia у no un editorial, etc.

La inclusion de los metadatos y, en general, la codificacion adecuada de todos у cada uno de los textos que componen un corpus hace posible su estudio cientihco y, mas concreta- mente, la recuperacion selectiva de la informacion que contiene. Para decirlo en muy pocas palabras, podemos consultar un corpus para conocer la frecuencia general de una cierta expresion о un determinado fenomeno lingiii'stico. Los datos obtenidos seran de interes para conocer сото se comporta en ese punto la lengua en cuestion. Sin embargo, su mayor rele- vancia vendra de la posibilidad de comparer la frecuencia que presenta en una determinada clase de textos frente a la que muestra en otra clase (paises diferentes, tipos de texto distintos, escrito frente a oral, etc.). Como es evidente, esta extraccion selectiva de datos de diferentes subcorpus solo es posible si esa informacion, que no forma parte del texto pero esta asociada a el, ha sido codificada de modo que pueda ser utilizada por la aplicacion de consulta para obtener, en cada caso, la informacion correspondiente al subcorpus deseado.

Por otro lado, el analisis cientifico de un corpus incrementa considerablemente sus posibi- lidades si los textos que lo integran han sido sometidos tambien a un proceso de anotacion linguistica. En efecto, aunque en las definiciones se insiste en la referencia a los textos, la mayona de los corpus actuales anaden a cada una de las formas que contienen una serie de informaciones referidas a sus caracteristicas lexicas у gramaticales. Con un ejemplo ilustra- tivo (cf. 3.6), a la “palabra” ortografica diciendomelo debe asociarse la informacion formalizada que permita saber (a programas informaticos) que esa forma contiene tres elementos grama- ticales diferentes, que el primero de ellos es un verbo, esta en gerundio у pertenece al para- digma del verbo decir, mientras que los otros dos son pronombres personales, de primera singular у tercera singular, respectivamente, etc. Este complejisimo proceso, que, dado el tamano de los corpus, tiene que ser realizado de forma totalmente automatica, permite hacer consultas en las que no se rnaneje simplemente la configuracion ortografica de una forma, sino sus caracterfsticas morfosintacticas. De un corpus anotado morfosintacticamente se pueden obtener, en una unica consulta, todos los casos de un determinado lema (aunque sea un verbo irregular, сото es el caso de decir), los casos de un verbo cualquiera seguido de una preposicion cualquiera, los ejemplos de la perifrasis verbal ir a + infinitivo, etc. Como vere- mos en 3.6, la anotacion morfosintactica es solo el primer paso, absolutamente necesario, para llegar a corpus anotados con informaciones sintacticas, semanticas о pragmaticas y, para referirnos a algunas aplicaciones externas que pueden ser ilustrativas, en la traduccion automatica. La referencia a los textos que componen un corpus debe, pues, ser complemen- tada con la alusion a las informaciones lexicas, gramaticales у pragmaticas que se asocian a las formas у secuencias de diferentes niveles у tipos que los constituyen.

Para terminar esta presentacion sucinta de las caracterfsticas de un corpus textual, es conveniente hacer una alusion a un elemento que esta implfcito en la definicion que estamos analizando, pero que es necesario poner de relieve. Un corpus esta formado por textos, pero es rnucho mas que un simple agregado de textos. La palabra clave en este punto es diseno. En efecto, dado que un corpus se crea para facilitar el estudio de una lengua en general о en alguno de sus componentes, este debe contener textos de los tipos, clases у categorfas que sean congruentes con ese objetivo. Si, por ejemplo, se pretende construir un corpus del espanol periodfstico, parece evidente que solo puede contener textos periodfsticos. Aceptada esta primera caracterfstica, habra que decidir luego si se piensa en periodismo oral о en perio- dismo escrito, si debe incluir semanarios, si se pretende abarcar todos los pafses hispanicos о solo alguno(s) de ellos, cual es la horquilla temporal con la que se quiere trabajar, etc. Dado que el corpus debe ser representative у ademas estar equilibrado, el cruce de todas las carac- tertsticas tiene que dar lugar a una configuracion general en la que se indique que porcentaje del total corresponde a cada una de las celdas resultantes. Lo mismo, mutatis mutandis, puede ser aplicado a cualquier proyecto de construccion de un corpus. Queda claro, pues, que no se trata de la simple agregacion de textos con procedencias diferentes agrupados para cons- truir un recurso de mayor о menor volumen, sino de un conjunto estructurado, elaborado de forma sistematica, organizado de una determinada forma у con una cierta relacion cuantita- tiva precisa entre los subcorpus que lo componen.2

 
<<   CONTENTS   >>

Related topics