Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Capítulo 3 Diseño, construcción y explotación de corpus

Resumen

Este capi'tulo presenta en primer lugar la caracterizacion general de los corpus lingiit'sticos у sus diversos tipos, retomando algunas de las cuestiones esbozadas en el capi'tulo 1 у profuiv dizando en ellas. En su nucleo, el capitulo pretende mostrar los aspectos mas importantes de todas у cada una de las tareas que hay que acometer en el trabajo con corpus, desde el diseno hasta su puesta a disposicion de las personas interesadas en su consulta. La mayor parte de esas tareas corresponden a quienes construyen el corpus, no a quienes los consultan, pero la familiarizacion con todas las fases del trabajo permitira una mejor comprension de los factores implicados у contribuira a una explotacion mas adecuada de los datos obtenidos.

Caracterización de los corpus

Introducción

De acuerdo con la definicion adelantada en el apartado 1.1 у que retoco ahora ligeramente, un corpus es un conjunto de (fragmentos de) textos, orales о escritos, producidos en condi- ciones naturales, seleccionados de modo que resulten conjuntamente representatives de una lengua о una variedad lingiustica, en su totalidad о en alguno(s) de sus componentes, que se almacenan en formato electronico у se codifican con la intencion de que puedan ser analizados cienti'ficamente (cf. Francis 1982; Crystal 1991; Sinclair 1991, 1996, 2005a; McEnery у Wilson 1996; Guilquin у Cries 2009; Rojo 2014a, 371; Tognini-Bonelli 2001). En ese apartado iniciamos ya la justificacion у exploramos las consecuencias generates de cada uno de los rasgos que figuran en la definicion. El resultado final es una presentacion globalmente aceptable por cualquier practicante de la lingiustica de corpus (LC), aunque es seguro que cualquiera de ellos discutirfa la importancia у el alcance de cada uno de los factores empleados. Asf pues, aunque con las precauciones aconsejables en casos de este tipo, podemos tomarla aquf сото punto de partida basico para tratar de profundizar en ella у analizar sus diversos componentes.

Hay, sin embargo, una cuestion previa. La definicion que figura en el parrafo anterior refleja la concepcion habitual en el interior de la LC, de modo que no puede constituir la respuesta adecuada a una pregunta sobre que es un corpus formulada desde cualquier otra metodologfa о subdisciplina lingiustica, у rnucho menos si se plantea desde alguna otra dis- ciplina cientffica. En otras palabras, hay muchos objetos denominados tradicionalmente corpus que no responden a la definicion que estamos utilizando. Por ejemplo, el Corpus Vasorum Antiquorum1 consiste en una coleccion de catalogos de vasijas у recipientes de origen griego existentes en los museos de diferentes pafses; es posible obtener las imagenes de esos objetos y, dado que tambien contiene una base de datos con sus descripciones, permite localizar aquellos que reunen ciertas condiciones de interes para quien hace la busqueda. Evidentemente, no se trata de textos, asf que queda claramente fuera del alcance de la deli' nicion que estamos utilizando.2 Sf esta constituido por textos el famosfsimo Corpus Iuris Civilis, compilacion de las leyes del Imperio promovida por el emperador Justiniano en la primera mitad del siglo vi, pero que no se formo сото apoyo a la investigacion lingufstica, sino para facilitar у unificar el funcionamiento de la administracion de justicia del imperio bizantino.

Todos esos empleos у algunos otros de caracteristicas semejantes remiten, en definitiva, al uso de esta palabra en terrenos relacionados con la historia у evolucion de las tecnicas del almacenamiento у recuperacion de la informacion. Como es bien sabido, corpus (plural corpora) es una palabra latina cuyo significado basico era el mismo que tienen sus descen- dientes en las diferentes lenguas romanicas (por ejemplo, esp. cuerpo, fr. corps, it. у port, corpo, etc.). Ademas, fue utilizada a lo largo de toda la vida del latfn en significados asociados con los que el Oxford Latin Dictionary (2012) recoge сото, “any structure comparable to a body, a fabric framework” (acep. 6) у “a comprehensive collection of facts on a given subject; a compendium of scientific, literary or other writings, an encyclopaedia, etc.” (acep. 16).5 Evidentemente, es este ultimo significado, equivalente a un conjunto de objetos reunidos con el proposito de facilitar su uso у analisis, el que justifica plenamente las denominaciones del Corpus Iuris Civilis, el Corpus Inscriptionum Latinarum4 у todos los proyectos similares, asf сото los mencionados Corpus Vitrearum у Corpus Vasorum Antiquorum, que no con- tienen textos, sino descripciones о imagenes de otros objetos. En el sentido mas general, pues, un corpus consiste en un conjunto de objetos (principalmente textos) reunidos con la finali- dad de facilitar su estudio.

Dentro de los estudios lingiifsticos, la referenda a un conjunto de textos parece inevitable. Existe, sin embargo, una excepcion: en las actividades vinculadas a la planificacion lingufstica suele diferenciarse entre la planificacion del corpus (o desarrollo de lenguas) у la planificacion del estatus (o determinacion de lenguas). La primera se refiere a la seleccion de la alternativa que se considera preferible сото estandar entre las varias que puede ofrecer una lengua.’ La segunda tiene que ver con la seleccion de lenguas о variedades para distintas situaciones sociales. En un sentido ya mucho mas proximo al habitual, se habla tambien de lenguas de corpus para hacer referencia a aquellas que, сото el latfn о el griego (clasico), ya no son lenguas vivas, no hay seres humanos que las hayan aprendido сото lengua materna y, por tanto, su conocimiento precede del analisis del conjunto de textos conservados (que se considera un corpus).6

Si prescindimos, por su caracter especffico, del uso del termino corpus en las tareas prapias de la planificacion lingufstica у la zona correspondiente de la sociologfa del lenguaje, es claro que los corpus que manejamos у a los que nos referimos en los estudios lingiifsticos у literarios estan formados por textos о fragmentos de textos que han sido reunidos para facilitar su analisis. Veamos ahora, a grandes rasgos, que es lo que implican у сото podemos entender los demas rasgos que figuran en la definicion. Como factor previo, conviene tener en cuenta la distincion utilizada por Kilgarrif у Grefenstette (2003, 334) acerca de la conveniencia de no mezclar “the question ‘what is a corpus’ with ‘what is a good corpus (for certain kinds of linguistic study)’”. En efecto, сото veremos en los parrafos siguientes, los corpus siguen habitualmente un diseno establecido en funcion de unos determinados objetivos. Un con- junto amplio de noticias periodfsticas sobre economfa publicadas en periodicos peruanos entre 2001 у 2004 es, sin duda, un corpus, pero carece de las caracteristicas necesarias para que lo resultante del analisis de lo que contiene pueda ser referido al espanol en general о a la totalidad del espanol de Peru. Serfa, pues, un corpus, pero no un corpus adecuado para cualquier tipo de estudio.

Naturalmente, los textos pueden ser de tamanos muy distintos. En efecto, en el diseno, codificacion у explotacion de un corpus se considera que un texto es aquello que recibe una caracterizacion linica en los diversos parametros que actiian en la conformacion del conjunto (un autor, un tftulo, un pais de produccion, una fecha, etc.). Es decir, una novela de dos- cientas treinta paginas у doscientas mil palabras es un texto, pero tambien lo es una noticia periodistica, una comunicacion comercial, un folleto de propaganda о una redaccion de un estudiante de primaria, que constan de unos pocos cientos de palabras.' Parece claro que, por muy diversas razones, lo mas adecuado es trabajar con textos completos, puesto que existen fenomenos lingiiisticos cuyo analisis requiere el conocimiento de contextos muy amplios.8 Sin embargo, en la epoca clasica de la LC lo habitual era trabajar con fragmentos, al estilo adoptado por el Brown Corpus, formado por quinientos fragmentos de unas dos mil palabras cada uno. La razon es clara: dado el escaso tamano de los corpus que permitian las computa- doras antiguas, la unica forma de tener ciertas garantias de representatividad у equilibrio en la composicion del corpus pasa por enriquecer la variedad de las fuentes, que es algo que exige limitar fuertemente el tamano de las muestras. Un corpus de un millon de formas solo puede contener, por ejemplo, veinte textos de cincuenta mil palabras. El aumento en la capacidad de memoria у la velocidad de procesamiento de las computadoras, con el consiguiente creci- miento del tamano de los corpus, hace que ese problema vaya desapareciendo: en un corpus de trescientos о cuatrocientos millones de formas, su volumen garantiza ya la variedad de fuentes y, en consecuencia, se puede seguir el camino mas aconsejable у trabajar con textos completos.

Un factor de naturaleza muy diferente que puede inclinar hacia la utilizacion de fragmen- tos esta relacionado con los derechos de propiedad intelectual о distribucion sobre los textos. Es esta una zona un tanto difusa en la legislacion de los diferentes paises, muy escasamente armonizada por otra parte. En terminos practicos, sin embargo, los derechos de los propie- tarios de los textos quedan garantizados si, сото es habitual, las aplicaciones de consulta devuelven lineas de concordancias у no se permite la descarga de fragmentos amplios ni, por supuesto, de los textos completos. De todos modos, es un punto en el que hay que atender a lo que establezca la legislacion de cada pais (cf. infra, 3.7).

Los textos incluidos en un corpus pueden proceder de escritos, impresos о no, сото nove- las, obras de teatro, noticias periodisticas, correos electronicos, paginas web, cartas particu- lares, tuits, etc. о bien ser transcripciones de producciones orales (un noticiario radiofonico, una tertulia televisiva, una entrevista, una conferencia, una clase, una conversacion en un bar, etc.). Es importante tener en cuenta que la diferencia entre textos de estos dos tipos no siempre se sitiia en el marco establecido por la oposicion entre lengua hablada у lengua escrita, basada habitualmente en el registro о estilo (mas о menos culto, mas о menos formal). El apoyo estadistico que el mundo tradicional aportaba a la equiparacion entre lengua escrita у caracter formal у elevado frente a lengua hablada у caracter informal о coloquial ha desaparecido en buena parte con la introduccion de los nuevos generos surgidos de la gene- ralizacion de Internet. Por supuesto, siempre han existido comunicaciones escritas de caracter informal о menos formal, сото las cartas particulares, у comunicaciones orales de caracter muy formal, сото las conferencias, los discursos о las clases. Los nuevos generos han creado nuevas situaciones у quienes se dedican a disenar у construir corpus deben tener en cuenta estas circunstancias. A todo ello es preciso anadir la existencia de una clase conocida habitualmente сото texto escrito para ser leido. Esto es texto escrito, pero que alguien transmite mediante su lectura en alto, сото sucede en buena parte de las noticias de radio у television о las conferencias.

Las comunicaciones orales tienen caracterfsticas propias у su ineludible transcripcion al formato escrito implica tornar un importante conjunto de decisiones. Exploraremos algunas de las consecuencias en el apartado 3.1.2, pero conviene dejar aquf constancia de ciertos aspectos de caracter general. En primer lugar, la caracterizacion de los textos debe referirse a los rasgos que luego seran utilizados en la recuperacion de datos. Si, por ejemplo, en una noticia periodfstica interesa senalar el pais, el ano, la seccion, etc., en una conversacion habra que dejar constancia de las caracterfsticas de las personas que participan en ella у suelen ser utilizadas en los estudios sociolingiifsticos: edad, sexo у nivel educativo, por ejern- plo. Debe tenerse en cuenta tambien que, frente a lo que ocurre en una noticia periodfstica о una novela, donde las caracterizaciones tienen validez para toda la obra,9 en una conver- sacion puede haber hablantes de diferentes procedencias, edades, sexo у nivel educativo, por lo que la aplicacion de recuperacion de datos tiene que ser capaz de identificar los segmentos que correspondan a cada participate en funcion de sus rasgos.

Es necesario tambien tomar decisiones acerca del sistema de transcripcion que se va a utilizer. Sin necesidad de optar directamente por una transcripcion fonetica о fonologica, el uso de un sistema basado en la ortograffa convencional plantea todos los problemas relacio- nados con que tratamiento debe darse a la pronunciacion. ^Deberfa transcribirse pa у llegao, que es la pronunciacion habitual en muchos hablantes, о para у llegado sin atender a la pronunciacion? La fidelidad a la pronunciacion supone el problema de la fijacion de lfmites en el detalle fonetico у las dificultades de reflejar diferencias foneticas en un sistema que no esta disenado para ese fin, ademas de complicar la recuperacion de la informacion. Con un ejemplo sencillo, las transcripciones del tipo llegao у llegaos para las formas llegado у llegados suponen la remodelacion de todo el componente morfologico en lo correspondiente a la generacion у reconocimiento de los participios pasivos. En otro orden de fenomenos, hay que pensar en сото reflejar la entonacion, asf сото en fenomenos del tipo de las palabras cortadas, las repeticiones de alargamientos о los solapamientos en las intervenciones de distintos participantes.

Como es logico, todas las decisiones referentes a aspectos сото los relacionados son en buena parte dependientes de la configuracion del corpus у los objetivos fijados para su explo- tacion posterior. Es muy distinto pensar en las caracterfsticas de codificacion que deben tener los textos orales incluidos en un corpus dirigido primariamente a estudios lexicos у gramati- cales a hacerlo con relacion a un corpus en el que se van a estudiar ciertos rasgos entonativos. Una parte importante de estos problemas desaparece o, cuando menos, disminuye de inten- sidad cuando es posible alinear el audio con su transcripcion. Ese procedimiento, sobre el que volveremos en el apartado 3.1.2, permite localizar у recuperar la informacion deseada mediante busquedas textuales у trabajar luego con los segmentos de audio correspondientes, que pueden incluso ser estudiados mediante programas de analisis fonico. Por ejemplo, la recuperacion de las secuencias situadas entre signos de interrogacion permite, si se han uti- lizado en la transcripcion, estudiar las caracterfsticas de la entonacion interrogativa.

La exigencia del caracter natural a los textos introducidos en un corpus tiene implicacio- nes de diferente caracter. En principio, se trata de que un corpus disenado para estudiar lo que sucede en una lengua determinada no deberfa contener textos generados automatica- mente por alguna aplicacion informatica de, por ejemplo, produccion de restimenes о simples respuestas a preguntas sobre servicios de una companfa, horarios de vuelos, etc. Natural- mente, esto no implica que no se puedan construir corpus formados por textos de este tipo, probablemente imprescindibles para mejorar su calidad, sino que esos textos no pueden ser situados en paralelo a los otros у utilizados en el analisis de lo que ocurre en una lengua.

En un sentido menos obvio у mas interesante desde un punto de vista teorico, la exigencia del caracter natural se fundamenta en el deseo de trabajar con textos reales, producidos en funcion de las circunstancias comunicativas existentes en cada caso у no hacerlo con textos que han sido creados precisamente para ilustrar ciertos usos lexicos о determinados fenome- nos gramaticales. Los llamados “ejemplos de gramatico” о “ejemplos de lexicografo” son, sin duda, de gran utilidad cuando sirven para ilustrar un cierto uso у lo que interesa, por tanto, es mostrar ese fenomeno despojado de las complicaciones que tienen las expresiones reales. Pero esa misma razon es la que aconseja excluirlos de los conjuntos de datos sobre los que pretendemos construir nuestro analisis de los fenomenos lingiiisticos.

Es necesario, por ultimo, entender que la naturalidad a la que alude la definicion debe ser situada en el contexto adecuado. Las circunstancias en las que se produce una conversacion en una cafeteria son muy distintas de las que actiian sobre la persona que se dispone a escribir un resumen, una carta particular о una novela, pero todas ellas pueden ser calificadas de naturales. En este aspecto actuan tambien, сото es logico, todos los factores que han tenido en cuenta los dialectologos у sociolingiiistas en la recogida de datos у la necesidad de evitar el riesgo de modificacion del comportamiento de los hablantes que puede implicar la pre- sencia de una persona ajena. La paradoja del observador, que se da en todas las ciencias, tiene una importancia crucial en los trabajos sociolinguisticos y, por tanto, debe ser tenida en cuenta en todos los corpus cuyo diseno incluya la posibilidad de estudios de este tipo.10

Cuestiones de muy diferente naturaleza son las implicadas por la indicacion de que los textos que integran un corpus deben ser seleccionados de modo tal que resulten representatives de una cierta lengua о variedad linguistica, en su totalidad о en alguno de sus compo- nentes. La primera de ellas se relaciona con el grado de especificidad con que hay que entender la referencia a una lengua о variedad linguistica. Cabe preguntarse si la reunion de obras de un cierto autor (Cervantes, Lope de Vega, Calderon), una escuela о tendencia lite- raria (la comedia clasica, los poetas modernistas, la novela social espanola) о incluso una obra (el Роста de Mio Cid, el Libro de buen amor) constituyen un corpus a pesar de que no se pueden considerar representativas de una variedad linguistica. Efectivamente, la reunion de un conjunto amplio de comedias del Siglo de Oro no nos proporcionaria un corpus representative de la lengua de esa epoca. Sin embargo, no parece que esa supuesta insuficiencia sirva para negarle el caracter de corpus. El problema reside, evidentemente, en que la definicion que estamos utilizando marca un objetivo que no es el que se fija en la preparacion de cualquier corpus textual. Quien construye un corpus de comedias del Siglo de Oro lo disena de modo que se pueda considerar representative de la lengua utilizada en ese genero literario у en esa epoca, no de la lengua del Siglo de Oro en general ni de toda la comedia escrita en espanol.

Algo parecido podemos pensar con respecto a un recurso сото el Corpus de Aprendices de Espanol L2 (CAES), que no puede ser representative del espanol en ninguna de las variedades identificables con los parametros habituales. Por el contrario, su diseno tiene que estar basado en la referencia a los parametros esperables en la organizacion de la ensenanza de las lenguas extranjeras: basicamente, LI de partida у nivel de conocimientos de la L2. Con los valores vinculados a estos dos parametros, se organizan las recuperaciones selectivas de informacion que permiten obtener los datos que sirven a los objetivos de un corpus de este tipo: conocer las caracteristicas que presenta la interlengua de los estudiantes de espanol сото L2 pertenecientes a las diferentes LI у los distintos grados de dominio del espanol.

Tampoco pueden considerarse representatives de una variedad los recursos constituidos por muestras del habla infantil, que se construyen para poder analizar la forma en que se produce la adquisicion de una determinada lengua y, sin embargo, no parece haber dudas de que for- man un corpus si reunen las condiciones adecuadas para alcanzar el objetivo perseguido. Parece necesario, por tanto, ampliar nuestra perspectiva en este punto para admitir la posibi- lidad de que haya corpus que correspondan a diferentes grados de dominio de la lengua (corpus de aprendices о los formados por ejemplos de habla infantil), diferentes tipos de comunicacion (dialogos entre pacientes у el personal sanitario que los atiende, entre profe- sores у estudiantes, en situaciones de intercambio comercial, discursos politicos, etc.), asi сото distintos modos de comunicacion (cartas particulares, correos electronicos, tuits, etc.).

Mutatis mutandis, algo muy parecido puede decirse de cualquier corpus construido con el proposito de analizar lo que sucede en un conjunto especifico de producciones lingiiisticas. La clave esta en lograr un diseno congruente con los objetivos perseguidos en la construccion del corpus. Esos factores son los que establecen el ambito de validez del corpus у los que, por tanto, pueden permitirnos juzgar su adecuacion. En definitive, se trata de la indicacion de la que hemos partido: no se debe confundir la consideracion de si el recurso es о no un corpus con su idoneidad para realizar cierto tipo de estudios con los datos que contiene. Esta es la via por la que se integran en el concepto de corpus textuales todos aquellos que han sido construidos para facilitar la recuperacion de estudios historicos, filosoficos, sociologicos, jurfdicos, economicos, etc. Un lugar especial ocupan los formados para ayudar en los estudios literarios, desde todo el trabajo realizado en la escuela alejandrina para tratar de fijar los textos homericos y, varios siglos despues, con las obras de autores especialmente importantes en la tradicion correspondiente (Chaucer primero, Shakespeare mas tarde, etc.), сото veremos en la seccion 6.1. No se les puede negar el caracter de corpus por el hecho de que su objetivo no responda al mejor conocimiento de las caracteristicas de una variedad lingiifstica en su sentido mas estricto. De aqui se puede derivar tambien una clarificacion importante en lo referente al numero de textos que deben formar un corpus. En la inmensa mayoria de los casos, podemos oponer un texto a un corpus у mantener la caracterizacion de los corpus сото conjuntos de textos. Sin embargo, no es diftcil encontrar casos en los que, por razones especiales, interesa trabajar unicamente sobre un texto (el Роста de Mio Cid) о diversas versiones del “mismo” texto (сото las del Libro de buen amor, por ejemplo). Una obra (que podria ser la unica producida о conservada) de un autor, diversas versiones de una composicion, las obras de un autor, las de una escuela о movimiento, etc. son ejemplos de corpus cuya justificacion procede de las caracteristicas de los textos у su importancia para la historia cultural de una comunidad. Si bien es cierto que un corpus esta constituido por un conjunto de textos, tambien lo es que hay conjuntos formados por un unico elemento. Las tecnicas de recuperacion de la informacion relevante pueden ser las mismas y, en definitiva, es la congruencia entre el diseno у los objetivos lo que permite valorar su idoneidad.

En el extremo contrario, algo parecido podemos decir con respecto a la conveniencia de decidir si todo lo que contiene la red en una lengua determinada constituye un corpus. Aplicando lo expuesto hasta aqui у en linea con lo senalado por Kilgarrif у Grefenstette (2003), lo mas logico parece considerar que si constituye un corpus, aunque, por las razones apuntadas en el apartado 3.1.2, no es el corpus mas adecuado para el estudio de la mayor parte de los fenomenos lingiiisticos.

Al diseno del corpus se vincula estrechamente la idea de representatividad, sin duda uno de los conceptos fundamentales de la LC у al que, por esta razon, tendremos que volver en el apartado 6.4- La cuestion fundamental radica en el hecho de que un corpus debe ser concebido casi siempre сото una muestra de la poblacion que pretende representar. Es posible pensar en corpus completos о totales, сото serfa el caso de, por ejemplo, toda la obra (conservada) de un cierto autor, los textos de una determinada corriente literaria, etc. En casos de este tipo, el objetivo resulta mucho mas especffico у es perfectamente viable aspirar a reunir en un recurso unico todas las obras de Miguel de Cervantes. Por supuesto, incluso en una aproximacion especifica сото esta quedan factores sueltos. Por ejemplo, su caracter total podrta necesitar ser replanteado si llegara a descubrirse un manuscrito inedito de la segunda parte de La Galatea, tantas veces ofrecida por Cervantes. Por otro lado, una cosa es la decision de incluir una obra у otra la seleccion del texto de esa obra que va a ser incorpo- rado, lo cual nos lleva a todos los aspectos vinculados a las ediciones cri'ticas, la crftica textual, etc.11

Salvo casos especiales сото los mencionados en el parrafo anterior, los corpus son mues- trales y, por tanto, estan constituidos por una seleccion de los textos existentes en la poblacion a la que se refiere. Se trata, pues, de un aspecto vinculado a la relacion entre muestras у poblaciones al que, en principio, tendriamos que aplicar los mismos criterios con los que se trabaja, por ejemplo, en las tan frecuentes encuestas sociologicas. La idea basica es que una muestra es representativa si reproduce la configuracion de la poblacion de la que ha sido extrafda en los parametros que se consideran relevantes. En la determinacion de una muestra que va a ser utilizada para el analisis de las actitudes polfticas de una cierta poblacion habra que tomar en cuenta la edad, el sexo, el lugar de residencia, la caracterizacion socio- economica у cultural у quiza algunos otros factores. Por tanto, la muestra debera tener la misma distribucion que la poblacion total en estos factores у por ello se considera represen- tativa de ese conjunto, con lo que los resultados extraidos de un pequeno subconjunto de la poblacion seran extrapolables a la totalidad del universo correspondiente.

Cuando se trabaja con variedades lingiiisticas, el problema esta, sencillamente, en que desconocemos las caracteristicas de la poblacion (el conjunto de textos producidos por los hablantes de esa variedad en un determinado periodo) y, por tanto, no podemos determinar la composicion de la muestra. ^Cual deberfa ser, por ejemplo, el porcentaje de textos orales у escritos que habria que introducir en un corpus del espanol actual? ;Que peso habrfa que dar a los textos periodfsticos entre los escritos? 12 a una seccion de los diarios? ;Que por- centaje tendn'a que atribuirse a cada pais? Parece claro que plantearse la representatividad de un corpus general en linea con lo habitual en estudios sociologicos no solo no constituye un objetivo realista, sino que ni siquiera es posible por falta de datos acerca de las caracte- risticas de la poblacion.13 La insistencia en el caracter representative de los corpus es en buena parte herencia de la situacion inicial de la LC, con corpus de tamano muy reducido у con los que, ademas, solo era posible la recuperacion de los datos correspond ientes a la totalidad del corpus. Los corpus actuales tienen tamanos muchisimo mayores y, sobre todo, admiten la recuperacion selectiva de la informacion, con lo que podemos comparar la fre- cuencia que un cierto elemento о fenomeno presenta en determinados tipos de texto (dife- rentes paises, generos, epocas, etc.) frente a lo que sucede en otros. Ademas, la frecuencia normalizada (cf. 1.2.1) permite comparer adecuadamente los resultados obtenidos de subcor- pus con tamanos muy diferentes entre si.

El planteamiento mas realista de la representatividad consiste en la garantia de que el corpus esta equilibrado (balanced en ingles), lo cual implica que contiene, en cada uno de los subcorpus que se pueden establecer en funcion de su diseno, un niimero de textos у un volumen suficiente para que la informacion especifica que se puede extraer de ese subcorpus no este sesgada у resulte fiable. La relacion entre representatividad у equilibrio pnede formu- larse tambien, tal сото aparece en Torruella Casanas (2017, 129 у sigs.), сото la existente entre representatividad cualitativa (calidad у diversificacion de las muestras) у representa- tividad cuantitativa. En esta ultima se puede diferenciar entre el equilibrio externo (mas о menos, la representatividad en el sentido de la relacion entre la muestra у la poblacion) у el interno, que “se refiere a la distribucion de las muestras seleccionadas (textos о palabras) entre los distintos apartados del corpus, es decir, al numero de muestras que debe contener cada apartado de sus distintos ejes clasificatorios” (Torruella Casanas 2017, 239).

Representatividad у equilibrio son, pues, nociones de dificil fijacion en factores concretos. Se trata, mas bien, de valores de imposible consecucion, pero a los que hay que tender, Nue- vamente con palabras de Sinclair (2005a, 9):

The corpus builder should retain, as target notions, representativeness and balance. While these are not precisely definable and attainable goals, they must be used to guide the design of a corpus and the selection of its components.

Por ultimo, la referenda a que los textos deben estar en formato electronico. En sentido estricto, es posible pensar en un corpus que no tenga esta forma. Los textos biblicos, las obras de Virgilio, Shakespeare, Cervantes у muchos otros autores, a los que no se puede negar el caracter de corpus, pudieron ser trabajados у analizados durante siglos en ediciones manus- critas о impresas у complementados en muchos casos con indices у concordancias redactadas tambien a mano. La exigencia del formato electronico es una consecuencia directa del aumento en el tarnano de los corpus. En efecto, es planteable construir un corpus de un millon de formas —сото el Survey of English Usage (SEU), por ejemplo— у fijarse el obje- tivo de preparar fichas, indices, concordancias, sin la ayuda de computadoras, сото hizo inicialmente Quirk, pero no tiene sentido tratar de ampliar esos procedimientos a conjuntos formados por decenas, cientos о miles de millones de formas. De ahi que se pueda compren- der que los corpus textuales у la LC esten inextricablemente vinculados a la aparicion, desarrollo у difusion de las computadoras у, сото hemos visto en el apartado 2.3, tambien de Internet. Eso es lo que explica el caracter de revolucion instrumental que hemos atribuido al empleo de computadoras en la investigacion linguistica.

Aunque sea conceptualmente previa, la alusion a que los corpus deben incorporar informacion codificada a los textos que contiene deriva en la practica de la informatizacion. En efecto, a medida que los corpus aumentan de tarnano se hace mas necesario incorporar a cada uno de los textos que lo integran la informacion referente a sus caracteristicas basicas (tipo de texto, pais de produccion, ano de edicion, etc.). Este es el linico modo en que las aplica- ciones de consulta pueden posteriormente devolver, en funcion de los intereses de quien hace la peticion, resultados procedentes de unicamente un cierto subconjunto de los textos inte- grados. Lo mismo se puede decir, en terminos generates, de la adicion de la informacion lexica у gramatical a cada uno de los elementos de los textos, tal сото veremos en el apartado 3.4. La diferencia —importante— esta aqui en que la adicion de esa informacion a corpus del tarnano habitual en nuestros dias requiere el desarrollo de programas de analisis automatico que, entre otras cosas, vinculan las formas a los lemas respectivos, anaden la informacion morfosintactica, el analisis sintactico de las secuencias, etc.

En resumen, hemos podido observar que la nocion de corpus textual manejada habitual- mente en LC у que se refleja en la definicion de la que hemos partido en este apartado resulta perfectamente valida en esta orientacion metodologica, especialmente cuando se piensa en corpus de referencia (с/. 3.1.3), pero no es la dnica con la que se puede trabajar ni siquiera en investigaciones lingiiisticas. Si dejamos fuera los corpus no constituidos por textos, es muy util manejar a continuacion la distincion entre corpus у lo que se ha venido entendiendo tradicionalmente por archivo. La clave de la diferencia es, сото he indicado repetidamente en este apartado, el diseno. Un corpus ha sido concebido у construido con una estructura interna que se supone adecuada a los fines fijados (aunque pudiera no serlo realmente). Un archivo consiste en la simple acumulacion, mas о menos casual, de textos en un repositorio unico (cf. Atkins, Clear у Ostler 1992). Como senala Kennedy (1998, 4), mientras que “a corpus designed for linguistic analysis is normally a systematic, planned and structured compilation of text, an archive is a text repository, often huge and opportunistically collected, and normally not structured”. Un ejemplo clasico de archivo es el Oxford Text Archive (OTA), que “develops, collects, catalogues and preserves electronic literary and linguistic resources for use in Higher Education, in research, teaching and learning” (https://ota.ox.ac.ukl). Puede pensarse tambien en repositories сото el Project Gutenberg, en el que se acumulan textos de muy diferentes lenguas,14 situados ya en el dominio publico, con la finalidad de que puedan descargarlos у utilizarlos las personas interesadas. Para rnuchos especialistas, el contenido de la web, utilizado en la tendencia conocida сото Web as Corpus, no es un corpus en sentido estricto, sino un archivo con un ingente numero de documentos.

La existencia de diseno en un corpus es lo que nos permite clarificar la mayor parte de las cuestiones ulteriores. El diseno implica la existencia de un cierto objetivo en la construccion de un corpus у ese rasgo es el que determina la validez о inadecuacion de su uso con deter- minadas finalidades. Si el objetivo es proporcionar un recurso que permita analizar las carac- tertsticas del espanol actual, el corpus no puede consistir unicamente en textos del siglo xix, proceder de un unico pais, contener simplemente novelas ni producciones de estudiantes de espanol сото L2 о muestras de habla infantil. Sin embargo, hay corpus de gran utilidad que han sido construidos precisamente para permitir el estudio de lo que sucede en los ambitos correspondientes (el espanol del siglo xix, el de Ecuador, de ficcion novelesca, de aprendi- entes de espanol о de habla infantil).

Tener en cuenta la existencia de diseno у la adecuacion de su contenido a unos determi- nados objetivos de investigacion permite comprender adecuadamente el uso que se hace de los corpus en la linguistica contemporanea (y no solo en la LC), у diferenciarlo adecuadamente de la forma en que eran concebidos en algunas corrientes metodologicas propias de epocas anteriores. Muy especialmente, de la utilizacion de corpus entre los distribucionalistas en la epoca inmediatamente anterior a la aparicion de la gramatica generativo- transformacional, lo cual explica lo injustificado de la reaccion de Chomsky у sus seguidores a los primeros corpus surgidos en Estados Unidos.

 
<<   CONTENTS   >>

Related topics