Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Tipos de corpus

Como se indica en el apartado 1.1, la construccion de un corpus supone la integracion sistematica de textos de acuerdo con un diseno determinado. Esto es, cada corpus tiene la configuracion general que corresponde a los objetivos con los que se construye y, por tanto, es logico que existan diferentes tipos de corpus, cada uno de ellos congruente con la finali- dad con que ha sido creado.

La clasificacion de los corpus no admite una organizacion jerarquizada, sino que tiene que hacerse atendiendo a diferentes perspectivas. Vamos a explorar aquf sus aspectos mas destaca- dos у volveremos sobre este tema en la seccion 3.1.2. La primera de esas perspectivas esta relacionada con la gama de variedades que van a ser incluidas. En el caso de una lengua сото el espanol, un corpus puede contener textos procedentes de todo el ambito hispanico о bien de solo uno de ellos, о incluso de una region determinada (Canarias, por ejemplo), pasando por varias posibilidades intermedias. En terminos mas amplios, los corpus pueden ser gene- rales о de referencia, abarcadores de todo un dominio linguistico, о bien estar centrados en alguna(s) de las variedades que lo conforman (corpus dialectales, construidos para resaltar lo diferencial). Desde otro punto de vista, los textos pueden corresponder a la misma epoca (corpus sincronicos) о bien estar situados a lo largo de un periodo relativamente extenso (corpus diacronicos). Es bien sabido que sincronia у diacronia son dos conceptos fluctuantes у que las lenguas estan continuamente en evolucion, pero se acepta que un abanico de, por ejemplo, veinticinco anos encaja bien en una consideracion sincronica, mientras que un corpus que contenga textos de todo el siglo xx deberfa ser considerado mas bien un corpus diacronico.

Desde la perspectiva de lo que se conoce habitualmente сото medio, los corpus pueden contener textos escritos u orales. Como veremos con mas detalle en el apartado 3.1.2, las diferencias entre ellos son considerables tanto por las caracteristicas lingiiisticas de los textos сото por las operaciones que hay que hacer para recogerlos, codificarlos у explotarlos. Es importante tener en cuenta que la diferencia entre oral у escrito suele estar asociada a una distincion entre registros: los textos orales son vinculados habitualmente a la lengua colo- quial, mientras que los escritos se relacionan con una orientacion mas literaria, mas proxima a la variedad considerada estandar en el dominio lingiifstico correspondiente. Aunque esa vinculacion pueda ser adecuada en un grado notable, es importante no perder de vista que la naturaleza de la distincion se refiere al soporte material del texto, no a otras caracteristicas. Una clase universitaria, un discurso parlamentario, una conferencia (no leida) son textos orales, pero no son lengua coloquial. En cambio, una carta particular о un mensaje de correo electronico son escritos habitualmente en una lengua mas informal. Hay ademas clases que integran por sistema ambas perspectivas. Por ejemplo, el texto que leen los profesionales de los medios de comunicacion en un noticiario radiofonico о televisivo son textos “escritos para ser leidos”, de modo que deben tener una estructura general у una organizacion que facilite su comprension plena sin el ritmo у la posibilidad de vuelta atras que presentan los textos que podemos leer de forma individual, con el ritmo adecuado en cada circunstancia. Por otro lado, la aparicion de los medios electronicos у las redes sociales han dado lugar a generos nuevos en los que, con mucha frecuencia, el soporte escrito se combina a la perfec- cion con la lengua coloquial (los blogs, los tuits, etc.). Como analizaremos posteriormente, los corpus constituidos por transcripciones de textos orales suponen una gran carga de trabajo preparatorio, lo cual explica su tamano habitualmente reducido о su escasa presencia por- centual en corpus de referencia.

Un corpus puede tener caracter general о ser especializado. En el segundo caso, esta cons- tituido por textos destinados a un uso especifico, restringido a cierto tipo de comunicacion. Por ejemplo, si el proposito de un corpus es contribuir al mejor conocimiento de la termi- nologia utilizada en un dominio determinado, sera un corpus tecnico, formado exclusiva- mente por textos pertenecientes a la comunicacion entre los especialistas en una determinada zona de conocimiento (el derecho, la ingenieria, la qufmica, la lingiiistica, etc.)- Tambien son especializados los corpus de aprendices о corpus de aprendientes, constituidos por textos producidos por estudiantes de una determinada lengua segunda (L2) о extranjera (LE), con diferentes lenguas de origen у distintos grados de dominio de la L2/LE. Son corpus que se construyen precisamente para estudiar las caracteristicas de la interlengua correspondiente у que, logicamente, no pueden ser considerados сото representativos de la LI en cuestion. Tienen igualmente caracter tecnico los corpus de entrenamiento, que se producen sobre todo para que las aplicaciones de anotacion у lematizacion adquieran los datos necesarios para poder proceder luego al procesamiento automatico de grandes cantidades de textos. Los corpus generales, conocidos tambien сото corpus de referencia, son aquellos que han sido disenados sin propositos tan especfficos у por ello pueden ser utilizados en una gran variedad de investigaciones sobre los mas diversos fenomenos lingiifsticos.

Los corpus pueden tener muy diferentes tamanos, desde el millon de palabras que tenia el Brown Corpus hasta los varios miles de millones de palabras que tienen los corpus de referenda en la actualidad. Con independencia del tarnano у сото rasgo general de importancia, se diferencia habitualmente entre los corpus cerrados у los corpus abiertos. Un corpus cerrado es aquel que se disena con un cierto tarnano у una configuracion determinada у que, сото es logico, se inmoviliza una vez ha alcanzado ese objetivo. Por tanto, un corpus cerrado tiene una constitucion estable у producira siempre los mismos resultados.31 Por el contrario, un corpus abierto es aquel que se concibe para que vaya incorporando nuevos textos a medida que pasa el tiempo o, simplemente, van estando disponibles. Como consecuencia de ello, cambia de contenido con cierta frecuencia y, por tanto, la misma consulta producira resultados diferentes si se formula en momentos distintos. Cada uno de estos tipos tiene ventajas e inconvenientes. La estabilidad de los cerrados tiene сото contrapartida la inevitable cadu- cidad de los datos que contiene para aquellas investigaciones que necesiten trabajar con las manifestaciones mas actuales de la lengua. La permanente actualizacion de los abiertos, en cambio, provoca la modificacion de sus resultados cada vez que se hace la carga de un nuevo conjunto de textos.32

En un corpus puede haber textos correspondientes a una lengua (corpus monolingiies) о a varias (corpus multilingiies). En el segundo caso, es importante la distincion que existe entre los llamados corpus paralelos у los corpus comparables. Los primeros son aquellos constituidos por textos en una lengua у traducciones de esos textos a otra(s). La utilidad de estos corpus se incrementa considerablemente si estan alineados, es decir, si cada oracion en una de las lenguas esta vinculada a su traduccion en la(s) otra(s), de rnodo que es relativa- mente sencillo poner en relacion los elementos о fenomenos equivalentes. Los comparables reciben esta denominacion porque se pide que esten formados por textos pertenecientes al misrno tipo (cartas particulares о noticias periodisticas, por ejemplo), de modo que las dife- rencias observables puedan ser atribuidas a la diferencia entre las lenguas у no a los distintos tipos de texto.

Puede diferenciarse tambien entre los llamados corpus oportunistas, formados mediante la deteccion у descarga de textos escritos en una lengua determinada que estan en la parte publica de la red у que son integrados en un corpus, habitualmente tras la actuacion de ciertos filtros que evitan repeticiones, insercion de textos de tamanos о caracteristicas inadecuadas. La gran ventaja de estos corpus es la relative facilidad у limitacion de costes con las que es posible alcanzar miles de millones de formas. La desventaja frente a los corpus construidos mediante la seleccion especffica (los corpus de referencia, por ejemplo) reside en la deficiente codificacion (solo se puede anadir aquello que este en el propio documento o sea posible extraer del servidor en el que reside) у las limitaciones en cuanto a los tipos de texto que se pueden descargar (habitualmente paginas web, blogs, etc.).

Por ultimo, se ha diferenciado tradicionalmente entre los corpus codificados у anotados, у los que no lo estan. La distincion responde al grado у tipo de informacion que se anade a los textos у permite luego la recuperacion de datos de caracter mas о menos abstracto. Poder comparar las frecuencias que un elemento lexico presenta en dos parses diferentes del ambito hispanico implica la incorporacion previa de la informacion correspondiente, lo cual supone trabajar en un determinado formato, anadir una cabecera con los llamados metadatos, etc. (cf. infra, apartado 3.3 у siguientes). De modo similar, para poder obtener los casos en los que un sustantivo (cualquiera) va seguido por dos adjetivos (cualesquiera), es preciso que previa- mente se haya incorporado la informacion correspondiente a la clase de palabras a la que pertenece cada elemento.

 
<<   CONTENTS   >>

Related topics