Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Las coapariciones

En un terreno proximo a las unidades fraseologicas (o incluso formando grupo con ellas segiin algunos autores) se encuentran las coapariciones.105 Se trata de un concepto sur- gido у desarrollado en la lingiifstica estructural inglesa, fundamentalmente en la linea que parte de Firth, pasa por Halliday у Sinclair, у ha tenido un desarrollo muy importante en los ultimos anos. En sentido estricto, las coapariciones se refieren a las palahras que tienen tendencia a combinarse con otras mediante el establecimiento de una relacion sintactica у semantica determinada. Cualquier hablante de espanol reconocera el caracter especial de combinaciones сото arreciar el temporal/la tcrrmenta, incubar una enfermedad, perpetrar un crimen, etc. Frente a las locuciones у unidades fraseologicas, estas otras combinaciones tienen un significado composicional (esto es, el significado de la expresion completa es el resultado de la integracion de los significados individuals de los elementos que la componen). Es facil apreciar la importancia que tienen las coapariciones en areas сото la ensenanza de lenguas у de ahf la abundancia de estudios especificos у de diccionarios que, con independencia de la denominacion que utilicen, prestan una atencion especial о se centran exclusivamente en las coapariciones (cf. Bosque 2004).

En la LC, el concepto de coaparicion manejado habitualmente resulta mucho mas amplio y, dado que se trata siempre de resultados obtenidos de forma automatica, mas determinados por factores de tipo estadfstico у con caracter previo a los aspectos sintacticos у semanticos que pueden entrar en una fase posterior. Un aspecto proximo a los que hemos analizado al trabajar con las unidades fraseologicas es el de n-grama. Son las combinaciones de un cierto niimero de palabras ortograficas contenidas en un corpus (o un texto), tratadas habitual' rnente con algun filtro, que puede ser estadfstico (los que tienen una frecuencia minima determinada) о bien estar referidas a un elemento concrete (los ivgramas de una cierta forma ortografica). Las aplicaciones de consulta de los corpus permiten la busqueda de combina- ciones concretas, sea a traves de palabras ortograficas о de clases de palabras у otras categories gramaticales, сото hemos visto en el apartado anterior). Ademas de eso, hablar de ivgramas nos lleva a una perspectiva en la que se trata mas bien de obtener todas aquellas secuencias de x niimero de formas ortograficas que contienen una palabra determinada у presentan una cierta frecuencia. El CREA (version no anotada) tiene la posibilidad de obtener, para una forma ortografica concreta, las secuencias de un cierto numero de palabras en las que entra. Por ejemplo, poniendo violeta en la ventana de Consultas se obtiene la indicacion de que hay 936 casos en 318 documentos. En la parte inferior de esa pantalla, en el bloque Obtencion de ejemplos у la linea Recuperar hay una ventana que, por defecto, muestra Concordancias (cuando el numero de casos no es excesivo, сото sucede con este ejemplo). Esa ventana tiene tambien, entre otras opciones, Agrupaciones. Seleccionando esa opcion у pulsando Recuperar, se obtiene la relacion de agrupaciones de dos, tres у cinco palabras con mayor frecuencia que comienzan con violeta. Por supuesto, muchas de ellas no presentan el menor interes (violeta у, violeta de, violeta у el, violeta de los, etc.), perohay otras que pueden resultar relevantes para el analisis del significado, сото violeta oscuro, violeta de genciana, violeta de cobalto.106

Los n-gramas, pues, son secuencias de una determinada longitud de formas ortograficas que contienen una forma concreta. Una concepcion tan general сото esta puede ser refinada en varias direcciones. En primer lugar, сото es obvio, mediante la exigencia de una cierta frecuencia minima. En segundo termino, permitiendo que la forma sobre la que pivotan los n-gramas ocupen diferentes posiciones. Por fin, enriqueciendo la recuperacion para trabajar no ya con formas ortograficas, sino con lemas о incluso con clases de palabras.

En cualquier caso, con independencia de esos posibles refinamientos, los n-gramas impli- can siempre una cierta organizacion secuencial. En el caso analizado antes, recuperamos, por ejemplo, las secuencias de cuatro palabras ortograficas contiguas que tienen violeta en primera posicion. Las coapariciones con las que se trabaja en LC tienen un planteamiento distinto: se trata de localizar las palabras que aparecen cerca de otra concreta con mayor frecuencia en un contexto determinado (por ejemplo, cinco posiciones a cada lado de la que funciona сото pivote). Evidentemente, se establece un contexto, pero la diferencia con los n-gramas esta en que ahora no se trata de una secuencia determinada, sino de detec- tar у extraer las palabras que figuran en el entorno de otra con una frecuencia significative. Es, pues, un tratamiento individual de las palabras que agrupa en una tinica entrada todos los casos en los que una cierta forma о palabra aparece en el contexto proximo de otra con independencia de si esta a un lado u otro, у tambien de la distancia a la que se encuentre del pivote —siempre, claro esta, que se encuentre dentro de la ventana establecida. En el CORPES, la barra superior contiene, entre otras opciones, la de obtener las Coapariciones. A1 pulsarla, aparece una pantalla que permite introducir el lema cuyas coapariciones deseamos obtener. Estamos, pues, ante una formulacion mas abstracta que las vistas hasta ahora, puesto que la aplicacion trabaja directamente con lemas, tanto para el pivote сото para la agrupacion de los elementos lexicos que aparecen en el contexto proximo, que, por defecto, esta constituido por cinco posiciones a cada lado de la seleccionada. El resultado de la consulta aparece en la figura 4-9.

La aplicacion devuelve los lemas que coaparecen con violeta, su clase gramatical, la frecuencia con que se localizan en ese contexto (por defecto, cinco posiciones a cada lado) у el valor que resulta al aplicar tres pruebas estadtsticas diferentes (la informacion mutua, la log-verosimilitud у la puntuacion t). Todos esos factores pueden servir para obtener distintas ordenaciones en funcion de los intereses especfficos de cada consulta (la ordenacion por defecto es la que corresponde a la informacion mutua (IM). Es facil observar que el valor de la IM no va en paralelo a la frecuencia con que se detecta la combinacion: el estadfstico cuantifica en que medida la aparicion de uno de estos lemas explica о predice la aparicion de otro. Si se cambia la opcion de ordenacion у se selecciona la correspondiente a

T6rminos que coaparecen con violeta en el CORPES Fuente

Figura 4.9 T6rminos que coaparecen con violeta en el CORPES Fuente: CORPES

frecuencia, se puede observar que el lema que coaparece con violeta mas frecuentemente es el articulo determinado, que se da en 1712 casos, pero tiene una 1M de solo 3,58. El artfculo es un elemento muy frecuente у facilmente localizable en el entorno inmediato de cualquier otra palabra, con lo que la fuerza de su asociacion con el lema violeta es bastante baja. En cambio, si volvemos a la ordenacion segun el valor de la IM, veremos que en las primeras posiciones figuran palabras сото genciana, ramito, granate, rubf, reflejos, jazmin, etc. Son palabras que tienen una frecuencia individual mucho mas baja, pero en las que una parte importante de sus apariciones tienen lugar precisamente en el entorno inmediato de violeta.107

Sin entrar en detalles tecnicos, es importante comprender que lo que determine la impor- tancia de cada coaparicion no es la frecuencia con la que se da, sino el valor que presentan las pruebas estadisticas que miden su fuerza. Si se reordenan los resultados de la figura 4.9 por frecuencia, se observa que las cifras mas alias corresponden a elementos сото el articulo determinado, la preposicion de, la conjuncion y, etc., asociaciones que no nos dicen nada acerca de la combinatoria de violeta. Son elementos muy frecuentes у, сото tienen significa- dos gramaticales, se pueden situar al lado de cualquier sustantivo, de modo que lo previsible es que haya rnuchos casos en los que aparezcan en las proximidades de, por ejemplo, violeta. Lo que nos interesa, sin embargo, es una medida de la fuerza de la asociacion que tenga en cuenta la frecuencia individual de cada uno de los terminos, el calculo de la probabilidad de su coaparicion en funcion de esa frecuencia (teniendo en cuenta tambien el tamano de la ventana) у el contraste de ese resultado con el obtenido realmente en los textos. Un calculo sencillo de la frecuencia esperada consiste en multiplicar la frecuencia total de apariciones del termino estudiado por la frecuencia total del termino que coaparece у dividirlo por el total de elementos del corpus. En este caso concreto, puesto que el articulo determinado aparece 27 838 162 veces, el lema violeta lo hace 3876 у el numero total de elementos de esta version del CORPES es (sin signos de puntuacion) 281 272 340, la frecuencia esperada es 383,61, inferior a la registrada. Ahora bien, parece logico que en el numerador se tenga en cnenta tambien el tamano de la ventana, por lo que seria el producto de la frecuencia de cada elemento у el tamano de la ventana tomada en consideracion (diez). Por tanto, el resultado es que la frecuencia esperada de la combinacion es 3836. La combinacion se da realmente solo 1712 veces, lo cual hace que la IM sea de tan solo 3,0. En cambio, genciana aparece treinta у ocho veces en todo el CORPES, asi que la frecuencia esperada de aparicion con- junta con violeta es de 0,00523 (3876*38*10/281 272 340), mientras que la combinacion se da realmente diez veces у la IM tiene un valor de 14,67. Los estadisticos que facilita la apli- cacion de consulta у algunos otros que podrfan aplicarse tambien (сото el %2 al que se hace alusion en el apartado 5.9) son diferentes formas de medir la fuerza de esta asociacion.

Dado que la aplicacion trabaja con lemas у se tiene en cuenta la clase de palabras a la que pertenecen, resulta sencillo, mediante la posibilidad de reordenacion de los resultados, obtener, por ejemplo, los sustantivos о los adjetivos que coaparecen con violeta mas frecuen- temente. Esta reordenacion puede manejar varios criterios jerarquizados, de modo que podemos reordenar por clases de palabras (primer criterio) у luego por IM (segundo crite- rio).lcs Podemos ver asi que los adjetivos que coaparecen con violeta con mayor fuerza explicative son colores сото granate, azul, amarillo, verde, rojo, seguidos de adjetivos que graduan о matizan el color (mtenso, oscuro, profundo).

Si volvemos ahora a la ordenacion primaria segun la importancia de la IM, podremos observar que una buena parte de los lemas que aparecen son congruentes con el significado de violeta сото una determinada planta о flor (ramito, aroma); otros estan en consonancia con violeta сото nombre de un color —precisamente el caracteristico de esa flor— (granate, ribete, lila, rubf). Es precisamente la posibilidad de detectar la existencia de grupos de palabras distintos que coaparecen con una determinada en funcion de las diversas acepciones que posea la que funciona сото pivote lo que explica la amplfsima utilizacion que tiene en la lexicografia actual el uso de las coapariciones.

Revisemos ahora un caso ya presentado en el capitulo 1: saco. Mediante el procedimiento ya indicado (pestana de coapariciones e introduccion de saco en la ventana de Lema), obtenemos una pantalla semejante a la figura 4.10.

La ordenacion segun el valor de la IM, que es la que la aplicacion proporciona por defecto, produce la extrana impresion aludida en el capitulo 1: hay sustantivos у adjetivos que pueden ser relacionados con el material del que estan hechos estos recipientes (yute, arpillera, etc.) о su posible contenido (terrero), pero tambien aparecen otras que remiten a un concepto mas general de recipiente (vitelino, amniotico) y, sobre todo, un tercer bloque que solo se puede explicar mediante el significado de “chaqueta, americana”, que esta palabra tiene en muchos paises (tweed, corbata, abotonar, etc.).109 Resultados semejantes aparecen haciendo esta consulta en el CdEweb.

Evidentemente, esas distintas agrupaciones de palabras proximas a saco surgen сото con- secuencia de la polisemia que posee: cada uno de los bloques de coapariciones es congruente con uno de los significados posibles. Como consecuencia de ello, el analisis de estos terminos resulta ser un magnifico indicio de la existencia de diferentes acepciones en la palabra anali- zada y, por tanto, se convierte en un buen recurso para los trabajos lexicograficos. En este caso concreto, ademas, existe una diferencia diatopica bastante clara, puesto que saco no se utilize con el significado “chaqueta” en Espana (salvo Canarias). Por tanto, si repetimos la busqueda marcando ahora Espana en la ventana Origen, obtendremos una relacion de elementos que ya solo tienen vinculos con el significado de “recipiente”: terrero, arpillera, roto,

Pantalla de resultados de CORPES con los tdrminos que coaparecen con saco Fuente

Figura 4.10 Pantalla de resultados de CORPES con los tdrminos que coaparecen con saco Fuente: CORPES

patata, cemento, etc.). Con la misma consulta, pero referida ahora a America en general, aparecen palabras con esa misma orientacion, pero tambien figuran en las primeras posicio nes otras сото tweed, corbata, abotonar, solapa, bolsillo, etc. Si es necesario, podemos especifi- car mas estas busquedas para referirlas a determinados paises.

Caracterfsticas semej antes aparecen en el analisis de las coapariciones de celular. Las palabras que tienen el 1M mas frecuente en textos procedentes de Espana son terminos tec- nicos vinculados a la medicina о la biologia (neurotecoma, mixoide, apoptosis, regenerative, membrana), mientras que las coapariciones en textos americanos muestran tambien palabras de este tipo en las primeras posiciones (molecular, humoral, apoptosis, etc.), pero aparecen con valores altos terminos pertenecientes a la telefoma (palmtop, telefonfa, Movistar, timbrar, PDA, telefono, etc.). De nuevo, la confirmacion de la utilidad de las coapariciones сото procedimiento para la deteccion de la existencia de diferentes acepciones en una palabra о bien, por supuesto, de casos de homonimia.

 
<<   CONTENTS   >>

Related topics