Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

La variación en el léxico: el eje diatópico

La idea de que las lenguas cambian a traves del tiempo у presentan variaciones en distintos lugares, hablantes о situaciones ha estado siempre presente en la conciencia de los miem- bros de las mas diversas comunidades lingiifsticas, aunque, сото es logico, su mayor о menor peso depende de los conocimientos у relaciones existentes en cada una. La linguistica del

Pantalla del CORPES con los resultados reordenados en funcidn del sustantivo final

Figura 4.4 Pantalla del CORPES con los resultados reordenados en funcidn del sustantivo final

Tabla 4.17 Frecuencias generales de diferentes variantes de la expresidn hasta SUSTANTIVO en el CORPES

Expresi6n

Frecuencia

estar hasta la madre

25

estar hasta la coronilla

25

estar hasta los cojones

23

estar hasta los huevos

20

estar hasta el gorro

20

estar hasta el cuello

16

estar hasta las narices

12

estar hasta las pelotas

8

estar hasta ...

1

estar hasta las barbas

1

estar hasta la gorra

1

estar hasta la cresta

1

estar hasta el pico

1

estar hasta el colodrillo

1

Fuente: CORPES. Elaboracibn propia

siglo xix se explica en gran parte por el interes en la historia de las lenguas у sus vinculos geneticos. Las ideas у conocimientos desarrollados en el siglo xix se consolidaron у amplia- ron en el siglo xx, pero el analisis de los aspectos evolutivos dejo de constituir la vanguardia de los estudios linginsticos, que, en cambio, se centraron en consideraciones mas abstractas de los fenomenos, consideraciones que exigen estabilidad у fijeza en los objetos analizados. En efecto, la conocida dicotorm'a saussureana entre langue у parole se resuelve en la atencion primordial al sistema, a la lengua, con la consiguiente perdida de interes hacia el habla. En paralelo, la diferenciacion de los enfoques sincronico у diacronico desemboca en la consi- deracion de la sincronia сото la orientacion fundamental. Algo no muy distinto sucede a mediados de siglo con la conocida distincion de Chomsky entre competence у performance, que resulta, de nuevo, en la prioridad absoluta de la cara abstracta, la competencia, у la consiguiente falta de atencion a lo concreto, la realizacion.

A pesar de todo lo anterior, lo cierto es que la primera mitad о incluso los primeros tres cuartos del siglo xx muestran que los estudios historicos у dialectologicos suponen un por- centaje alti'simo de las investigaciones realizadas en ese periodo, pero, сото se indica en el parrafo anterior, sin que ello signifique que los fenomenos relacionados con la variabilidad constituyeran el objeto fundamental de la teoria lingtifstica ni su estudio estuviera situado en la vanguardia de nuestra disciplina. Para decirlo rapidamente, se sabe que las lenguas cambian, se estudian esos cambios, incluso intensamente, pero se sigue pensando que lo importante es el sistema abstracto y, por tanto, la variacion es algo asf сото un fenomeno incomodo, con el que hay que convivir, pero al que se atribuye el menor rango posible. La dialectologia, la geografia lingtifstica у algunas otras (sub)disciplinas son las ramas especia- lizadas en el analisis de la variabilidad en la lingtifstica tradicional. La situacion comienza a cambiar a partir de 1960, con el desarrollo de la sociolingiifstica, que se centra en el analisis de la variacion existente en las lenguas у sus relaciones con la estructura social. Con su

Pantalla con las opciones de consulta у los resultados en ESLORA instalacion en las disciplines lingiiisticas se cierra el circuit) de la variabilidad, formulada en los ejes diacronico

Figura 4.5 Pantalla con las opciones de consulta у los resultados en ESLORA instalacion en las disciplines lingiiisticas se cierra el circuit) de la variabilidad, formulada en los ejes diacronico (en el tiempo), diatopico (en el espacio), diastratico (en la estructura social) у diafasico (en la situacion). La sociolingiifstica permite la observacion del cambio lingiiistico en el mismo momento en que se esta produciendo, con lo que su repercusion sobre los estudios historicos ha sido realmente notable. Como consecuencia de todo ello, la vision fragmentada de las diferencias internas de las lenguas presenta ahora una formulacion rela- tivamente unificada (la que se conoce habitualmente сото “variacion у cambio”) у la varia- cion ha pasado de ser un fenomeno marginal, tolerado, a ser considerada un elemento nuclear de la vida у funcionamiento de las lenguas.

La variabilidad diatopica, esto es, la que se produce entre los diferentes territories en los que se habla una lengua determinada es la que ha sido estudiada de modo mas intenso у constante. La dialectologia tradicional у la geografia lingiiistica son las subdisciplinas espe- cializadas en el analisis de estos fenomenos у han contribuido de forma muy notable al progreso de nuestro conocimiento de la variacion en general y, en nuestro caso, en el mundo hispanico. No obstante, ambas tienen el inconveniente de estar excesivamente basadas en datos obtenidos en momentos concretos сото respuestas a preguntas especificas por parte de personas que casi siempre estan mayoritariamente adscritas a unos determinados estratos socioculturales. El analisis de la variabilidad mediante los datos contenidos en un corpus textual puede proporcionar, en cambio, una vision mas general, condicionada unicamente por la composicion del propio corpus, aunque, сото veremos, no esta exento de dificultades.

En el capitulo 1 aparecen los datos correspondientes a la distribucion de zumo у jugo en el mundo hispanico, que muestran que zumo tiene mas frecuencia en Espana, mientras que jugo es mas usada en casi todos los demas paises. Esta presentacion global, adecuada en lineas generales, precisa, sin embargo, unas cuantas puntualizaciones necesarias para entender lo que sucede realmente. El punto fundamental reside en que estos dos terminos no presentan sinonimia completa (que es, por otra parte, lo habitual, puesto que suele decirse que la sinonimia perfecta no existe). Segun el DLE23 (s.v.), zumo es el “lfquido de las hierbas, flores, frutas u otras cosas semejantes”, mientras que jugo se define сото “zumo de las sustancias animales о vegetales sacado por presion, coccion о destilacion”. Es decir, jugo es la palabra general, mientras que zumo se aplica unicamente a vegetales y, por tanto, la alternancia de formas о la preferencia marcada por una de ellas puede darse cuando se hace referencia al que se obtiene de pomelos, limones, naranjas (con sus diversas denominaciones), etc., pero no deberia aparecer cuando se trata de extracciones procedentes de animates.44 La conse- cuencia mas clara de esta distincion es, sin duda, la inexistencia en el CORPES de ejemplos de la expresion zumo gastrico. La esperable, jugo gastrico, presenta, en cambio, una distribution general muy semejante en todos los paises.

La aplicacion de consulta del CORPES nos permite obtener estos datos de forma muy comoda. Por supuesto, cabe la posibilidad de introducir en la casilla de Forma la expresion jugo gastrico, pero esa opcion nos devolverfa unicamente los casos del singular.45 El camino adecuado, que ya hemos utilizado en otras busquedas, consiste en usar la opcion de Proximi- dad, que figura en la parte superior derecha. Por tanto, se introduce j ugo en la ventana de Lema, se pulsa luego la de Proximidad y, en la linea que se despliega debajo se marca gastrico сото lema у luego se selecciona la opcion de Distancia, 1 (elemento) у derecha. Es decir, buscamos los casos en los que una forma perteneciente al lema jugo va seguida inmediatamente por una forma perteneciente al lema gastrico.46 Activando la pestana de Estadistica, obtenemos los resultados por areas lingiiisticas que aparecen en la tabla 4.18.4'

Tabla 4.18 Frecuencias normalizadas de la expresidn jugo(s) g£strico(s) en las distintas dreas lingufsticas

Zona

Frecuencia

normalizada

Andina

0,27

Antilles

0,85

Caribe continental

0,54

Chilena

0,47

Espana

0,38

Mexico у Centroamdrica

0,51

Rio de la Plata

0,49

Fuente: CORPES. Elaboracidn propia

La frecuencia normalizada de esta expresion (que figura en el DLE23 сото forma compleja) no es en Espana muy diferente de la que se puede observar en el area andina, la chilena о la rioplatense, que es lo esperable. No hay en el CORPES casos de zumo(s) gastrico(s).

La imposibilidad de combinar zumo con gastrico supone un factor importante, que debemos tener en cuenta para comprender adecuadamente la distribucion de estas dos palabras en el mundo hispanico: jugo es el termino mas general, mientras que zumo se refiere unicamente a vegetales у eso explica una parte de los casos de jugo en textos de Espana. Por otro lado, los datos del CORPES sugieren que la situacion de estos dos terminos no puede caracterizarse con algo tan simple сото la atribucion de cada uno de ellos a una de las dos orillas del Atlantico. La distribucion de la expresion zumo de limon muestra que la realidad es un tanto mas compleja. La forma de obtener los datos es la ya descrita en el parrafo anterior, haciendo los cambios necesarios en el lema. Solo para explorar otra posibilidad, en este caso vamos a usar la opcion de Proximidad no con la distancia exacta, sino con el intervalo. Asi pues, escribimos zumo (o jugo) сото primer lema, y, en la ventana de Proximidad, ponemos limon en un inter- valo de dos posiciones a la derecha.48 Los datos son los que aparecen en la tabla 4.19.

Llama fuertemente la atencion la enorme distancia que existe en Espana entre las dos posibilidades: veinte veces mas a favor de zumo. En todas las demas areas se observa un pre- dominio evidente de jugo de limon, con frecuencias especialmente bajas para la otra opcion en Mexico у Centroamerica о Chile. Los datos del CORPES, pues, confirman la vision general acerca de la preferencia americana por jugo у la espanola por zumo, рею, сото hemos visto, ahora restringiendo esa distribucion a casos en los que los dos lemas pueden ser con- siderados realmente sinonimos.

El analisis de la distribucion de zumo у jugo ha dejado claro que, aunque en algunos casos los datos cuantitativos que obtenemos en el analisis de los corpus textuales pueden ser inte- grados directamente, lo habitual es que su interpretacion correcta requiera una investigacion mas profunda. En un corpus etiquetado morfosintacticamente podemos trabajar con el lema, la clase de palabras у las categori'as gramaticales que sean de aplicacion, pero no con las diversas acepciones de una palabra, que requieren anotacion semantica, algo bastante mas complicado у a lo que en un corpus anotado morfosintacticamente solo podemos acercarnos por via indirecta, сото hemos hecho en el caso anterior con el analisis de algunas

Tabla 4.19 Frecuencias normalizadas de zumo de limdn у jugo de limdn en las diferentes areas lingufsticas

zumo+limbn

jugo+lim6n

Andina

0,65

2,78

Antilles

3,10

6,36

Caribe continental

1,26

4,78

Chilena

0,11

6,40

Espana

4,04

0,18

Estados Unidos

0,28

4,23

Guinea ecuatorial

1,13

-

Mexico у Centroamerica

0,05

4,37

Rfo de la Plata

1,41

3,63

Fuente: CORPES. Elaboracidn propia

coapariciones. Cuando las diferencias estan en el lema, los datos cuantitativos resultan directamente interpretables.

Es lo que sucede con aquellas palabras que la conciencia lingiustica general considera caracteristicas de algunos paises о regiones. Cualquier hablante de espanol de cultura media sabe que bife, choripan о chinchulines remiten directamente al Rfo de la Plata: su especia- lizacion semantics hace que no sea necesario habitualmente entrar en el analisis del sig- nificado concreto que presentan en un ejemplo determinado para asegurar esa adscripcion. Bastante mas alejado de la conciencia general esta el caso de acapite, palabra totalmente desconocida para la mayor parte de los hablantes de Espana. El DLE23 lo define сото equivalente de parrafo у lo considera uso general en America (con ciertos valores adicionales en algunos paises). Los datos del CORPES confirman la ausencia de la palabra en textos procedentes de Espana у matizan el uso en los parses americanos, que presentan frecuencias normalizadas bastante altas, сото es el caso de Cuba (6,34) о Peru (5,01), у tambien bastante bajas, сото Venezuela (0,30) о Mexico (0,12). Tambien muy vinculado a un pais esta la palabra profesionista: de 338 casos existentes en la version 0.91 del CORPES, 322 (es decir, el 95,26 %) proceden de textos mexicanos.49 Profesional, que es el termino usado en general en todo el mundo hispanico (tambien en Mexico), tiene usos adjetivos у sustantivos. En el DEM se puede leer, para la tinica acepcion sustantiva registrada de profesional:

profesional

4 s m у f Persona que se dedica a alguna actividad de tiempo completo у сото medio de vida о que tiene un gran dominio de su profesion: un profesional de la danza, una profesional de la natacion.

DEM s.v.

Para profesionista, en cambio, encontramos:’0

profesionista

s m у f Persona que ha estudiado una profesion у la ejerce: un profesionista de gran valor, una gran profesionista.

DEM s.v.

Algo parecido, aunque en sentido distinto, se registra con el adjetivo investigativo, que alterna con investigador en el mundo hispanico. Segun el DLE, investigativo es un adje- tivo que significa “perteneciente о relativo a la investigacion” (DLE23, s.v.) у no lleva marca de ningun tipo, de modo que debemos suponer que es de uso general. Define investigador, en cambio, сото “que investiga” (DLE23, s.v.) у lo caracteriza сото un adjetivo con posibilidad de uso sustantivo cuando es aplicado a personas. Dado que los usos sustantivos estan restringidos a investigador, la consulta pertinente en el COR- PES puede hacerse con investigador e investigativo сото lema у seleccio- nando Adjetivo en el menu desplegable que aparece al activar la casilla de Clase de palabras.’’1 Los datos son bastante claros: investigador tiene una frecuencia normalizada general de 7,00, que oscila luego entre el 11,15 del area chilena у el 4,13 del Caribe continental. No es arriesgado suponer que, en la medida en que la anotacion morfosin- tactica sea adecuada, la distribucion de este adjetivo en el ambito hispanico es relati- vamente homogenea. En cambio, la misma consulta hecha con relacion a investigativo muestra que la frecuencia es bastante menor (3,55 casos por millon) y, sobre todo, su distribucion presenta diferencias mucho mas marcadas: se situa entre el 12,82 de las Antillas о el 9,96 del Caribe continental, у el 1,52 del Rio de la Plata о el 0,12 correspondiente a Espana. Si nos fijamos en los paises, las diferencias son incluso mayores: 18,13 en Cuba, 15,26 en Honduras у 13,67 en Puerto Rico por un extremo, у Mexico (0,49) у Espana (0,12) en el otro.

Una forma interesante de afinar las busquedas, eliminando la incertidumbre acerca de la anotacion automatica del caracter sustantivo о adjetivo de investigador, consiste en construir la biisqueda sobre una secuencia formada por un sustantivo сото proceso, actividad о seme- jante seguida de investigador e investigativo. La primera posibilidad de construir esa consulta pasa por hacer primero una у luego otra, con actividad сото lema у en la opcion de Proximidad, incluir el lema investigador a distancia 1 a la derecha en primer lugar у la misma busqueda, pero ahora con proceso сото primer lema en la segunda interro- gacion. La aplicacion de consulta del CORPES presenta una opcion potente que permite fundir ambas consultas у obtener los resultados de forma conjunta. El sistema consiste en construir la primera consulta (con, por ejemplo, actividad сото lema e investigador a distancia 1 por la derecha) у luego, usando el boton del Conector, situado en la parte izquierda de la pantalla (que admite los operadores booleanos y, o, no), presentar la segunda.52 El resultado es que esas dos combinaciones se dan en un total de sesenta у ocho casos, con una FN de 0,24, con la peculiaridad de que sesenta у tres de ellos corresponden a textos espanoles. La misma consulta, ahora con investigativo, devuelve ciento dieciseis casos (FN 0,41), que se concentran fundamentalmente en Cuba (FN 1,91) у Ecuador (1,61), mientras que Mexico о Uruguay tienen un caso cada uno у no se documenta ninguno en textos espanoles.

El analisis de la variabilidad lexica en el eje diatopico es un terreno adecuado para analizar las ventajas e inconvenientes que presenta el uso de corpus textuales en relacion con otras metodologias. Desde un punto de vista muy general, los diccionarios poseen una fiabilidad alta en las defmiciones у la organizacion de las acepciones, pero pueden presentar deficiencies en la documentacion manejada, lo cual repercute en los elementos incluidos en su lemario (tanto por exceso сото рог defecto) у tambien en la adscripcion de usos a, por ejemplo, pafses. Los atlas lingiifsticos у recursos similares se basan en respuestas obtenidas en un instante concreto de un individuo determinado y, por tanto, son muy sensibles a factores personales у momentaneos. En cualquiera de estas dos vfas, el tratamiento de la frecuencia de uso es inexistente о queda muy desdibujada. Esta es, en cambio, la fortaleza fundamental de los corpus, con los que es posible medir con certeza ese caracter y, si la codificacion anadida a los textos lo permite, afinarla por diversos parametros (pafses, areas tematicas, niveles de lengua, etc.)- La parte negativa reside en la gran cantidad de ejemplos que hay que examinar cuando necesitamos ir mas alia del simple dato cuantitativo (que es casi siempre) para pro- fundizar en el analisis de factores semanticos о gramaticales.

Veamoslo con un ejemplo practico. Segun el DLE23, bombilla designa, dejando a un lado otras acepciones que no nos interesan aquf, un foco electrico, la сапа utilizada para sorber el mate (que tambien puede ser de metal) y, por otro lado, es sinonimo de bombilla en su acepcion de tubo para extraer lfquidos (vinculada a la anterior). Ninguna de esas acepciones lleva rnarca geografica, de modo que se consideran de caracter general.” En esta misrna obra, bombillo es definido сото sifon que sirve para evitar la subida de malos olores en sanitarios, tubo para extraer lfquidos у se indica que es usado tambien сото sinonimo de bombilla en Colombia, Costa Rica, Honduras, Nicaragua, Republica Dominicana у Venezuela. Por tanto, ambos terminos son sinonimos en dos acepciones, bien en general, bien en algunos pafses. En Colorn- bia о Venezuela, la gente enciende (prende) у apaga bombillos, mientras que en Espana las mismas operaciones se hacen con bombillas. Por su parte, el DAm —que, сото es sabido, no contiene palabras ni acepciones de uso general— registra bombilla сото utensilio para sorber infusiones (especialmente el mate) en el cono sur, Ecuador у Bolivia por una parte у сото tubo para extraer lfquidos en Bolivia, Chile у Peru. En cuanto a bombillo, lo registra сото equivalente de foco electrico en bastantes pafses (Mexico у Centroamerica, Colombia у Venezuela). Registra, tambien con el significado de “foco”, la palabra bujia en parte de Mexico, El Salvador у Bolivia, con la indicacion de “poco usado” en este ultimo caso.

Varilex, un proyecto dirigido precisamente al estudio de la variacion diatopica en el lexico cuyos datos son recogidos mediante respuesta a cuestionarios escritos, presenta una situacion no del todo coincidente con la que hemos visto en los dos diccionarios analizados (parcial- mente diferente tambien). Con el significado de “foco”, bombilla aparece unicamente en Espana, Guinea Ecuatorial, Cuba, Puerto Rico, Guatemala у Chile. Bombillo se registra en Cuba, Reptiblica Dominicana, Honduras, Costa Rica, Panama, Colombia, Venezuela у Ecuador. Algunos otros terminos registrados son bujia (solo en Nicaragua), asf сото foco у iam- parita que se localizan en pafses сото Argentina, Uruguay у Paraguay.

Como se ve, hay bastante diversidad en los datos, achacable probablemente a las diferen- tes fuentes utilizadas.54 Segun el DAm, bombillo es usado en Mexico con el sentido de “foco”, empleo no registrado en el DLE ni en las encuestas de Varilex, que da foco сото unica posibilidad en este pais. El analisis de los datos del CORPES da una frecuencia normalizada de 0.48 para bombillo en Mexico, lo cual parece dar la razon al DAm frente a Varilex. Por lo expuesto anteriormente, es claro que discrepancias de este tipo no se pueden resolver con un enfoque puramente cuantitativo de los corpus. Por una parte, la falta de documentacion de una palabra о un uso en una parte del corpus no puede llevarnos sin mas a la negacion de su existencia en la realidad, sobre todo si el subcorpus en cuestion es de tamano pequeno. Por otra, los corpus permiten trabajar con la frecuencia, que es un elemento fundamental, pero lo que se ventila en casos сото el que estamos analizando no es si se documenta о no y, en caso afirmativo, cuantas veces, sino el valor о los valores con que aparece у la frecuencia de cada uno de ellos. Evidentemente, este trabajo solo puede ser realizado a base del analisis de los ejemplos concretos, para tratar de detectar el significado con que esa palabra ha sido usada en cada aparicion. De los trece casos de bombillo en textos mexicanos, ocho de ellos proceden de la misma obra” у se refieren siempre a bombillos de dinamita, de modo que aluden a algiin tipo de explosivo у no son pertinentes para nuestro proposito. Pero hay cuatro ejemplos en los que se aprecia, con toda claridad, el significado de “foco”. Parece, pues, que hay que pensar que este uso se da realmente, aunque este lejos del que tiene/oco.56 De este caracter minori- tario, que puede implicar su desconocimiento en un porcentaje importante de hablantes, es buena muestra uno de los ejemplos registrados en el CORPES. Se trata de un texto de Gon- zalo Celorio en el que, al referirse a un personaje de origen cubano trasladado a Mexico у a sus peculiaridades linguisticas, indica, entre otros rasgos, que llama bombillos a los focos.57

Queda claro que la frecuencia por si sola no aporta los datos necesarios para el cono- cimiento de fenomenos de este tipo у que es necesario proceder al analisis individual de cada uno de los ejemplos para tratar de desentranar lo que sucede realmente.58 Tenemos aqui un nuevo caso de lo mencionado en el apartado 1.2.3 acerca de la diferencia senalada por Tim- mis entre el enfoque cuantitativo у el cualitativo. Se indica alii que esta diferencia, intere- sante desde un punto de vista general, tiene que ser concretada segun el grado de codificacion de cada corpus. Lo misnio que alii se menciona sobre la investigacion acerca de la clase de palabras, que puede estar ausente о bien haber sido incluida en el proceso de analisis automatico de los textos del corpus, en este otro caso pod names trabajar con un corpus que hubiera incorporado anotacion semantica y, por tanto, resolviera los casos de homonimia у polisemia, indicando las acepciones de cada palabra a que corresponde cada uso, con lo que la recuperacion de esta informacion seria automatica у fiable en la medida en que esa codificacion fuera correcta. No tenemos todavfa (para el espanol) corpus con ese nivel de codi- ficacion,59 pero podemos intentar un acercamiento al tema mediante el analisis de las coapariciones. Bombilla presenta una frecuencia normalizada de 3,01 en los textos argentinos del CORPES, que es una cifra apreciable, pero el analisis de sus coapariciones muestra que el linico sustantivo con un grado importante de coaparicion es, precisamente, mate (con una MI de 14,88), lo cual resulta especialmente significativo. En Espana, en cambio, las coapari- ciones de importancia se dan con sustantivos сото vatio, led, adjetivos сото incandescente о verbos сото fundir, iluminar у encender. La diferencia es evidente у muestra con claridad los dos valores diferentes que esta palabra tiene en estos dos patses: significados distintos у, сото consecuencia de ello, frecuencias tambien muy diferentes.60 En Colombia, en cambio, donde segiin Varilex la unica forma utilizada es bombillo, las frecuencias normalizadas de bombillo (7,11) у bombilla (6,27) estan muy proximas, у el analisis de las coapariciones indica que los significados tambien lo estan: para bombillo encontramos prender у luz, mientras que para bombilla la que tiene la Ml mas alta es luz• Todo indica, pues, que en este pais alternan las dos denominaciones (por supuesto, bombilla se usa tambien para el utensilio que sirve para sorber el mate), fenomeno que, segun los datos del CORPES, tambien se da en Venezuela, aunque la frecuencia de uso es bastante diferente (frecuencia normalizada de 7,78 para bombillo у de 2,79 para bombilla). Los datos procedentes de los textos reales, producidos en cir- cunstancias naturales у sin motivaciones de investigacion linguistica, muestran una realidad relativamente diferente de la que se deriva de las respuestas a cuestiones montados con este proposito.61

Mucho mas sencillo de analizar es el caso de cerillo, mencionado en el texto de Gonzalo Celorio que aparece en la nota 57. Segun el DLE23, es el equivalente de cerilla en Andalucia у Mexico (pero registra tambien otros significados que no interesan aquf). Segun el DAm, tiene este valor en Mexico, Honduras у Bolivia. Por fin, el Diccionario panhispanico Varilex lo registra en Argentina, Guatemala, Mexico, Puerto Rico у Republica Dominicana. La con- sulta del lema cerillo en el CORPES devuelve 342 casos, lo cual supone una frecuencia normalizada de 1,21, que es una cifra de cierta importancia. De ellos, trescientos diez pro- ceden de Mexico у Centroamerica, lo cual es un dato realmente indicativo de la distribucion que tiene esta palabra en el mundo hispanico. Pero la consulta por pafses resulta todavia mas llamativa, puesto que a Mexico le corresponden 294, con una FN de 9,09 casos por millon, seguida, muy de lejos, por 1,89 de Guatemala у el 1,08 de Bolivia. No se registran casos en Puerto Rico у el unico ejemplo que el CORPES atribuye a Argentina procede de un texto de Martin Lopez Brie, autor nacido en Buenos Aires, pero radicado en Mexico.

Los analisis anteriores han debido de dejar claro que cada uno de los procedimientos que podemos emplear para obtener datos acerca de la distribucion geografica de los elementos lexicos tiene aspectos positivos у negativos. Aunque no parece partidista afirmar que los corpus textuales, siempre que hayan sido disenados у construidos para responder a este obje- tivo, son la via mas segura para lograrlo, no se puede ocultar que presentan tambien algunas complicaciones у dificultades, a algunas de las cuales vamos a dedicar los parrafos siguientes.

Naturalmente, la posibilidad de trabajar con la adscripcion geografica de un texto (pon- gamos, para simplificar, el pais, pero las indicaciones pueden ser considerablemente mas complejas) exige que ese rasgo figure entre los metadatos que se incorporan en el proceso de codificacion del texto, сото se describe en el apartado 3.4- Ahora bien, que la indicacion del pais conste en la cabecera de un texto permite que se pueda dar esa informacion asociada a, por ejemplo, las lineas de una concordancia, pero no garantiza la recuperacion selectiva de la informacion utilizando este caracter. Por ejemplo, el CORD1AM indica el pais en la informacion asociada a las concordancias, pero no permite construir una biisqueda que se reduzca a, por ejemplo, los casos correspondientes a Mexico. El CdEhist ni siquiera incluye ese rasgo entre los metadatos. La adscripcion a un pais es, en cambio, uno de los factores estructurales constitutivos del conjunto CORDE-CREA-CORPES, que lo utilizan para la distribucion de los textos у lo emplea para la recuperacion de la reordenacion de casos.

Una vez decidida la incorporacion del pais entre los metadatos, hay que enfrentarse con la necesidad de saber cual es el que tenemos que atribuir a un texto determinado. Es cierto que, en muchos casos, nos enfrentamos con una obra publicada en un cierto pais, escrita por alguien que tiene la nacionalidad correspondiente у tambien las caracteristicas linguisticas esperables, pero no siempre las cosas son tan sencillas. En primer lugar, en un corpus de referencia entran miles de autores, muchos de los cuales no tienen el grado de popularidad preciso сото para que ese dato sea suficientemente conocido. Se requiere, por tanto, una investigacion particular que, afortunadamente, los recursos disponibles en la actualidad suelen facilitar. No obstante, las biografias individuales pueden ser muy complejas, de modo que no es infrecuencia tropezar con autores que han vivido cierto tiempo en tres о cuatro paises distintos, con lo que esa asignacion se hace un tanto problematica.

Problemas de otro tipo aparecen en publicaciones colectivas о en las noticias de prensa. En el primer caso, es necesario codificar de modo tal que la asignacion del pais se haga de forma individual para cada uno de los autores que participan en un volumen conjunto. En el caso de la prensa, este problema crece de modo exponencial. Piensese, por ejemplo, en la gran cantidad de noticias publicadas por un periodico de un pais cualquiera que son redacta- das por corresponsales que trabajan en un pais distinto y, en muchos casos, muestran los rasgos linguisticos correspondientes al lugar en que trabajan у no al lugar en que se publica la noticia. Parece claro que en un corpus de tamano medio no hay posibilidad de controlar estos aspectos en detalle, de modo que se corre siempre el riesgo de considerar que una cierta forma esta documentada en un pais determinado cuando lo que sucede realmente es que la noticia se ha publicado en un medio correspondiente a ese pais, pero ha sido escrita por una persona con caracteristicas lingiiisticas diferentes.

Mayor riesgo se corre todavia cuando se trabaja con textos que resultan de la intervencion de muchas personas distintas, dificiles о imposibles de caracterizar, сото sucede en los blogs. Con una considerable inversion de tiempo, es posible fijarse el objetivo de atribuir un pais a la persona responsable del blog, pero es de todo punto imposible pretender hacer lo mismo con las que dejan en esa pagina sus mensajes о comentarios. Aqui radica uno de los problemas mas fuertes de los corpus oportunistas, que se construyen mediante la descarga de todo aquello que, en caso de cumplir ciertas condiciones, es importado de la red e integrado. En el caso de los blogs, por ejemplo, el CORPES incluye unicamente los textos escritos por la persona que produce у gestiona las entradas principales, pero no toma en cuenta los comentarios, que pueden proceder de hablantes de paises muy diferentes. Logicamente, ese filtro no es realizable en el caso de corpus сото el CdEweb о Es-Ten-Ten.

Todo lo anterior implica que la fiabilidad de la informacion diatopica que se puede obtener de un corpus esta en relacion directa con el trabajo de codificacion manual que sus construe- tores hayan desarrollado. En ese sentido, parece claro de nuevo que los corpus construidos con materiales descargados de la web у codificados automaticamente no pueden ofrecer siempre garantias suficientes. El modo de atribuir un pais de forma automatica a textos des- cargados de la red consiste en vincularlo al dominio en que se encuentra la pagina (.es para Espana, .ar para la Argentina, etc.), о bien basarse en la localizacion geografica a traves de la IP del servidor. La primera linea tiene inconvenientes claros: ni todo lo que se publica en una pagina que tenga .uy en su direccion ha sido producido en Uruguay у por uruguayos ni todo lo generado por personas, empresas о instituciones uruguayas lleva .uy (piensese, por ejemplo, en todo lo que se publica en paginas de dominios сото .com, .edu, etc.). En termi- nos generates, estos mismos inconvenientes se aplican a la linea que se basa en la IP del servidor en que se encuentra la pagina. Las biisquedas refinadas de Google у la atribucion de pais que se hace en el CdEweb se basan en estas tecnicas, de modo que deben ser manejadas con precaucion, especialmente a medida que los resultados van abandonando los niveles mas generates у se van haciendo mas especificos.

Un paso adicional en esta direccion se produce cuando, сото sucede en muchos textos orales, encontramos que alternan intervenciones de personas que tienen diferentes adscrip- ciones geograficas. En una tertulia radiofonica о televisiva, por ejemplo, es relativamente comun que intervengan personas de distintos paises. En casos de este tipo parece claro que los metadatas de la cabecera deben dar las indicaciones pertinentes y, mas importante en este apartado, la aplicacion de consulta debe ser capaz de caracterizar y, en su caso, localizar los fragmentos que corresponden a las intervenciones de personas que proceden de un determinado lugar. Esta necesidad supone un cambio importante en la estructura de la aplicacion, que se puede observar, por ejemplo, en el CORPES о en ESLORA. Por otro lado, esta claro que este mismo cambio reorganizativo tiene que darse en textos de este tipo con respecto a todos los factores tornados en cuenta habitualmente en los estudios de caracter socio- lingiiistico: edad, sexo, nivel sociocultural. En todos ellos, la aplicacion tiene que ser capaz de almacenar las caracteristicas de cada hablante у atribuirlas luego a cada una de sus intervenciones.

Por ultimo, los textos de ficcion presentan mayor seguridad a la hora de vincular autores у paises (sin que podamos perder de vista las peripecias biograficas), pero bay muchisimas narraciones en las que alguno(s) de los personajes ba(n) sido caracterizado(s) lingiifsticamente. Si uno de los personajes de una novela escrita por un autor peruano utiliza sistematicamente expresiones del tipo vosotros pensais у similares, no se puede deducir, sin mas, que esta es una posibilidad documentada realmente en el espanol de Peru, у babra que analizar con detencion las caracteristicas de esa novela у de ese personaje. En definitiva, la enorme facilidad que nos proporciona la utilizacion de grandes corpus textuales no puede hacernos olvidar la necesidad de revisar los datos obtenidos desde una perspectiva “filologica” (cf. infra, 6.2).

 
<<   CONTENTS   >>

Related topics