Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

La variación en el léxico: el eje diacrónico

Entre los objetivos posibles establecidos en la construccion de un corpus puede figurar, сото hemos visto ya en el apartado 1.2.4, el de facilitar los datos que nos permitan conocer mejor la forma en que una lengua ha evolucionado a lo largo del tiempo. Los diacronicos anaden a los problemas generales que se producen en el proceso de formacion de los corpus todos los que derivan de las dificultades de los mas diversos tipos esperables cuando hay que enfrentarse con textos procedentes de diversas epocas, con sistemas ortograficos que pueden resultar muy diferentes у que requieren siempre un proceso de edicion que, en el caso de los corpus diacronicos de caracter general, puede dar lugar a discrepancias (en, por ejemplo, el grado de (idelidad a los manuscritos о impresos originales) e incertidumbres. Anadase a todo ello el problema derivado del hecho de que solo ha llegado hasta nosotros una parte (pequena) de lo que se ha escrito en espanol a lo largo de la historia de esta lengua, que lo fijado por escrito es solo una parte (muy pequena) de lo producido у presenta, ademas, las caracteristicas especiales que diferencian la situacion en la que se produce un texto escrito con respecto a las habituales en un discurso oral.62

A pesar de todas esas dificultades —indesligables del trabajo con textos de epocas anteriores— los corpus diacronicos han supuesto un enorme avance en los estudios relacio- nados con la historia de las lenguas. La causa fundamental de ese progreso procede, сото hemos visto ya en otros muchos aspectos, de la posibilidad de acceder a cientos de millones de formas pertenecientes a miles de textos que, ademas, incorporan una codificacion que nos permite hacer recuperacion selectiva de la informacion, tomando en cuenta en cada caso unicamente aquellos textos que tienen los valores adecuados en los parametros pertinentes en cada caso (epoca, tipo de texto, pais, etc.). Este progreso se ha manifestado muy especial- mente en el terreno de los estudios gramaticales, precisamente por las ventajas que presenta la posibilidad de manejar con comodidad grandes cantidades de textos de todas las epocas, у contrastar las caracteristicas у frecuencia que presentan ciertos rasgos, fenomenos о element os en cada una de ellas. Veremos algunos de estos fenomenos en el apartado 5.8 у nos centraremos aqui en los tipos de investigacion que podemos hacer en el modulo lexico con los corpus que tenemos a nuestra disposicion, basicamente el CORDE, el CDH у el CdEhist.

Las lenguas romanicas disfrutan, en general, de la situacion privilegiada que supone dis- poner de documentacion escrita ininterrumpida desde los primeros testimonies conservados del latfn hasta la actualidad. Elio significa que podemos planteamos el objetivo de conocer la fecha de entrada de una palabra en la lengua sin esperar mas elementos perturbadores que la discrepancia entre la lengua oral у la lengua escrita, con el habitual retraso de la segunda con respecto a la primera por una parte,63 у el factor, evidente, de que un corpus es limitado у finito por su propia naturaleza, de modo que no puede contener ni siquiera todos los textos conservados, con lo que hay que aceptar que las conclusiones que alcancemos seran siempre provisionales у quedaran sometidas a los datos procedentes de textos no conocidos о no considerados en el momento de nuestra investigacion.

Como hemos visto en el apartado 3.5, los procesos de anotacion morfosintactica son siempre complejos у contienen una tasa de error importante. En el caso de los corpus diacronicos, esas dificultades se ven fuertemente incrementadas por el hecho de que los textos proceden de epocas distintas у responden, por tanto, a caracteristicas foneticas, mor- fologicas у sintacticas diferentes, de modo que lo que resulta adecuado para, por ejemplo, el espanol contemporaneo no lo es en la mayor parte de los casos para los textos procedentes de epocas anteriores, diferencia que se incrementa en relacion directa con la distancia tern- poral. Por otro lado, las formas pertenecientes al mismo lema general (por ejemplo, hacer) que figuran en los textos responden a diferentes fases del sistema fonologico de la lengua (entre rnuchas otras, fazer о hazer), a diferentes sistemas morfologicos (por ejemplo, trujo de traer) у a distintos sistemas ortograficos. Todo ello provoca que la anotacion automatica de textos pertenecientes a distintas epocas sea mucho mas complicada que la que se realiza sobre textos del mismo periodo у, сото consecuencia de ello, no todos los corpus diacronicos incorporen anotacion morfosintactica. En los que vamos a manejar principalmente en este apartado, estan lematizados, al menos parcialmente, el CdEhist у el CDH, pero no lo esta, en cambio, el CORDE. Veremos, de todas formas, algunas vias de interes para superar los inconvenientes de esta carencia.

Muchos de los arabismos existentes en espanol pertenecen al lexico comun у aparecen ya en los primeros textos escritos. Es, por ejemplo, el caso de aldea. Si comenzamos a trabajar con el CORDE, en la ventana de Consulta debemos introducir la expresion aldea о aldeas, puesto que, сото no esta lematizado, es necesario dar las dos formas que puede presenter la palabra.64 La pantalla de resultados senala que, сото era de esperar, hay varios miles de secuencias que contienen una de estas dos palabras, por lo que las limitaciones de la aplicacion de consulta del CORDE en cuanto al numero de resultados que puede devolver impiden su visualizacion. En casos de este tipo, es necesario segmentar la investigacion jugando para ello con la delimitacion de alguno de los parametros que figuran en la orga- nizacion de este corpus. En este caso, lo mas logico es hacerlo con la fecha, puesto que lo que perseguimos es, precisamente, comprobar la presencia de esta palabra en los primeros textos que figuran en el corpus. Por tanto, hay que volver a la primera pantalla, mantener la expre- sion de consulta у anadir una indicacion en la zona que dice Cronologico. Hay en ella dos ventanas, lo cual permite establecer una fecha de comienzo у otra de final. Como en este caso lo que interesa es la segunda, se puede poner, por ejemplo, 1250 en la ventana derecha de esta zona. Por tanto, lo que se esta pidiendo ahora es que la busqueda se limite a textos cuya fecha de clasificacion sea el ano 1250 о anterior. Esa operacion devuelve 358 casos en 77 documentos.65 Si pulsamos la opcion de Recuperar en la zona de Obtencion de ejem- plos, veremos la primera de las varias pantallas en las que estan contenidos los fragmentos que contienen aldea о aldeas. Las pantallas de ejemplos contienen veinticinco lfneas de datos y, en el caso de la primera, podemos observer que los veinte primeros proceden del Vidal mayor, un texto cuya fecha de clasificacion en el CORDE es 1250. Parece claro que esa no puede ser la fecha mas antigua: en esa misma pantalla aparecen ejemplos de comienzos del siglo xiii. La localization del ejemplo mas antiguo se hace con mucha facilidad en el CORDE recurriendo a la opcion de reordenar los ejemplos. En este caso, se trata de seleccio- nar la opcion Ano en la ventana Clasificacion у pulsar Recuperar. Como puede verse, la primera pantalla contiene ahora casos que arrancan en el ano 1074-

^Es 1074 la fecha mas antigua en que se documenta la palabra aldea en textos pertene- cientes al dominio lingiiistico del espanol? Parece que la respuesta debe ser afirmativa, pero necesita ser matizada. El Fuero de Palenzuela es un texto escrito en latin que, сото tantos otros documentos redactados en esta lengua, contiene palabras no latinas que corresponden a toponimos, utensilios comunes, denominaciones generales de terrenos, etc. Su introduc- cion en un corpus de textos espanoles obedece, precisamente, a esa razon: el estudio de la aparicion de elementos lexicos necesita examinar estos documentos para localizar las prime- ras documentaciones de palabras. En estudios de ese tipo no hay problema en considerarlos en pie de igualdad con los que figuran en textos que ya estan en romance, pero no sucede lo mismo en otro tipo de investigaciones en las que se corre el riesgo de considerar сото un fenomeno romance lo que es, en realidad, algo que se da en el latin utilizado en fueros, documentos notariales у de otros tipos. El que parece ser el caso mas antiguo de aldea en textos romances es el que figura en sexto lugar у comienza, “Donacion de la iglesia de Avila у dos aldeas . . .”. La grafia, tan moderna, de esta primera parte del ejemplo у el hecho de que el final este en latin deberia hacernos desconfiar. En efecto, si recuperamos el contexto ampliado (poniendo el cursor del raton sobre el pivote de este ejemplo у pulsando el boton izquierdo), podremos ver que toda esa secuencia no forma parte del texto, sino del titulo del docu- mento.66 Por tanto, el caso mas antiguo de esta palabra en un texto netamente romance es el que aparece en novena posicion, correspondiente al Fuero de Medinaceli (с. 1129).67

El CDH, mas moderno en concepcion, tiene en este punto algunas ventajas importantes sobre el CORDE. De entrada, esta lematizado, lo cual hace que muchas de las consultas posibles resulten mas comodas у seguras. En este caso, basta con introducir aldea en la ventana de Lema у se obtiene ya la totalidad de los resultados: 13 478 en 3065 documentos, que pueden ser consultados sin restriccion. Los ejemplos aparecen, por defecto, ordenados por ano ascendente, de modo que la aplicacion proporciona directamente la fecha mas anti- gua de cada palabra. En este caso, es un ejemplo procedente del Fuero de Madrid, fechado entre 1141 у 1235. Las documentaciones de aldea saltan desde esa fecha hasta comienzos del siglo xiii.68

Tambien el CdEhist esta parcialmente lematizado, con las ventajas que ello supone. Hay que introducir la expresion ALDEA en la ventana de Busca у seleccionar la opcion Grafico para obtener una vision general de la distribucion de las formas correspondientes a lo largo de todo el periodo abarcado por el corpus. En la pantalla figuran las frecuencias totales у las normalizadas (casos por millon) correspondientes a los diferentes siglos. En el caso de los textos del siglo xx, pueden verse tambien las frecuencias por tipos de texto. Las barras hori- zontales que ilustran esta distribucion marcan con toda claridad que la frecuencia de esta palabra ha disminuido considerablemente desde el siglo xiii (72,22 casos por millon de formas) hasta el siglo xx (12,93 casos por millon). Si pasamos ahora al analisis de los ejemplos pertenecientes a cada periodo (pulsando en la barra correspondiente), la aplicacion devuelve, ademas de un tuimero de orden у el ejemplo, el siglo al que pertenece69 у una abreviatura del texto del que procede.70 No se indica cual es la ordenacion adoptada у tampoco se admite la reordenacion. En realidad, la consulta es mas incomoda porque para conocer la fecha de clasificacion de cada texto es forzoso pulsar sobre la indicacion del titulo, con lo que se obtienen los datos completos del texto у un contexto mas amplio. La imposibilidad de reor- denar los ejemplos no es algo que pueda reducirse a las caracteristicas de la aplicacion de consulta. El problema es que la codificacion de los textos no tiene indicacion de pais, tipo de texto (salvo en una tipologi'a muy general en los del siglo xx), etc. Si corresponde a la aplicacion de consulta la imposibilidad de hacer peticiones que manejen subcorpus tempo- rales distintos a los que corresponden a los siglos (с/, infra).

Dada la lejania geografica de la especie animal a la que se refiere, sin duda es la lengua escrita la via de entrada para la palabra cocodrilo, procedente del latin crocodilus, que, a su vez, viene del griego крокоош.ос (с/. Corominas у Pascual DCECH: s.v.). La comparacion de la forma existente en espanol actual con su etimologia indica que estamos ante uno de tantos casos de metatesis que se han dado en la lengua, de modo que es necesario prever la posibilidad de que los descendientes del latin crocodilus aparezcan de muy diferentes formas en textos escritos en espanol. El CdEhist solo lematiza en cocodrilo los casos de cocodrilo у cocodrilos.'1 Mucho mas adecuada es la lematizacion incorporada al CDH, que devuelve, para la consulta del lerna cocodrilo, secuencias con las formas cocodrillo(s), cocodrilo(s), cocodrilla(s), crocodilo(s) у crocodillo(s). La documentacion mas antigua aparece en el CalilaeDimna (com- puesto hacia 1251, pero conservado en un manuscrito de finales del siglo xiv о comienzos del siglo xv), dato apuntado ya en el DCECH. Como ya hemos visto, la ordenacion por defecto en el CDH es por ano ascendente, pero la posibilidad de reordenar los resultados por la forma pivote (que aparece en la ventana de Ordenar por) proporciona un procedimiento comodo у rapido de hacer un inventario de variantes lematizadas bajo cocodrilo por la apli- cacion. Atendiendo unicamente a las variantes en la raiz, la consulta al CORDE de la secuencias cocodr* о crocod* devuelve 733 casos, el mas antiguo de los cuales es el ya men- cionado procedente del Calila e Dimna. Recurriendo de nuevo a la ordenacion segun la forma pivote identificamos con facilidad, ademas de las ya conocidas, cocodriello (en el Viaje de Juan de Mandevilla, hacia 1400), cocodillo(s) у cocodrildo (en el Libro de los gatos, tambien hacia 1400).72

La alternancia de la forma etimologica crocodile у la que resulta de la metatesis cocodrilo ha tenido diferentes valoraciones a lo largo de la historia de la lengua. Es bien conocido el hecho de que el llamado Diccionario de autoridades (DAut), publicado por la Real Academia Espanola entre 1726 у 1739, registra las dos formas,73 pero en cocodrilo remite a crocodilo74 у en esta entrada, que es la que contiene la definicion, se indica que

Algunos escriben Cocodrilo; pero es contra la practica de los mas selectos Autores у

Vocabularios, у contra su origen del Latino Crocodilus, que significa esto mismo.

(Die. Aut., s.v. crocodilo)

En efecto, las dos formas coexisten desde las primeras documentaciones, de modo que puede resultar interesante utilizar las posibilidades que brinda la aplicacion de consulta del CORDE para estudiar el proceso. Frente a la rigidez del CdEhist en la segmentacion temporal de los datos (solo admite la division por siglos), el CORDE permite solicitar los datos correspondien- tes a cualquier tramo temporal, de modo que podemos tratar de ver que sucede con estas dos formas a lo largo de la historia del espanol en periodos de, por ejemplo, cincuenta anos. La forma de hacerlo consiste en introducir la expresion crocodilo о crocodilos en la pantalla de busqueda0 e ir marcando los anos de comienzo у final de cada tramo: el primero puede ser hasta 1200, el segundo de 1201 a 1250, el tercero de 1251 a 1300, etc. Lo realmente impor- tante en este punto es la flexibilidad de la aplicacion: no se trata de permitir solo tramos de cincuenta anos ni de escindir los siglos en dos perfodos. Las busquedas pueden referirse a tra- mos сото de 1325 a 1340, de 1605 a 1619, etc. La aplicacion devuelve el nutnero de casos de esas dos secuencias en el perfodo senalado. Como hemos visto tambien, devuelve la frecuencia absoluta de cada segmento, que no es la mas adecuada para contrastar las que corresponden a distintos perfodos dado que el volumen de textos de cada uno de ellos puede ser bastante diferente. Es forzoso, pues, trabajar con las frecuencias normalizadas. La aplicacion de consulta del CORDE no las facilita directamente, pero sf proporciona un modo razonablemente comodo de calcularlas. En la parte inferior de las pantallas figura la opcion Nomina de autores у obras. Pulsando ese enlace aparece una pantalla que tiene un aspecto semejante al que sirve para hacer las biisquedas. Todo lo que hay que hacer (en este caso) es introducir, en las ventanas correspondientes de la zona Cronologico, los anos que sirvan de comienzo у final del tramo en el que estamos interesados (por ejemplo, 1201 у 1250, respectivamente). La aplicacion devuelve todos los textos contenidos en el corpus que corresponden a ese perfodo, pero lo que interesa aquf es que en la parte superior figura el total de palabras у el numero de documentos que contiene. La forma de obtener la frecuencia normalizada (habitualmente, casos por millon) consiste simplemente en dividir el tuimero de casos de cada perfodo entre el volumen de palabras correspondiente (en mil- lones, сото es logico). El mismo procedimiento se puede aplicar para obtener el volumen de cualquiera de los subcorpus dinamicos que sea conveniente construir.

La aplicacion de esas operaciones para todos los tramos de cincuenta anos en que se puede fragmentar el CORDE da el resultado que figura en la tabla 4.20, en la que aparecen tambien los que corresponden al CREA (en la version etiquetada) у el CORPES, para completar asf el ciclo historico hasta la actualidad.76

Como se ve, la forma cocodrilo es la predominate en casi todos los perfodos que hemos establecido para confeccionar esta tabla, incluida la epoca de redaccion del DAut. Sin embargo, la opcion adoptada en esta obra se basa en criterios diferentes (“los mas selectos autores у vocabularios”). De hecho, el recuento de las dos variantes en las citas aportadas en el DAut produce dieciocho casos de crocodilo(s) у solo cuatro de cocodrilo(s)."

Los corpus de orientacion diacronica constituyen el recurso mas adecuado para analizar los procesos en los que dos о mas formas sinonimas (o casi sinonimas) van modificando sus frecuencias con el paso del tiempo, con posibilidad de desaparicion de una de ellas. En el apartado 1.2.4. analizamos muy superficialmente la historia de la aparicion у alternancia de vegetal у vegetable con los datos proporcionados por el CdEhist. Reproduzco aquf, para mayor comodidad, el grafico resultante.

Como se aprecia en la fitgura 4.6, ambas formas aparecen en el siglo xv у siguen una via de incremento de frecuencia similar hasta el siglo xviii, pero ya en el siglo xix, vegetal se impone con toda claridad у vegetable desaparece. Ya hemos visto varias veces que el CORDE permite seleccionar tramos temporales con libertad total, de modo que, сото hemos hecho en otras ocasiones, podemos fragmentar la consulta en perfodos de cincuenta anos, con lo que sera posible matizar la historia que se deduce de la figura 4.6 у profundizar en ella. La figura 4-7 muestra que ambas formas tienen documentacion mas antigua que la registrada en el CdEhist, у vegetable tiene una fase de predominio en la segunda mitad del siglo xvn у la primera del siglo xviii. A partir de ese momento, vegetal se impone con toda claridad у vegetable solo mantiene usos residuales, casi siempre сото consecuencia de la inclusion de texto de epocas anteriores.

Un caso similar, aunque mas complejo e interesante, es el que plantean los elementos de la serie tiltimo, postrero у postremerolpostrimero, mencionados por Claveria (2004, 475) сото

Tabla 4.20 Frecuencias normalizadas en diversos perlodos del CORDE, el CREA у el CORPES de crocodilo(s) у cocodrilo(s)

crocodilo(s)

cocodrilo(s)

Free, total

103

586

Free. norm, total

0,44

2,507

-1200

0

0

1201-1250

0

0

1251-1300

0

0

1301-1350

0

0

1351-1400

0

0

1401-1450

0

0,163

1451-1500

0

0,273

1501-1550

0,841

1,733

1551-1600

1,858

1,527

1601-1650

0,71

3,003

1651-1700

0

3,497

1701-1750

0,32

2,243

1751-1800

0

9,754

1801-1850

0,358

2,688

1851-1900

0,095

1,678

1901-1950

0,029

4,343

1951-1974

0

3,279

1975-2000 (CREA)

0,01

3,240

2001-2016 (CORPES)

0

5,300

Fuentes: CORDE, CREA у CORPES. Elaboration propia

uno de los casos en los que elementos pertenecientes al lexico patrimonial son sustituidos a partir de un cierto momento por cultismos. A grandes rasgos, lo que sucede es que tanto postremero сото postrimero tienen un uso amplio en los primeros siglos de la historia del espanol, pero luego desaparecen por complete). Algo semejante sucede con postrero, pero en este caso la palabra pervive en la variante mas literaria. Finalmente, ultimo, que se toma directamente del latin, entra en la lengua corriente relativamente tarde, pero se convierte muy poco tiempo despues en la forma habitual de referirse a aquello que esta al final de una serie, la zona mas alejada de un territorio, etc.

Como se trata de adjetivos, las caracterfsticas morfologicas no hacen especialmente com- plicada la recuperacion de los dates relevantes, incluso en un corpus que, сото el CORDE,

Frecuencias normalizadas de vegetal у vegetable segCin el CdEhist Fuente

Figura 4.6 Frecuencias normalizadas de vegetal у vegetable segCin el CdEhist Fuente: CdEhist. Elaboracion propia

Frecuencias relatives de vegetal у vegetable en diferentes perlodos Fuente

Figura 4.7 Frecuencias relatives de vegetal у vegetable en diferentes perlodos Fuente: CORDE. Elaboracidn propia

no haya sido lematizado. Tampoco parece inicialmente que la lematizacion resulte muy compleja, puesto que el rtesgo de tropezar con homografias es nulo en principio. Por tanto, una forma rapida у comoda de obtener una panoramica general que nos permita conocer los detalles de este proceso de sustitucion puede consistir en hacer la busqueda en el CdEhist aprovechando el hecho de que ha sido lematizado. Asi pues, se introduce la secuencia ULTIMO en la ventana de Busqueda y, para obtener la perspective diacronica general que nos interesa seleccionamos la opcion Grafico. Realizar este mismo proceso para los otros tres elementos proporciona los datos que aparecen en la tabla 4-21.

Lo primero que sorprende en las tareas de recuperacion de datos para llegar a la tabla anterior es el hecho de que la aplicacion de consulta no de resultados para los lemas postre- mero у postrimero (que, por supuesto, pueden ser considerados variantes del mismo elemento lexico). No parece creible que ninguno de estos dos elementos este documentado en un

Tabla 4.21 Frecuencias normalizadas de los lemas de la serie distribuidos por siglos

XIII

XIV

XV

XVI

XVII

XVIII

XIX

XX

ultimo

0

0

0

97,27

169,09

346,45

526,5

553,14

postrero

0

0

2,45

15,73

10,77

1,94

2,02

0,18

postremero

0

0

0

0

0

0

0

0

postrimero

0

0

0

0

0

0

0

0

Fuente: CdEhist. Elaboracion propia

Tabla 4.22 Frecuencias normalizadas de las formas adscribibles a los cuatro lemas

XIII

XIV

XV

XVI

XVII

XVIII

XIX

XX

ultimo

0,90

12,73

44,6

100,62

175,57

376,81

529,14

573,87

postrero

1,49

0,37

29,65

75,73

52,07

13,65

27,15

2,06

postremero

0

0

0

0

0

0

0

0

postrimero

58,67

40,46

92,51

3,23

1,62

4,28

3,58

0

Fuente: CdEhist. Elaboracion propia

corpus tan amplio. Por otro lado, las frecuencias normalizadas del lema ultimo parecen acep- tables у congruentes con lo que sabemos: surge tardfamente, pero lo hace con fuerza у es el elemento predominante desde entonces. De todos rnodos, resulta un tanto extrano que no haya ningtin caso en los siglos хш a xv, puesto que la influencia del lexico latino ha sido constante a lo largo de toda la historia de la lengua. Tambien resulta extrano que el lema postrero no aparezca hasta el siglo xv у muestre siempre unas frecuencias bastante bajas. Todos estos detalles hacen sospechar que hay algo que no funciona correctamente en el proceso de lematizacion. La aplicacion del CdEhist posee una forma realmente sencilla de tratar de averiguar lo que sucede: consiste en analizar que formas han sido integradas en cada uno de estos lemas. Si lo hacemos, mediante la opcion Lista, en el caso del lema ultimo compro- bamos que integra las variantes de genero у niimero esperables. Pero si hacemos lo mismo con el lema postrero, vemos inmediatamente que solo contiene la forma postrero, de modo que no se recuperan la forma femenina ni los plurales. El modo de solucionar este problema es, por supuesto, hacer la consults usando las cinco formas del lema.78 El resultado es bastante distinto al que tenfamos у mucho mas congruente con lo que sabemos, сото muestra la tabla 4.22. Algo parecido se produce cuando la busqueda se refiere a las cuatro formas del lema postrimero, que no figura en el lemario del CdEhist. Como se aprecia en la tabla 4-22, es un lema muy frecuente hasta el siglo xv, precisamente hasta que aparece, con fuerza, сото hemos visto, Ultimo. En cambio, la ausencia de postremero no se debe a un problema de falta de adscripcion de formas a lemas, сото en el caso anterior, sino a que en el CdEhist no esta documentada ninguna de las formas correspondientes a este lema.

Esta acumulacion de discrepancias deberia hacemos dudar tambien acerca de los resultados, un tanto extranos, que se observan en el caso de ultimo. Al hacer de nuevo el analisis de las formas integradas en ese lema, se ve que todas ellas llevan tilde en la primera vocal. Es seguro que las formas sin tilde tienen que ser muy abundantes, pero la lematizacion no las ha tenido en cuenta. Se entiende bien la naturaleza del problema que se plantea con las diferencias de ortografia, la falta de normalizacion, etc. y, ademas, esta el hecho de que las formas ultimo, ultima, у ultimas son casos de homografta entre el adjetivo (escrito sin tilde) у el verbo ultimar. Dado que este verbo es poco frecuente, podemos, en una primera aproximacion, aceptar el riesgo que supone hacer recuentos que integren algunas formas de ultimar сото si fueran casos del adjetivo ultimo14 a cambio de obtener una perspectiva mas real de lo que sucede con esta palabra. En efecto, se ve enseguida que Ultimo tiene una frecuencia normalizada destacable ya en el siglo xiv у muy importante en el siglo xv. Para terminar, es bien conocido el hecho de que las letras и у v tuvieron valores compartidos durante varios siglos, de modo que no seria extrano encontrar un cierto numero de casos del tipo ultimo, ultima, etc. La busqueda con estas grafias da resultados positivos: se dan hasta el siglo xvii у muestran una frecuencia normalizada importante en el siglo xiv y, sobre todo, en el siglo xv. Realizadas todas esas modificaciones у revisiones, los datos que realmente estan contenidos en el CdEhist son los que aparecen en la tabla 4-22.80

Lo que hemos observado con estos cuatro lemas (tres si consideramos que postremero у postrimero son dos variantes del mismo) nos permite ilustrar con un caso real algunos de los problemas que pueden surgir en la construccion de corpus y, posteriormente, en la recupe- radon у analisis de los datos. En primer lugar, сото hemos visto ya en varias ocasiones, un corpus no puede contenerlo todo у la seleccion de los textos que lo integran es el resultado de factores muy distintos que pueden conducir a casos сото la falta de documentacion de formas que, сото veremos a continuacion, poseen una frecuencia apreciable, alta incluso, en otros corpus. Es lo que sucede con las formas asociadas al lema postremero, que no aparecen ni una sola vez en el CdEhist. En segundo lugar estan los problemas relacionados con el modo en que se lleva a cabo la lematizacion. Las formas postrimero у asociadas no han sido atribuidas a ningiin lema, con lo que se da la circunstancia, curiosa, de que estan en los textos, aparecen en las busquedas que se hacen utilizando las formas, pero no figuran en ninguna relacion de lemas contenidos en el CdEhist. Problemas con el modo de llevar a cabo la lematizacion у la influencia de las grafias son los que pesan sobre la falta de reconocimiento de las formas del tipo ultimo у ultimo. Las primeras han sido consideradas sistematicamente сото casos del verbo ultimar у las segundas no tienen lema asignado. Las diferencias en las grafias, tan fuertes en los textos de epocas anteriores, complican considerablemente la adscripcion de formas a lemas, de modo que la resolucion de los casos de homografi'a es bastante mas complicada que cuando se trabaja con textos que presentan una ortografia normalizada.

La resolucion de estos problemas, e incluso de solo una parte de ellos, requiere una notable cantidad de trabajo, pero puede hacerse, сото muestra el analisis de estos mismos casos en el CDH. Escribiendo ultimo en la ventana de Lema у seleccionando la opcion Estadistica se obtiene la frecuencia absoluta (158 553 casos) у la normalizada (378,97 apariciones por millon). En estas busquedas generates, la aplicacion de consulta proporciona, сото en el COR- PES, la distribucion por zona у pai's. A ellas se anade la que corresponde a los grandes perfodos

Tabla 4.23 Frecuencias normalizadas de los cuatro lemas

1064-1500

1501-1700

1701-1800

1801-1900

1901-2005

tiltimo

16,77

113,06

298,7

467,03

568,43

postrero

11,29

61,88

9,3

20,26

5,63

postremero

16,36

-

-

-

-

postrimero

63,87

5,37

2,89

1,65

0,22

Fuente: CDH. Elaboracidn propia

  • 1000-
  • 1200

1 готово

  • 1251-
  • 1300
  • 1301-
  • 1350
  • 1351-
  • 1400
  • 1401-
  • 1450
  • 1451-
  • 1500
  • 1501-
  • 1550
  • 1551-
  • 1600
  • 1601-
  • 1650
  • 1651-
  • 1700
  • 1701-
  • 1750
  • 1751-
  • 1800
  • 1801-
  • 1850
  • 1851-
  • 1900
  • 1901-
  • 1950
  • 1951-
  • 1974

postrero

0

0,6

0,4

0,3

1,2

10,3

26,9

77,5

83,8

61,5

35,8

5,6

15,6

38,6

18,8

17,1

7,4

postremero

11,7

42,4

61,2

13,2

12,5

16,5

2,7

0

0

0

0

0

0

0

0

0,1

0

postrimero

1

39,4

41,7

38,8

37,3

125,8

76,9

12,7

6,6

2,8

2

4,2

2,7

3,3

1,3

0,6

0,6

ultimo

16

7

1,8

1,9

18,2

25,7

28,9

78,2

101,4

177,4

216,8

309,3

392,2

517,5

577,8

525

549

Fuente: CDH. Elaboration propia

Frecuencias normalizadas de los cuatro lemas en tramos de cincuenta anos Fuente

Figura 4.8 Frecuencias normalizadas de los cuatro lemas en tramos de cincuenta anos Fuente: CORDE. Elaboracidn propia en que, para la redaccion del NDHE, se ha estructurado la historia del espanol. Yendo al analisis de los ejemplos (lo cnal es posible desde la pantalla que contiene las estadfsticas de los resultados), es facil comprobar que esta lematizacion si agrupa los casos del tipo ultimo, ultimo у vltimo. El resultado de las cuatro busquedas es el que aparece en la tabla 4.23.

La otra opcion posible es la que es forzoso seguir con corpus que no han sido anotados ni lematizados, сото es el caso del CORDE. Naturalmente, es preciso enumerar las formas que pertenecen (o pueden pertenecer) a cada uno de los cuatro lemas en los que estamos intere- sados. Dado que tanto la compartimentacion en siglos que se hace en el CdEhist сото la estructuracion en grandes periodos (coincidentes con siglos en varios casos) que se utiliza en el CDH resultan excesivamente generales, podemos fragmentar las busquedas en periodos de cincuenta anos, utilizando para ello las ventanas de Cronologico.81 El resultado es el que aparece en la tabla 4-24-82

Como se puede apreciar, la historia es bastante compleja, pero las lfneas fundamentals de la evolucion quedan ahora perfectamente claras. Postremero comienza a decaer ya en el siglo xiv, pero postrimero tiene uso importante hasta finales del siglo xv у se documenta en todos los periodos analizados, aunque sin duda сото elemento exclusivo de la lengua literaria a partir de un cierto momenta.83 Postrero llega con fuerza hasta finales del siglo xvn у luego se mantiene, aunque probablemente sea por el uso de la palabra culta en textos literarios. Finalmente, Ultimo se generalize en la primera mitad del siglo xvi у es la mas utilizada desde ese momento hasta la actualidad. La figura 4-8 muestra todo ello con mayor claridad.

Igualmente ilustrativo de lo que un corpus puede ayudar para trazar las grandes lfneas de la frecuencia у vitalidad de una palabra resulta el caso de maguer, conjuncion predominate en las concesivas durante las primeras etapas de la lengua у totalmente desaparecida en epocas posteriores.84 Las formas en las que se presenta mayoritariamente este elemento son maguer у maguera, pero el analisis de la bibliograffa sobre la evolucion de las concesivas у las marcas utilizadas muestra algunas otras posibilidades: magar, magara, mager, magera, magher, maghera e incluso maguer у maguera, que tanto exito tuvieron entre algunos escritores del siglo xix especialmente aficionados a recuperar (no siempre con el mejor criterio) formas propias de la lengua medieval.85 Recuperando los datos de todas estas formas en el CORDE у fragmentando de nuevo las busquedas en periodos de cincuenta anos obtenemos el panorama que se deduce de la tabla 4-25. Dejando a un lado las demas conjunciones о locuciones conjuntivas utilizadas a lo largo del tiempo, la relacion entre maguer у aunque se nos presenta con toda claridad: la primera es mayoritaria hasta finales del siglo xiv, se utiliza ampliamente en el siglo xv, pero es superada ya por aunque у desaparece practicamente por complete a partir de ese momento.

Aunque en una esfera distinta de la realidad, trabajar con la variabilidad diacronica en un corpus textual presenta problemas semejantes a los que hemos mencionado en el apartado anterior al hablar de la variabilidad diatopica. En efecto, en primer lugar se requiere que el diseno del corpus haya previsto la inclusion de la fecha сото uno de los metadatas que deben figurar en la cabecera. Este es, por supuesto, el factor imprescindible, pero es muy importante prever la forma en que esa informacion va a poder ser manejada en la aplicacion de consulta. En efecto, lo misrno que hemos visto en el caso de la informacion sobre la variacion geogra- fica, a la simple indicacion del ano (o el siglo, о la epoca) que corresponde a un texto, podemos anadir la posibilidad de que la recuperacion de la informacion maneje ese rasgo para hacer recuperacion selectiva de los textos que pertenecen a un determinado perfodo. Como es de prever, no todos los corpus atribuyen la misrna importancia a esta posibilidad, que, sin embargo, resulta del mas alto interes para la investigacion cientffica. Como ya se ha mencionado en varias ocasiones, el CdEhist indica siempre el siglo al que corresponde el

  • 1000-
  • 1200
  • 1201-
  • 1250
  • 1251-
  • 1300
  • 1301-
  • 1350
  • 1351-
  • 1400
  • 1401-
  • 1450
  • 1451-
  • 1500
  • 1501-
  • 1550
  • 1551-
  • 1600
  • 1601-
  • 1650
  • 1651-
  • 1700
  • 1701-
  • 1750
  • 1751-
  • 1800
  • 1801-
  • 1850
  • 1851-
  • 1900
  • 1901-
  • 1950
  • 1951-
  • 1974

maguer

111

453.2

337.1

187.3

112.7

182

119.8

4.5

1.3

2.5

0.2

0.9

0.8

1.7

0.9

0.5

0.6

aunque

1.1

19.4

25.1

34.4

57.6

393.1

248.9

943.2

1164.5

1393.8

1393

1308

1058.3

879.5

692.8

549.6

686.3

Fuente: CORDE. Elaboracion propia texto en las lfneas de concordancias, pero la recuperacion de la fecha exacta exige ir a una pantalla distinta, en la que hay que trabajar ejemplo a ejemplo. Por otro lado, la informacion del ano no figura siempre. En el caso del CORD1AM, las lfneas de concordancias indican el siglo, у el ano concreto aparece entre los datos asociados a cada texto. En el CODEA, las fechas aparecen en la relacion de documentos que contienen una determinada expresion у puede localizarse tambien cuando se recuperan los datos de cada texto. Ninguno de estos tres corpus permite hacer biisquedas condicionadas por tramos temporales ni reordenar los resub tados obtenidos inicialmente en funcion de la fecha atribuida a un texto. El CdEhist agrupa los datos por siglos, сото hemos visto, pero no permite lograr agrupaciones que no resulten tan rfgidas у escasamente adecuadas a la realidad de la evolucion lingufstica. El CORDE, en cambio, da directamente el ano de cada texto, permite hacer biisquedas organizadas en fun- cion de este rasgo у hace posible reorganizar los ejemplos obtenidos en funcion del ano que se le haya atribuido.

Trabajar con textos que pertenecen a epocas distintas de una lengua significa que hay que enfrentarse con todos los aspectos (graficos, fonicos, gramaticales, lexicos) vinculados a la evolucion lingufstica у las diferentes formas en que pueden ser integrados en un recurso de este tipo. Tal сото hemos visto en el apartado 3.1.2, los corpus pequenos, especializados, del estilo del CORD1AM, el CODEA о el proyecto de la Biblia Medieval, tienen posibilidad de adoptar un sistema linico de edicion y, ademas, combinar la presentacion de ediciones crfticas con ediciones paleograficas e incluso imagenes de los manuscritos originales, ademas de dedicar la atencion necesaria al esclarecimiento de los problemas que pueda presentar la fecha del texto, su autorfa, etc. Tales refinamientos son, por desgracia, imposibles de alcanzar en un corpus de tamano medio о en un corpus de referencia, del estilo del CdEhist о el CORDE, que tienen que recurrir a materiales que han sido editados previamente у a la informacion asociada a esas ediciones, con lo que es frecuente encontrar textos transcritos de forma paleografica al lado de textos antiguos en los que se ha modernizado la graffa, con todas las posibilidades intermedias imaginables. Por otro lado, los problemas de datacion de un texto, que en ocasiones han dado lugar a largas у complejas polemicas entre los especia- listas, tienen que reflejarse en la indicacion de una fecha determinada, que es la que organiza luego la devolucion de los resultados y, consiguientemente, su estadfstica, con lo que se hace evidente que un cambio en la atribucion de una fecha puede dar lugar a modificaciones importantes en la imagen de un cierto fenomeno que produce el corpus. Es una medida aconsejable diferenciar entre la fecha supuesta de redaccion de un texto у la fecha atribuible al documento en que se nos ha conservado, pero esa distincion no soluciona todos los problemas, puesto que tambien hay que suponer en los copistas la intencion de mantener los rasgos del documento usado сото fuente, incluyendo aquellos que no responden ya a la lengua del propio copista, y, por otro lado, la fecha del testimonio es, en ocasiones, tanto dudosa о mas que la fecha de composicion del texto.86

Es muy conocida la frase de William Labov segiin la cual hacer lingufstica historica con- siste en hacer el mejor uso posible de datos deficientes.8' Precisamente por esas dificultades, trabajar en este terreno con corpus de referencia exige poner especial cuidado en la perspec- tiva filologica, que nos obliga a revisar cuidadosamente todos los datos asociados a los textos que manejamos.

Las practices metodologicas generates hacen que, en nuestra consideracion habitual, los parametros de variabilidad esten claramente separados unos de otros y, en consecuencia, analicemos lo que sucede en el eje diatopico, о bien lo que se puede observar en el diacronico, etc. Sin embargo, es evidente que todos esos factores estan entrecruzados y, por tanto, en algunas ocasiones la unica perspectiva valida pasa por tener en cuenta varios de ellos simul- taneamente. Es relativamente sencillo contemplar interacciones de este tipo en, por ejemplo, algunos de los que solemos considerar arcafsmos, que pueden serlo en una cierta variedad, pero no en otra(s). Es el caso de, por ejemplo, el adverbio agora, que el DLE marca actual' mente сото desusado, el DAm senala сото rural en algunos pafses у que ya el DAut remitfa a ahora, у del que decfa que “aunque muchos escriben aora у agora, es mas proprio ahora, que es сото decir a esta hora” (DAut, s.v. ahora). En efecto, el CdEhist muestra que es casi la unica forma utilizada hasta finales del siglo xv, se mantiene en equilibrio con ahora, en el siglo xvi у el siglo xvii у va reduciendose a partir del siglo xviii, mientras que ahora sigue el proceso contrario, сото muestra la tabla 4-26:

Tabla 4.26 Frecuencias normalizadas de адога у ahora segOn el CdEhist. Elaboracidn propia

XIII

XIV

XV

XVI

XVII

XVIII

XIX

XX

адога

632,84

866,43

553,58

386,34

407,18

36,47

13,47

1,10

ahora

0,60

0,37

7,96

369,61

402,57

497,83

669,11

785,29

Tanto el CREA сото el CORPES muestran que agora ha desaparecido casi por completo, puesto que la inmensa mayorfa de los casos que se pueden localizar en estos corpus proceden de fragmentos que reproducen textos antiguos о bien estan escritos en otras lenguas.

En un caso сото este, el analisis de textos que proceden de ambitos rurales nos da una idea diferente de lo que esta sucediendo у tambien, сото veremos a continuacion, de la necesidad de analizar cuidadosamente los datos obtenidos, sin quedarnos tinicamente con la vision puramente cuantitativa. Segun los datos que se pueden encontrar en el Corpus Oral у Sonoro del Espanol Rural (COSER), se documentan setenta у seis casos en la version consultable en marzo de 2020. La distribucion por provincias muestra que, a pesar de la importancia del numero, se trata de una forma muy minoritaria: uno en Avila, Cantabria у Leon, tres en Albacete, seis en Zaragoza у sesenta у cuatro en Teruel. La impresion de mar- ginalidad se refuerza si observamos que, de los sesenta у cuatro casos de Teruel, sesenta у tres proceden del mismo lugar (Fuentes Claras) у la misma informante, una mujer que tenia setenta у cinco anos en el momento de la grabacion. El grado de detalle con que podamos considerar los datos (la granularidad), que es algo que depende de lo que ponga a nuestra disposicion el equipo constructor del corpus, puede cambiar por completo nuestra impresion de lo que esta sucediendo.

 
<<   CONTENTS   >>

Related topics