Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Frecuencia de uso de los modos y tiempos verbales

Como se ha indicado en los parrafos precedentes, los diccionarios de frecuencia estan clara- mente enfocados a los aspectos lexicos, de modo que no es esperable encontrar datos sobre frecnencia de elementos gramaticales mas alia de los referidos a la clase de palabras, que es, por otro lado, un factor importante en la determinacion del lema. Sin embargo, un rasgo caracterfstico del FDSW consiste en la indicacion de la frecuencia de todas у cada una de las formas adscritas a cada lema, con indicacion incluso de cual es la correspondiente en casos de homograffas сото, por ejemplo, la primera у tercera personas de los preteritos imperfec- tos tanto de indicativo сото de subjuntivo. Por ejemplo, la entrada correspondiente al lema calificar tiene el aspecto (parcial) (no incluyo mas que las formas у la frecuencia general) que se muestra en la tabla 5.11.13

El procedimiento es de gran utilidad para el analisis de lo que sucede con unos cuantos elementos lexicos, pero, evidentemente, requiere una gran inversion en trabajo manual si se pretende averiguar la frecuencia general de las formas del tipo de califica, esto es, las formas de la tercera persona del singular del presente de indicativo de cualquier verbo. Obtener esos datos con comodidad requiere que cada forma haya sido asociada con la informacion relativa a que valor tiene en las distintas categorfas у subcategorfas gramaticales que le son de aplicacion.14

Esa informacion es precisamente la que se introduce en los corpus que han sido anotados у en los que, en consecuencia, figura la informacion morfosintactica correspondiente. Por ejemplo, tanto en el CdEweb сото en el CORPES о el CREA anotado es posible obtener la frecuencia normalizada (y la general, por supuesto) de las formas simples del indicativo. Los datos aparecen en la tabla 5.12.

El procedimiento requerido para obtener estos resultados es sencillo. En el CdEweb se selec- ciona la etiqueta correspondiente a cada forma en la ventana POS у la opcion Grafico en la

Tabla 5.11 Frecuencias generales de las formas del verbo calificar

calificar

17

califica

3

calificaba

1

calificaba9

1

calificaban

1

califican

1

calificar

7

-calificar

1

calificaron

2

Fuente: FDSW, s.v. calificar

Tabla 5.12 Frecuencias normalizadas de los tiempos del indicativo en dos corpus de referencia

CdEweb

CORPES 0.91

Presente

62 985,84

51 753

Copreterito

6776,68

14 391

Preterito

14 254,04

22 260

Futuro

4255,23

3565

Pospreterito

2028,54

2180

forma de devolucion de los resultados. En el CORPES, se deja en bianco (o se pone *) la ventana de Lema, se selecciona verbo en la Clase de palabras у luego el modo у el tiempo que corresponde a cada busqueda. La tabla 5.12 muestra que las frecuencias nonnalizadas pro- cedentes de estos dos corpus difieren en un grado superior al que serfa de esperar en conjuntos textuales de estas caracterfsticas. Sin duda, puede haber algunas diferencias procedentes de errores en el proceso de anotacion, pero el bloque fuerte de discrepancias tiene que ser debido a la naturaleza de los textos insertos en cada conjunto: el CdEweb contiene linicamente textos extrafdos de la red, con alrededor de un 50 % procedente de blogs, mientras que el CORPES esta formado por textos de clases muy diferentes (y los procedentes de la red son en la version 0.91 todavia una parte reducida de la prevista en la configuracion general).

El rnismo sistema descrito para la obtencion de estos datos la aplicacion del CORPES (y el CREA anotado) permite descender en la especificacion hasta llegar a niveles del estilo de la frecuencia general у normalizada de, por ejemplo, la segunda persona del singular del copreterito de indicativo (en textos de un cierto tipo publicados en un pat's en una epoca determinada). Por otro lado, la organizacion de la informacion vinculada a la anotacion permite tambien elevar el nivel у recuperar, por ejemplo, los datos de frecuencia correspon- dientes a los distintos modos en que suele organizarse el paradigma verbal.15 Los proporcio- nados por el CORPES figuran en la tabla 5.13.

La organizacion de los datos no utiliza el concepto de “formas no personales”, cuya fre- cuencia se puede obtener mediante agregacion. En este caso concreto, la forma aconsejable de estructurar los datos pasa por la consideracion diferenciada de infinitivo, gerundio у par- ticipio. La razon basica esta en el hecho de que la anotacion de la version 0.91 del CORPES reconoce las formas compuestas сото unidades, pero no hace lo mismo con las demas pen- frasis verbales. En consecuencia, hay que tener en cuenta que los casos de participio recogidos en la tabla no se deben linicamente a casos en los que el participio es la iinica forma verbal presente, sino tambien a aquellos en los que actua сото forma auxiliada de perffrasis verbales distintas de los tiempos compuestos. Lo mismo puede decirse de infinitivo у gerundio.

Los datos de la tabla 5.12 dan una idea del interes, no excesivamente alto, que puede tener el analisis de las frecuencias de los tiempos verbales. Evidentemente, el tipo de discurso condiciona muy fuertemente las formas verbales que se utilizan: una descripcion frente a la narracion de acontecimientos pasados, por ejemplo. Con los datos del CORPES, la forma de presente tiene una FN de 24 807 casos por millon en prensa, mientras que en textos de fie- cion se reduce a 14 230. Una situacion totalmente diferente se da cuando nos centramos en las frecuencias de formas que pueden alternar о que reflejan ciertas diferencias en los sistemas verbales correspondientes a diferentes variedades de la lengua.

Tabla 5.13 Frecuencias normalizadas de modos verbales en el CORPES

Modo/tiempo

FN

Indicativo

94 151

Subjuntivo

7585

Imperativo

678

Infinitivo

29 249

Gerundio

5411

Participio

12 349

Este es el caso de las formas que Andres Bello denomino “preterito” (cante) у “antepre- sente” (he cantado). Naturalmente, no es posible entrar aquf en el analisis de los valores de las formas que componen el paradigma verbal espanol ni de las diferencias existentes entre las diferentes variedades. Para el objetivo que se sigue aquf, es suficiente con indicar que, segun la vision temporalista defendida, entre otros, por Rojo (1974) у Rojo у Veiga (1999), en buena parte de las variedades del espanol de Espana, la forma cante expresa un aconte- cimiento anterior al origen (la semana pasada estuve en esa oficina) у perteneciente a un perfodo ya cerrado, mientras que la forma he cantado se refiere a un acontecimiento anterior al origen, pero que ha tenido lugar en una zona temporal que se puede considerar todavfa abierta (сото sucede con expresiones temporales del estilo de hoy, esta semana, este ano, etc.). En muchas otras variedades, esa oposicion no se da, se utiliza cante con estos dos valores у he cantado se reserva para otro tipo de significados, quiza mas vinculados a contenidos aspectu- ales. Por tanto, una forma rapida у comoda de obtener los primeros datos (por supuesto, necesitados de una fuerte depuracion ulterior) consiste en investigar los casos en los que el adverbio hoy va seguido a una distancia reducida de formas del preterito о bien del antepre- sente. La existencia de combinaciones del tipo ayer/hoy estuve en esa oficina es indicativa de un valor del preterito mas general que el que supone la alternancia ayer estuve en esa oficina/ hoy he estado en esa oficina.16 No es diffcil construir la busqueda de esas dos expresiones en un corpus que tenga un sistema de anotacion у una aplicacion de consulta del estilo de las existentes en el CORPES о el CREA anotado. Para la mas compleja, que es la relacionada con el antepresente, el camino comodo en la version anotada del CREA es el siguiente.1' En primer lugar, se escribe hoy en la ventana de Lema, se selecciona la opcion Proximidad у ahf se marca la combinacion haber en Lema, indicativo en Modo у presente en Tiempo у se indica un Intervalo de cinco posiciones a la derecha.18 Se activa luego la indicacion de otro elemento (el signo + situado en la parte inferior izquierda) y, en ese nuevo bloque, se marca verbo en clase de palabras у participio de pasado en tiempo, tambien en un intervalo de cinco elementos a la derecha. Esto es, estamos buscando casos en los que hoy vaya seguido de antepresentes (una forma del presente de indicativo del verbo haber seguida del participio de pasado) en un intervalo de cinco palabras a su derecha.19 Para el preterito, el procedimiento es el mismo, pero basta con pedir la aparicion de la forma de pasado en un intervalo de cinco posiciones a la derecha de hoy. Los resultados son los que aparecen en la tabla 5.14.

Tabla 5.14 Frecuencias normalizadas de hoy seguido de preterito о antepresente en algunos pafses

G335

hoy... сапГё

hoy... he cantado

% de hoy ... cantd

General

17,27

10,93

61,24

Argentina

22,51

5,00

81,82

Chile

43,04

11,54

78,86

Colombia

23,25

9,56

70,86

Cuba

13,35

7,14

65,15

Espana

8,94

13,23

40,32

Mexico

31,09

8,28

78,97

Uruguay

40,48

6,74

85,73

Sin poder entrar en los aspectos gramaticales de la cuestion, la tabla da una idea bastante clara de lo que sucede en el mundo hispanico en este punto. Las cifras correspondientes a Espana se diferencian con nitidez de las generates у tambien de las que corresponden a casi todos los demas paises. De todas formas, en este caso resulta de mas interes centrarse en сото se distribuyen esas dos posibilidades en el universo que configuran conjuntamente. La combinacion con el preterito supone un 40 % del total en Espana (a pesar de que el factor temporal que fundamenta la oposicion no es comun a todos los territories), pero supera el 80 % en Uruguay о Argentina у se situa muy cerca de ese porcentaje en Mexico у Chile.

En los ultimos anos ha recibido una atencion considerable un fenomeno que es, sin duda, uno de los mas llamativos e interesantes tanto en la evolucion del espanol сото en su situa- cion actual: la frecuencia de las formas en -se у en -ra, variantes del preterito de subjuntivo. La cuestion general es bien conocida. En el preterito de subjuntivo confluyen, desde hace ya bastante tiempo, dos formas que proceden de otras casillas del paradigma: las formas en -se provienen del antiguo pluscuamperfecto de subjuntivo latino у las formas en -ra se introdu- cen en esta casilla desde su situacion originaria, que es la que corresponde al pluscuamper- fecto de indicativo.20 Por tanto, este fenomeno presenta facetas del mayor interes en lo referente a su frecuencia general, en diferentes paises, distintos tipos de texto y, por supuesto, la evolucion a lo largo del tiempo (que veremos en el apartado 5.8.1). La presentacion general que se hace habitualmente en la actualidad se resume en la consideracion de que las formas en -ra son bastante mas frecuentes que las formas en -se у que este predominio se da en mayor medida en los paises americanos.

La forma adecuada de estudiar este fenomeno es, por supuesto, recurrir al analisis de lo que se puede encontrar en corpus textuales que, сото el CORPES, el CREA о el CdEweb, hayan sido anotados. La forma de hacerlo es sencilla. En el CdEweb, сото hemos visto ya previamente, se selecciona directamente la opcion correspondiente en la casilla POS (VsubRA о bien Vsubse) у luego la opcion Grafico, para que devuelva las frecuencias generates у normalizadas para todo el conjunto у tambien por paises. En el caso del CORPES, se deja en bianco la casilla de Lema, se selecciona verbo en Clase de palabras у luego, en la pantalla que se despliega, el modo subjuntivo у la variante del tiempo correspondiente a cada busqueda. Los resultados generales figuran en la tabla 5.15.

La comparacion de las frecuencias normalizadas de ambas formas en cada uno de los corpus permite una interpretacion muy clara de lo que esta ocurriendo: es evidente que las formas en -ra son las mayoritarias у lo son, ademas, con una diferencia considerable con respecto a la otra variante. Naturalmente, las frecuencias normalizadas incluidas en la tabla son las que corresponden a la totalidad de cada corpus. Indican, por ejemplo, las formas en -ra aparecen en el CORPES una media de 1996 veces por millon de formas, mientras que las formas en -se

Tabla 5.15 Frecuencias normalizadas de las formas en -ra у en -se en tres corpus de referencia

CREA escrito anotado

CORPES

CdEweb

FN

%

FN

%

FN

%

-ra

1696

81,26

1996

86,18

1392

84,67

-se

391

18,74

320

13,82

252

15,33

Totales

2087

100,00

2316

100,00

1644

100,00

se encuentran solo una media de trescientas veinte veces por millon de formas. Dado que, con independencia de los valores que tengan en cada caso, el conjunto formado por todos los usos de las formas en -ra у todos los usos de las formas en -se ocupan la totalidad de una cierta zona de significado, resulta adecuado e ilustrativo obtener los porcentajes que corresponden a las frecuencias normalizadas, que dan resultados mas facilmente interpretables. Las formas en -ra, сото muestra la tabla 5.15 oscilan entre el 81,26 % у el 86,18 % del total de los valores correspondientes a las dos formas (incluyendo, por supuesto los que mantienen su caracter indicativo originario). En el apartado 5.8.1 pondremos estas cifras en una perspectiva diacronica mas amplia, pero puede tenerse ya en cuenta que el CREA, que en la version considerada aquf comprende textos escritos publicados entre 1975 у 2000, es la que presenta el porcentaje mas alto de usos de -se. Sin embargo, dado que el CREA contiene un porcentaje de textos impresos en Espana superior al que se da en el CORPES о el CdEweb, es probable que la diferencia de esta cifra con respecto a las otras dos se deba, precisamente, a que las formas en -se tienen en Espana una frecuencia media superior a la que presentan en otros paises о bien a que la version anotada esta constituida unicamente por textos escritos.

La forma de intentar resolver el problema es, por supuesto, trabajar con los datos de uso de las dos formas, pero haciendo la extraccion de datos por parses, para poder analizar si hay diferencias que podamos considerar relevantes.

La tabla 5.16 muestra un panorama bastante claro de la situacion que esta posibilidad de alternancia presenta en la actualidad. En primer lugar, las frecuencias normalizadas de la totalidad del corpus no estan excesivamente alejadas de las que encontramos en el analisis por paises.21 En segundo termino, se confirma la consideracion habitual de que el fenomeno de sustitucion de las formas en -se por las formas en -ra se esta produciendo en todas partes, pero tiene menor peso о esta menos avanzada en Espana, donde la forma antiguamente

Tabla 5.16 Frecuencias normalizadas de las formas en -ra у -se, у porcentajes de las formas en -ra en varios paises

-ra

-se

% -ra

General

1996

320

86,18

Argentina

2209

334

86,87

Bolivia

1412

151

90,34

Chile

2022

219

90,23

Colombia

2081

99

95,46

Cuba

2313

254

90,11

Ecuador

1111

134

89,24

Espana

2053

552

78,81

Estados Unidos

1225

136

90,01

Guatemala

2314

164

93,38

Honduras

2145

251

89,52

Mexico

2185

135

94,18

Puerto Rico

2282

253

90,02

Uruguay

1913

191

90,92

Totales

27 261

3193

indicativa ocupa un 78,81 % del territorio comun. En los demas pai'ses que figuran en la tabla solo Argentina queda por debajo del 89 % para -ra. El extremo opuesto al de Espana lo ocupa Colombia, donde la sustitucion supera el 95 %.

Queda claro, pues, que la unica diferencia importante en los porcentajes es la que se da entre Espana у los demas paises hispanicos, en los que las cifras son muy semejantes. La cuestion siguiente consiste en tratar de averiguar si podria haber diferencias importantes en los porcentajes de uso de las dos variantes segun los tipos de texto. Hay acuerdo general en que las formas en -se son sentidas habitualmente сото mas cultas, mas elegantes, probable- mente сото consecuencia de su menor uso. Por tanto, es de esperar que su frecuencia sea mayor en textos correspondientes a ensayos у narrativa (en general, puesto que no se puede ignorar el peso que la lengua coloquial puede representar en, por ejemplo, las novelas) que en textos periodlsticos y, sobre todo, en textos orales. En Rojo (2008b) se presenta un intento de comprobacion de esta hipotesis con los textos del CREA. Dado que en aquel momento el CREA no estaba anotado, se analizaron ciertas formas (primera у tercera de singular, tercera de plural) de algunos verbos. Con el verbo tener, los resultados obtenidos dan que en los textos mexicanos las formas en -ra suponen el 75,64 % del total (es decir, usos en -ra mas usos de -se) en los libros, mientras que ascienden al 93,65 % en los textos orales. Es una diferencia de casi veinte puntos porcentuales, muy superior a la que, con estas mismas formas, se dan en textos espanoles: un 80,35 % en libros у un 86,18 % en textos orales) (cf. Rojo 2008b, 176-177). Utilizando el mismo procedimiento referido a la totalidad del CREA no anotado, los resultados son los que muestra la tabla 5.17, en el que se aprecia tambien la mayor frecuencia relativa de las formas en -ra en los textos orales.22

Aunque no ha recibido mucha atencion, la posibilidad de que el proceso de sustitucion de las formas en -se por las formas en -ra pueda estar parcialmente condicionado por las diferentes estructuras sintacticas en las que pueden entrar estas formas es muy razonable у merece ser estudiada (cf. Buji'a Touron 2017). Simplemente сото una muestra de lo que podnan aportar estas consideraciones у tambien сото una muestra mas de la forma en que es posible obtener informaciones muy refinadas de corpus que no tienen mas que anotacion morfosintactica, podemos contrastar los datos que proporciona el CORPES para dos estructuras diferentes. La primera de ellas es la que se da en clausulas que funcionan сото comple- mento directo de otras que llevan un verbo en pasado, de modo que actua el principio de la correlacion temporal (consecutio temporum) у el verbo de la clausula inserta se orienta tern- poralmente a partir del verbo de la clausula dominante. Es lo que sucede en secuencias que tipicamente llevan un verbo de lengua en la dominante (del tipo, Nos dijo que la apuntdramosl apuntasemos en la competicion) у similares. La segunda es la formada por los condicionantes de las construcciones condicionales irreales о potenciales de presente, del tipo, Si tuvieral tuviese tiempo me apuntan'a en la competicion.

Para las btisquedas de la primera estructura en la aplicacion del consulta del CORPES, podemos aplicar algunos de los procedimientos vistos con anterioridad. Si, para simplificar,

Tabla 5.17 Frecuencias totales у porcentajes de las formas tuviera(n) у tuviese(n) en el CREA

tuviera(n)

tuviese(n)

total

% de -ra

% de -se

Libros

4580

1073

5653

81,02

18,98

Periddicos у revistas

2213

389

2602

85,05

14,95

Orales

471

62

533

88,37

11,63

pensamos en construcciones con el verbo decir, debemos seleccionar este elemento en la ventana Lema, elegir verbo en la Clase de palabras y, en las ventanas que abren para las diversas categories gramaticales aplicadas a los verbos, marcar indicativo у pasado. Pub sando luego en la ventana Proximidad, se introduce que en la casilla de Lema (o Forma, que en este caso tiene los mismos efectos) у se selecciona Distancia 1 a la derecha. Se marca luego en la ventana + para abrir la ventana correspondiente a otro elemento у en ella se va seleccionando Verbo, Subjuntivo, Preterito en -ra, con la indicacion de dos posiciones a la derecha en Distancia. Con todo ello, se hace referenda al conjunto de todas las expresiones constituidas por una forma del verbo decir en preterito (dije, dijiste, dijo,. ..) seguidas inmediatamente de que у a continuacion de la forma en -ra de cualquier verbo. Es evidente que con este sistema de busqueda se escapan todas las secuencias de este tipo que llevan algiin elemento intermedio (сото el del ejemplo utilizado antes). Para tratar de recuperar tambien casos de este otro tipo, el procedimiento es el misrno, pero utilizando la opcion de Intervalo (en lugar de la de Distancia) у marcando, por ejemplo, cinco posiciones a la derecha. Con esta opcion se pueden recuperar casos del tipo dijo que la apuntdramos (el segundo verbo a tres elementos de distancia), dijo que no la apuntdramos (a cuatro) e incluso dijo ayer que no la apuntdramos.23 Para la segunda variante, se repite lo anterior cambiando la opcion de la forma en -ra por la forma en -se.

Para las busquedas de la segunda estructura, se parte de la seleccion de si сото forma о lema у se selecciona una forma en -ra (о en -se) a distancia 1 a la derecha (Si estuviera/pudiera, etc.) о bien usando un intervalo mas amplio, para incluir casos сото los del ejemplo mencionado.

Los datos que arroja el CORPES son los que aparecen en la tabla 5.18. Existe una diferencia de cierta importancia entre las dos estructuras, que permiten afirmar que, en general, la susti- tucion parece darse con mas frecuencia cuando esta implicada solo la correlacion temporal

Tabla 5.18 Porcentajes de las formas en -га у -se en ciertas estructuras sintecticas

Porcentajes de las formas en -ra en estructuras del tipo dijo que esperara/esperase

Porcentajes de las formas en -ra en estructuras del tipo si tuviera ...

General

92,40

84,57

Argentina

95,45

84,78

Bolivia

96,00

87,97

Chile

97,54

83,62

Colombia

98,74

94,82

Cuba

96,49

89,85

Ecuador

94,74

82,40

Espaha

79,25

80,69

Estados Unidos

91,18

83,73

Guatemala

96,34

86,10

Honduras

97,65

88,24

Mexico

99,41

93,10

Puerto Rico

95,88

85,05

Uruguay

98,90

86,37

que cuando tenemos una estructura condicional (irreal о potencial de presente/futuro). No sucede eso en Espana, lo cual es congruente con lo que hemos visto acerca de la frecuencia de estas dos formas en todos los contextos. En cambio, en Argentina se da una oscilacion entre el 95,45 % у el 84,78 %. No parece ser una casualidad y, ademas, la mayor frecuencia de las formas en ra en las estructuras con consecutio se da en todos los paises salvo Espana.

 
<<   CONTENTS   >>

Related topics