Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Lecturas complementarias recomendadas

Para lo relacionado con listas de frecuencias, analisis de la dispersion у temas conecta- dos sigue siendo util la presentacion que hacen Juilland у Chang-Rodriguez (1964). Una perspectiva muy completa у actual de estas listas puede encontrarse en Nation (2016). La importancia de la frecuencia de inventario у frecuencia de uso es analizada en Rojo (2011a, 2017). Szudarski (2018) muestra una perspectiva general interesante sobre las aplicaciones de la LC al analisis del lexico, aunque sin referencias al espanol. Puede verse Baker (2010a) para las aplicaciones en sociolingiifstica у Hunston (2002) para la lingiifstica aplicada en general.

Es muy util у perfectamente comprensible para personas sin formacion en estadfstica, la lectura del capitulo 3 de Brezina (2018) acerca de las pruebas estadfsticas aplicables a las coapariciones.

Cuestiones, problemas y temas de investigación

  • a) Compare los cincuenta primeros elementos de la lista de frecuencias de lemas del COR- PES con la que se encuentra en los diccionarios de frecuencias hechos sobre el corpus CUMBRE (Almela Perez et al. 2005) о los textos del siglo XX incluidos en el CdEhist (Davies 2006). Tenga en cuenta que, aunque el corpus CUMBRE consta de veinte millones de formas, los recuentos sobre lemas у sus categories se obtienen de un subcon- junto de 2 096 011 formas (cf. Almela Perez et al. 2005, 23).
  • b) Compare la frecuencia acumulada de los cincuenta lemas mas frecuentes en CORPES, CUMBRE у CdEhist. Es aconsejable familiarizarse con el rnanejo basico de una hoja de calculo para realizar trabajos de este tipo.
  • c) Compare la lista de los diez adjetivos mas frecuentes en CORPES, CUMBRE у CdEhist. Anada los procedentes de ESLORA у trate de ver si se puede hablar de diferencias entre los corpus generales у los basados en lengua hablada.
  • d) Consulte las entradas correspondientes a bife у boliche en el DLE у el DAm. Contrastelas con los resultados proporcionados por el CORPES.
  • e) Compare la informacion sobre la distribucion de piscina, pileta у alberca que figura en el proyecto Varilex (https://lecture.ecc.u-tokyo.ac.jp/~cueda/varileX'r/) con la que se puede encontrar en el CORPES о el CdEWeb. Tenga en cuenta la existencia de diferen- tes acepciones en esas palabras.
  • f) Obtenga la distribucion de mester, mestier у menester en CORDE у CdEhist para realizar una investigacion del estilo de la que se presenta en este capitulo con ultimo, postremero, etc.
  • g) Obtenga la evolucion en el uso de albeitar en el CORDE.
  • h) Localice en CORDE у CdEhist las primeras documentaciones de electron, radiografia, neceser (en este ultimo caso, tenga en cuenta su etimologia). Si es necesario, consulte tambien el CREA.

i) Utilizando la opcion de Expresiones coincidentes (lemas) en Tipo de resultado,

identifique las palabras que se documentan en ESLORA con el prefijo super-. Investigue si el uso de estas palabras puede estar relacionado con factores sociales.

  • j) Analice la distribucion de о sea por edades у sexos en ESLORA.
  • k) Siguiendo la li'nea mostrada en el analisis de estar hasta las narices у similares, intente identificar las variantes que se dan en el mundo hispanico a expresiones del tipo me importa un rabano/pimiento, etc. usando el CORPES у el CdEweb. Tenga en cuenta que el CdEweb proporciona una lista de todas las variantes por separado, de modo que podra encontrar, en lfneas distintas у separadas segtin su frecuencia, me importa un pimiento, nos importaba un pimiento, le importo un pimiento, etc. En el CORPES sera necesario reordenar las concordancias tomando el sustantivo сото eje.

NOTAS

  • 1 En cambio, las dificultades van en sentido contrario en los diccionarios inversos, en los que la ordenacion se hace precisamente de derecha a izquierda.
  • 2 Suprimir la diferencia implica, por ejemplo, fundir Julio у julio. Mantenerla significa, en cambio, que las formas del nombre del mes que van en mayuscula por estar a comienzo de oracion о por la costumbre, relativamente extendida, de escribirlo as! siempre, estaran separados de los casos escritos con minCiscula у confundidos con el nombre de persona. Desde un angulo bastante difc- rente, cabe pensar incluso en la conveniencia de no diferenciar entre vocales con tilde у sin ella. Las normas ortograficas no han sido siempre las mismas ni todos los textos respetan las existentes en cada momento. El problema se plantea con mas gravedad cuando se trabaja con documentos de epocas anteriores. En este sentido, lo deseable es que las aplicaciones de consulta permitan seleccionar la opcion mas adecuada a las necesidades de cada investigacion.
  • 3 Precisamente con la intencion de mostrar esa relacion, la tabla 4.1 incluye tanto los porcentajes сото las frecuencias normalizadas, lo cual es informacion redundante. Las ventajas de trabajar con el niimero de casos por millon (o 100 000 palabras en corpus de menor tamano) en lugar de hacerlo con tantos por cien se hacen evidentes en cuanto las frecuencias bajan у los porcentajes consisten en un cero seguido de un cierto niimero de decimales. Una forma que aparece una vez en un corpus de trescientos millones de formas supone un 0,00333 %.
  • 4 Vilfredo Pareto [1848-1923]. En formulaciones mas radicales, ley del 90/10.
  • 5 George Kingsley Zipf [1902-1950].
  • 6 No es facil encontrar equivalentes claros para estos dos terminos en espanol. Referidos a elemen- tos lexicos, se habla normalmente de formas (tokens) у formas distintas (types), pero el concepto es mucho mas general у puede aplicarse tambien a elementos fonicos, construcciones sintacticas, etc. Por otro lado, la diferencia se relaciona tambien con la existente entre frecuencia en el texto (frecuencia de uso) у frecuencia de inventario, que analizaremos en el apartado 5.1.
  • 7 La TTR puede calcularse tambien сото un porcentaje (el de las formas distintas —types— sobre el total de formas del texto —tokens). En este caso, seria el 81,8 %. Como se ve, las dos posibili- dades son equivalentes: una oscila entre сего у uno у la otra lo hace entre сего у cien.
  • 8 Para el analisis de los problemas que plantea este tipo de indices у las diferentes formulas que se han usado para calcularlos, cf. Torruella у Capsada (2013) у Capsada у Torruella (2017). En McEnery у Hardie (2012, 50 у sigs.) у Szudarski (2018, cap. 2) у pueden encontrarse exposiciones claras sobre las caracterfsticas de la TTR у sus inconvenientes.
  • 9 Los cuatro primeros textos proceden de los incluidos en el Archivo de Textos HIspanicos de la Universidade de Santiago (ARTHUS) у han sido objeto de analisis sintactico completo en la Base de Datos Sintacticos (BDS). Las dos partes del Quijote vienen del texto incluido en el Gutenberg Project. He elegido esta version por su disponibilidad, razon por la que sera utilizada en el capitulo 7 para diferentes recuentos у operaciones. Los calculos de la tabla han sido re a- lizados con reduccion de mayusculas у miniisculas у aceptando tambien las secuencias numericas. Para la forma de hacer los calculos, vid. infra у tambien el capitulo 7.
  • 10 Los datos reflejados aquf proceden de una version intermedia del CORPES, la interna existente en noviembre de 2016. Eso explica las escasas variaciones que se dan en los anos mas recientes. A pesar de la contundencia de las cifras, el numero de formas distintas no deja de aumentar, сото se muestra en Rojo (2008a, 2017).
  • 11 Una lfnea consiste en dividir las formas distintas (V) no entre el total de las formas (N), sino entre la rafz cuadrada de N. Aqui se encuentran la root type-token ratio (V/VN) о bien la corrected type-token ratio (N/V2N). Para detalles у valoraciones de estas у otras muchas posibilidades, cf. Torruella у Capsada (2013), Capsada у Torruella (2017).
  • 12 Vid. en el capftulo 7 el modo de hacer estas operaciones con alguna de las aplicaciones existentes para trabajo con corpus, у tambien mediante ordenes у utilidades de los sistemas operativos.
  • 13 WordSmith trabaja con segmentos de mil formas. Esta posibilidad de segmentacion no se da en AntConc.
  • 14 Ya Woods (2001) se sorprendio de que algunos textos del Siglo de Oro no presentasen la misma ordenacion de frecuencias de formas que las que se podfan observer en el Corpus of Contemporary Spanish (CCS) construido por aquellos anos en el King’s College de Londres. En concreto, le 11a- maba la atencion que la preposicion de no fuese la forma mas frecuente en todos los textos. Como se deduce de lo que estamos analizando, el fenomeno es mucho mas general у las diferencias se presentan incluso en conjuntos de tamano considerable, сото en el CREA у el CORPES, en los que se esperarfa una coincidencia total en las primeras posiciones.
  • 15 La frecuencia se refiere a la que la forma tiene en la primera parte. La tercera columna da el signo del contraste: el signo + se refiere a que esa forma aparece en la primera parte un numero signifi- cativamente mas alto de veces que en la segunda. Las dos columnas siguientes miden el peso de la diferencia у la ultima da la forma ortografica.
  • 16 Vid. infra, el apartado 4 4 para la forma de hacer una consulta de este tipo en el CORDE. Es importante tener en cuenta la concentracion de las formas mencionadas en el mismo soneto, que da una idea clara del modo en que Cervantes empleaba esa forma. Hay incluso un caso de vueso: en tal desman vueso conorte sea.
  • 17 Lo cierto es que una pregunta formulada de ese modo no tiene respuesta. Para responderla neccsi- tanamos saber, por una parte, que es lo que se entiende por “palabra”, que es lo que se discute en el texto. De otra, сото hay que entender la referencia a la lengua en cuestion. Podn'a referirse a una variedad determinada о a todas las variedades que la forman, en un momento determinado о a lo largo de toda su historia, etc.
  • 18 Esto es, el numero de lemas contenidos en un diccionario. Vid. infra para alguna matizacion sobre este punto.
  • 19 Cf. DLE 23: xi. Esas entradas (o articulos) contienen un total de 195 439 acepciones (ibidem). La relacion entre lemas (elementos lexicos con rasgos gramaticales) у entradas (elementos tipogra- ficos) varia segun las diferentes tradiciones lexicograficas. Cf. infra.
  • 20 En el FDSW usaron ya computadoras para hacer las estadfsticas. La obra da la frecuencia у distri- bucion de los lemas у tambien de cada una de sus formas asociadas. Eso hace posible obtener la estadfstica de los elementos gramaticales (sustantivos, femeninos, indicativo, futuro, etc.), pero a base de un laborioso recorrido manual por toda la obra, сото el realizado por Corbella (1987) para las subcategorfas verbales.
  • 21 La excepcion mas notable es, sin duda, la primera edicion del DUE de Marfa Moliner. En las ediciones posteriores, los responsables de la obra han eliminado esta caracterfstica у han optado por la mas general en la tradicion hispanica. Tambien figuran todas las acepciones en una unica entrada en el diccionario CLAVE (1997).
  • 22 Para mas detalles sobre todas estas cuestiones, cf. Rojo (2017).
  • 23 Para facilitar la comparacion de estos datos con los procedentes de otros corpus, he hecho algunas reagrupaciones con respecto a lo que figura en la lista de frecuencias de lemas publicada.
  • 24 En este caso, la entidad de las cifras permite у aconseja utilizer tantos por cien en lugar de tan- tos por millon. Se trata siempre de presenter los datos de la forma mas clara у util posible para quienes los van a utilizar.
  • 25 Las dos mencionadas son la forma de indicar a esta aplicacion que busque los casos asociados al lema llegar, no solo a la forma de infinitivo.
  • 26 Las referencias a botones у pestanas de las aplicaciones se hacen en letra Helvetica. El texto que hay que escribir en la ventana aparece en Courier.
  • 27 Se trata de un formato de texto con columnas de datos separadas por tabuladores (tab separated values), designado tambien сото csv (comma separated values). Lo que identifica estos formatos es que constan de secuencias de caracteres separadas por tabuladores (o comas), de modo que son directamente integrables en hojas de calculo о bases de datos: las ltneas у las columnas se con- vierten, tras la integracion, en registros у campos de una base de datos о filas у columnas de una hoja de calculo. En los ficheros con los que se trabaja habitualmente en LC es mas aconsejable usar los tabuladores сото separadores, puesto que las secuencias de datos pueden contener comas, comillas у algunos otros caracteres que en otros formatos pueden aparecer сото separadores.
  • 28 El caracter diferencial de esta parte de la aplicacion de ESLORA radica en que, ademas de los datos generales, proporciona la distribucion con frecuencias generates у normalizadas para cada uno de los valores correspondientes a los diferentes parametros considerados en el corpus. Se puede conocer, pues, la frecuencia general у la normalizada de cada uno de los lemas segun el grupo de edad, el sexo, etc. Incorpora, pues, un autentico diccionario de frecuencias dinamico.
  • 29 Dado que lo que importa aqui es la idea del indice, no merece la репа entrar en detalles acerca de сото se pueden calcular estos indices. Los interesados pueden ver, por ejemplo, las explicaciones que figuran en Juilland у Chang'Rodrfguez (1964, xl у sigs.), Davies (2006, 6 у sigs.). En Biber, Reppen, Schnur у Ghanem (2006) puede verse una critica al indice D utilizado por Juilland у Chang'Rodrfguez. Para una revision detenida у actualizada de los diferentes modos de obtener estos indices, vid. Gries (en prensa).
  • 30 Es bien conocido, por ejemplo, el caso de mucosa, un termino muy raro en ingles, pero que tiene una frecuencia inesperadamente alta en el BNC (cf. Atkins у Rundell 2008, 69; Kilgarriff 2013, 79) debido a la inclusion en este corpus de un gran volumen de palabras procedentes de una revista de gastroenterologia. Aunque aqui me refiero especificamente a la distribucion de los lemas, es evidente que los indices de dispersion son de utilidad en el analisis de elementos de muchos otros tipos.
  • 31 En muchos trabajos realizados a mediados del siglo xx se emplean obras de teatro сото fuente de un registro mas proximo a la lengua oral y, por tanto, con la posibilidad de contrastar con novelas, prensa, etc. Esta claro que esa vision resulta discutible, pero hay que tener en cuenta las dificultades existentes para trabajar con transcripciones de textos orales, vigentes todavia en nuestros dias.
  • 32 Son bien conocidos los problemas de delimitacion existentes entre locuciones, paremias, frases hechas, idiomatismos, etc. Son cuestiones sin duda importantes, pero que no afectan a lo que debemos tratar aqui: los metodos de recuperacion у las cuestiones que se plantean en el analisis de estas unidades son indiferentes al caracter que haya que atribuirles en cada caso.
  • 33 Hay que senalar que la FN de esta expresion en textos de Estados Unidos en el CdEweb es de las mas altas (24,84), frente a lo que sucede en el CORPES. Es necesario tener en cuenta que el CdEweb esta formado solo por textos descargados de la red (paginas web, blogs, etc.), que la adscripcion de los textos a paises se hace en funcion del servidor en que se encuentran у tambien que los blogs puede tener textos escritos por personas procedentes de muy distintos paises.
  • 34 El DLE marca сото desusadas todas las acepciones registradas del adverbio ende, pero no lo hace en la locucion adverbial por ende. La considera, pues, de uso normal en todo el ambito hispanico, lo cual parece adecuado a la vista de los datos del CORPES.
  • 35 Uno de los problemas mas notables de la organizacion de los diccionarios en formato impreso radica en la informacion que hay que manejar para saber en que entrada se encuentran las expre- siones complejas сото las que estamos analizando. En la tradicion lexicografica hispanica, lo habitual es que aparezcan en la correspondiente al primer sustantivo, si no hay sustantivos en el primer adjetivo, en el primer verbo en caso de que no haya sustantivos ni adjetivos, etc.
  • 36 No se registra, por tanto, de vez en vez. De cuando en vez se atribuye a Honduras, Nicaragua, Republica Dominicana, Bolivia у Uruguay. De vez en cuanto a Honduras, El Salvador у Republica Dominicana.
  • 37 La interpretacion correcta de los datos contenidos en esta tabla exige tener en cuenta que los diccionarios considerados tienen objetivos distintos. El DAm, por ejemplo, excluye todos los elementos que tengan caracter general en el mundo hispanico, mientras que el DFDEA se centra en el espanol de Espana. Lo mas llamativo desde este punto de vista es la ausencia de este grupo de expresiones en el Diccionario panhispdnico Varilex.
  • 38 Al hacer la ultima revision de resultados, en mayo de 2020, Google parece aplicar un detector de errores que considera que “de vez en cuanto” debe ser “de vez en cuando”, aunque vaya entre comillas, que es la forma de pedir una busqueda exacta. El resultado que se refleja en la tabla 413 para esta expresion ha sido obtenido mediante la expresion “de vez en cuanto” -cuando.
  • 39 https://books.google.com/ngrams/. Permite seleccionar la expresion, la lengua у el mi'nimo de frecuencia de cada tramo temporal.
  • 40 A los corpus manejados habitualmente anado en este caso PRESEEA, que podrta resultar de interes por el caracter oral de los materiales que contiene у la abundancia de textos americanos, aunque los resultados muestran que no aportan novedades de interes. Las cifras figuran entre corchetes porque, frente a todas las demas, se trata de frecuencias generales (que hay que obtener haciendo los recuentos de forma totalmente manual) у no hay modo de saber el volumen de cada subcorpus, con lo que no es posible obtener las frecuencias normalizadas.
  • 41 En este tipo de busqueda, las opciones consisten en la posibilidad de seleccionar una distaiv cia concrete entre los elementos, que es la que se elige aqui, о bien un intcrvalo en el que se especiiica, por ejemplo, que la preposicion pueda aparecer en cualquiera de los cinco lugares siguientes a estar, para cubrir casos сото, por ejemplo, estoy ya hasta las narices, estoy de ti hasta las narices, etc.
  • 42 Como ya hemos visto, la forma de indicar que se desea trabajar no con una forma, sino con un lema es ponerlo entre corchetes, сото se hace aqui con [estar], о bien escribirlo en mayuscu- las. Seleccionar la ventana de Grafico produce directamente las frecuencias de esta expresion abstracta (con todas las formas de estar) en los diferentes paises. Si se selecciona la opcion Lista, se obtiene la frecuencia de cada una de las variantes de la expresion consultada (estoy hasta las narices, estamos hasta las narices, etc.), que no es lo que nos interesa en este caso.
  • 43 Debe tenerse en cuenta que en la recuperacion aparecen secuencias que, sin duda, responden al esquema que se ha utilizado, pero no son de la clase en la que estamos interesados: estuvo hasta la prima (de mi amiga), (el local) esta hasta la bandera о numerosos casos del tipo estuvo hasta el martes, por ejem- plo. Hace falta analizar individualmente los ejemplos recuperados para seleccionar los pertinentes.
  • 44 A pesar de lo que se indica en las definiciones, la presentacion del DLE utiliza zumo сото genus de jugo, de donde podri'a deducirse que un jugo es una clase de zumo (es decir, la conside- racion de jugo сото un hiponimo de ?umo), lo cual es contradictorio con lo que se indica en las definiciones.
  • 45 En los lemas sustantivos se integran tambien los diminutivos, aumentativos, etc.
  • 46 Esta parte de la aplicacion tiene otras opciones que analizaremos mas adelante. Por un lado la indicacion de si se trata de distancia о de intervalo, la indicacion del tamano de la ventana у la direccion (izquierda, derecha о ambas posiciones).
  • 47 No hay casos registrados en Estados Unidos, Guinea Ecuatorial ni Filipinas.
  • 48 Notese que la distancia se mide siempre desde el primer elemento. Con esta forma de inte- rrogacion, ademas de los casos del tipo + cualquier otra palabra + se cubren tambien posibilidades del tipo + .
  • 49 Algunos casos tambien en Estados Unidos у Venezuela.
  • 50 Es probable que existan diferencias derivadas del caracter de la profesion desempanada о la pre- paracion necesaria para ejercerla. MacGregor-Mendoza (2015, 327), que analiza algunas actinides lingihsticas de profesionistas (mujeres) que viven en Estados Unidos, senala que “one out of every nine immigrants from Mexico derives from its university-educated class of individuals, known as profesionistas”.
  • 51 La restriccion es superflua en el caso de investigativo, pero resulta mas coherente hacerlo de este modo. En cualquier caso, pueden hacerse las consultas tambien sin reducirlas a los casos en los que el sistema de anotacion ha considerado que se trata de un adjetivo.
  • 52 Es decir, se busca actividad investigadora о proceso itwestigador, de modo que el operador debe referirse a las dos posibilidades de combinacion. La opcion de pedir actividad о proceso у marcar luego investigador a distancia uno da resultados distintos e inservibles, puesto que combina, por ejemplo, los casos de actividad por un lado у de proceso investigador por el otro.
  • 53 Sin embargo, en la definicion de la segunda de ellas se dice “сапа delgada usada para sorber mate en America”.
  • 54 El DAm se construye sobre los elementos marcados del DLE, a los que anade unos ciento cin- cuenta diccionarios у vocabularios diferenciales y, posteriormente, la revision detallada por parte de todas las Academies de ASALE.
  • 55 Boda mexicana, de Sandra Sabanero.
  • 56 Bombillo no figura en el DEM. Su frecuencia normalizada en los textos mexicanos del CORPES es de 0,40, pero de a hi' hay que descontar los casos mencionados, asi que en realidad es bastante inferior. En cuanto a bombilla, su frecuencia normalizada es de 2,44; el DEM registra el significado relacionado con el consumo del mate у otra acepcion que no parece equivalente a foco, sino a un protector de llama о de un foco, pero bastantes de los ejemplos presentes en el COR- PES muestran el significado de “foco”. Por fin, foco tiene una frecuencia normalizada de 23,54. Aunque es necesario hacer ajustes en estas cifras para adaptarlas a las acepciones correspon- dientes, la diferencia es clara: se usan los tres terminos, pero con fuertes diferencias en cuanto a su frecuencia у generalidad.
  • 57 “Juanito le decia fruta bomba a la papaya, cuyo nombre mexicano le provocaba una sonrisa picara; fdsforos a los cerillos, gomas a las llantas, bombillos a los focos, medias a los calcetines у se comia las consonantes hasta la indigestion, sobre todo las eses” (Gonzalo Celorio: Tres lindas cubanas. Incluido en CORPES).
  • 58 Evidentemente, los corpus proporcionan los casos que interesan, que es una contribucion decisive para el analisis de los fenomenos.
  • 59 Hay que senalar que se trata de una tarea muy dificil de llevar a cabo, no solo por las dificultades intrfnsecas para reconocer la acepcion que corresponde en cada ejemplo, sino por las fuertes divergencies en la organizacion de las acepciones que presentan los distintos diccionarios.
  • 60 En Argentina, foco tiene una frecuencia normalizada de 28,24.
  • 61 El problema es realmente mas complejo. Los datos de Varilex que proceden directamente de las respuestas a los cuestionarios muestran en Venezuela un caso de bombilla frente a cuatro de bombillo, у en Colombia tres para bombilla у cinco para bombillo. Sin embargo, la revision de estos datos realizada a partir de 2015 “con la ayuda de investigadores de todos los paises hispanoha- blantes” (Ueda у Moreno 2016) elimina las respuestas correspondientes a bombilla у deja linica- mente los de bombillo. Parece que, en este caso al menos, las respuestas de los encuestados reflejan lo que sucede de modo mas proximo a la realidad que la impresion que los expertos tienen de lo que ocurre.
  • 62 Para la revision rapida de las circunstancias que pesan sobre estas investigaciones, vid., entre muchos otros, Schneider (2002), Conde Silvestre (2007, 42 у sigs.).
  • 63 En muchos casos, sin embargo, el movimiento se produce en direccion contraria: primero se da en la lengua escrita у de ahi pasa a la oral. Es, claro, el caso de la mayor parte de los cultismos, terminos tecnicos, etc.
  • 64 Notese que la expresion mencionada en el texto mezcla las formas ortograficas que deseamos recuperar (aldea, aldeas) con la expresion del operador booleano OR (aqui, en su equivalente espanol o), que el sistema de consulta interpreta precisamente сото un elemento no literal. Por tanto, lo que se esta pidiendo a la aplicacion de consulta es que devuelva todas aquellas section- cias en las que figure la forma aldea о bien la forma aldeas. La forma de recuperar los casos de la conjuncion о consiste en situarla entre comillas simples. Asi la expresion antes о despues nos devolvera todos aquellos ejemplos en los que figure uno de estos dos adverbios. En cambio, la expresion antes 'o' despues devuelve los casos de la secuencia antes о despues. Es importante tener en cuenta que la conjuncion debe ir entre comillas simples. La utilizacion de las comillas dobles da una respuesta aparentemente correcta inicialmente, pero luego produce un error. Lo mismo se aplica a los demas operadores booleanos: y, no en su formulacion en espanol (AND, NOT). El apartado 3.41 del texto de ayuda del CORDE propone la formula ‘si о no’ (que equiv- aldria a antes о despues' en el ejemplo que estamos utilizando), pero esa opcion no funciona bien. El modo de obtener los resultados deseados consiste en situar solo la conjuncion entre comillas simples: antes 'o' despues. Cf. cap. 7 para mas detalles sobre los operadores booleanos.
  • 65 El CORDE no proporciona, de entrada, la frecuencia normalizada, pero puede obtenerse con facilidad, aunque hay que dar dos pasos en lugar de uno: el segundo consiste en utilizar la opcion de consulta Nomina de autores у obras, cf. infra.
  • 66 Se trata de una deficiencia de la aplicacion de consulta, que no deberfa considerar estas zonas de los textos para la localizacion у devolucion de ejemplos de formas. Esa secuencia esta ade- cuadamente marcada, сото puede comprobarse si se recupera el texto con las marcas internas. Para ello, hay que seleccionar en la pantalla anterior la opcion Todas en la ventana Marcas. Al recuperar luego los ejemplos con el contexto ampliado puede verse que, en este caso, la secuencia en cuestion esta situada entre las marcas XML . . . , de modo que esta perfectamente claro que no pertenece al texto y, por tanto, no deberia aparecer en la recupe- racion. Es conveniente tener en cuenta este fallo de la aplicacion antes de considerar validos ejemplos у las de datacion que se les atribuye.
  • 67 Notese que el texto dice del aldea, con la forma del articulo femenino que sobrevive hasta hoy en casos сото el agua, el alma, etc.
  • 68 El CDH esta formado en buena parte por una seleccion de textos del CORDE a los que se han anadido otros que no habfan sido publicados en el momento en que se cerro el CORDE о pre- sentan interes especial para los objetivos del Diccionario historico. No estan en el CDH ni el Fuero de Aviles ni algunos otros textos que, tanto en latin сото en Castellano, cubren en el CORDE la segunda mitad del siglo xn.
  • 69 Con una formulacion que induce a error. Da indicaciones del estilo “12”, “13”, etc., pero no se trata de los siglos xn о хш, sino de los perfodos que corresponden a anos que comienzan por 12, 13, etc. Aunque este punto no tenga demasiada importancia, hay que tener en cuenta que el ano 1200 no pertenece al siglo хш.
  • 70 Tambien muestra unas columnas con los caracteres А, В у C que permiten que los usuarios cla- sifiquen los ejemplos en una de tres clases libremente establecidas segun sus necesidades.
  • 71 Dejando a un lado, por supuesto, formas derivadas сото cocodrilesco у semejantes. La bCisqueda de la secuencia crocod* devuelve tambien crocodilios у crocodilus, que son denominaciones tecnicas de cierto tipo de plantas.
  • 72 Aparece tambien crocodilio (en la traduccion del Dioscorides realizada por Andres de Laguna), pero se trata de una planta (с/, croco). Crocodilio (planta) tiene entrada en el DAut.
  • 73 Tambien estan ambas entradas en el DLE23. En este caso, crocodilo es caracterizado сото “poco usado” у remite a cocodrilo. En realidad, el cambio de opinion de la Academia con respecto a la prelacion de las dos formas se produjo ya en la edicion del Diccionario de 1780, que, сото es bien sabido, supone el arranque del diccionario usual.
  • 74 Curiosamente, el DAut contiene una subentrada para cocodrilo en la que no remite a crocodrilo: “Metaphoricamente se llama a qualquiera persona enganosa, infiel у falsa” (DAut, s.v.), acepcion que no aparece bajo crocodilo.
  • 75 Recuerdese lo indicado en los parrafos anteriores acerca del caracter de о сото operador booleano.
  • 76 Recuerdese que las documentaciones mas antiguas aparecen con otras formas, de modo que no figuran en la tabla.
  • 77 Naturalmente, la explicacion de la diferencia se fundamenta en la seleccion de autores, obras у citas que hacen los redactores del DAut. Trabajar sobre el contenido de las entradas del DAut constituye una posibilidad interesante para cierto tipo de investigaciones. Vid. lo que se dice en el apartado 3.1.2 acerca de los corpus de citas de diccionarios. Para la consulta del DAut, vid. http:// web.frl.es/DA.html.
  • 78 La quinta es la forma apocopada postrer. El modo de hacerlo consiste en dar las cinco formas separadas por la pleca que se utiliza para expresar la alternancia: postrer | postrero | postrera | postreros | postreras. Para este uso de la pleca, cf. los procedimientos analizados en el capitulo 7.
  • 79 Con los datos del CORPES, las frecuencias normalizadas de estos dos lemas en espanol actual son 9,23 (ultimar) у 768,58 (ultimo).
  • 80 Un analisis mas detenido у profundo deberia revisar los casos de homografia у eliminar del recuento los correspondientes al verbo ultimar.
  • 81 Como he indicado ya varias veces, el CORDE es totalmente abierto en este punto у permite, en consecuencia, trabajar con tramos de cualquier extension у situacion. En realidad, el tedioso trabajo descrito en ese parrafo se puede simplificar considerablemente utilizando la lista de formas у sus frecuencias normalizadas que figura entre los materiales complementarios del CORDE (http://corpus.rae.es/frecCORDE/Otros.html) si es valida la estructuracion en perfodos de cin- cuenta anos. En el capitulo 7 me referire a diferentes formas de extraer у trabajar el contenido de ficheros con informaciones de este tipo.
  • 82 Las frecuencias que muestra ultimo en los dos primeros tramos se deben fundamentalmente a su aparicion en textos escritos en latin. Un analisis mas detenido muestra que los primeros casos proce- dentes de textos en romance se sitiian a mediados del siglo xiii. De forma escasamente sorprendente, se encuentran en testamentos у aluden a las “ultimas voluntades”. El peso del latin es evidente.
  • 83 En el CORPES aparecen veinte casos de postrimero, pero hay que tener en cuenta que siete de ellos proceden de la misma obra (la novela hondurena El genesis en Santa Cariba, de Julio

Escoto). No encuentro documentacion en el COSER, lo cual refuerza la idea de que se trata de un elemento de caracter literario.

  • 84 Cf. Perez Saldanya у Salvador (2014) у la bibliografia alii mencionada.
  • 85 Vid. el comentario de Corominas у Pascual en el DCECH, s.v. maguer.
  • 86 Como ejemplo ilustrativo de los problemas que se plantean en este aspecto, puede verse Mon- taner (2011, 486 у sigs.) sobre el codice del Cantar de Mio Cid.
  • 87 “Historical linguistics can then be though of as the art of making the best use of bad data” (Labov
  • 1994, 11).
  • 88 Es bien conocida la afirmacion de Labov segun la cual sociolinguistica es un termino redundante, puesto que la lingufstica es forzosamente social. El tipo de investigacion realizado por el ya en los anos sesenta del siglo pasado

Ha sido a veces etiquetado сото “sociolinguistica”, pese a ser un termino equivoco у curio- samente redundante. El lenguaje es una forma de comportamiento social: cualquier texto introductorio puede proporcionar afirmaciones en este sentido. . . . ;En que sentido puede la “sociolinguistica” ser considerada сото algo aparte de la “lingiifstica”?

  • (Labov 1972a, 235)
  • 89 Es el conocido сото “principio de uniformidad”, el mismo que permitio configurer la geologia о la biologn'a modernas. Para la revision de sus antecedentes у los ajustes necesarios en su apli- cacion, cf. Bergs (2012).
  • 90 Cf. supra, apdo. 4.3.
  • 91 Ademas, los textos orales presentan problemas especiales en otros aspectos, сото, por ejemplo, la gestion de los permisos de las personas grabadas, la anonimizacion de referencias personales, etc.
  • 92 Solo en singular. Hay tambien dos casos de geniales.
  • 93 No tienen asignacion de sexo los dos ejemplos procedentes de Lima.
  • 94 De nuevo sin adscripcion los dos de Lima.
  • 95 Con la herramienta Freeling (cf. www.valesco.es/?q=node/12). Contiene la transcripcion de cuarenta у seis conversaciones cf. www.valesco.es/?q=node/13).
  • 96 No hay indicacion de frecuencia normalizada.
  • 97 Segun la ayuda de la aplicacion (www.valesco.es/?q=node/l2), en esta ventana es posible utilizar tambien las etiquetas anadidas por Freeling, con lo que podriamos buscar pronombres personales en esta posicion. De todas formas, dado que eso supone tener que recuperar una informacion diferente, lo haremos aqui limitandonos al pronombre de primera persona en singular. Asi pues, sirve para me encanta, me encantart'a, me encanto, etc.
  • 98 Evidentemente, se pierde un caso que no ha sido codificado con respecto a esta variable.
  • 99 Para mas informacion sobre corpus de este tipo, cf. Rojo (2016a). Casi ninguno de ellos es consul- table directamente, pero algunos han sido integrados en el CREA (cf. www.rae.es/publicaciones/ corpus-orales-incorporados-crea).
  • 100 Cf., por ejemplo, Lopez Alonso у Sere (2003).
  • 101 Con casi siempre el estandar establecido por el BNC: un 10 % del total.
  • 102 El texto mas antiguo que he podido localizar (en este caso gracias a Google Books) aparece en la Revista bimestre cubana, 4/5, 1910, p. 152:

Ahora bien , en ese lenguaje de Africa Occidental uno de los procedimientos para la for- macion de sustantivos es la reduplicacion del verbo ; у asi cheche resulta significar conquistador , delincuente , vencedor , ofensor , etc . , cuadrando perfectamente con la realidad del tipo social historico llamado curro del Manglar . La palabra chevere , cuyo significativo entre nuestro vulgo hampon equivale asimismo a curro , majo , guapo , valenton , presumido , per- donavidas , maton , debe. . .

  • 103 Que constituye la letra de una de las “Cinco canciones negras” de Xavier Montsalvatge.
  • 104 Para la difusion de la palabra en Venezuela son de gran utilidad los datos contenidos en el Die- ciotiario de venezolanismos. La mayor parte de los testimonies que recoge son de los anos sesenta у setenta del siglo pasado. El mas antiguo aparece en un texto humoristico de 1941 (con el sig- nificado “bonito, elegante, primoroso”). Es interesante senalar que, con este mismo significado, aparece en un texto de 1959, en el que se habla de “esa publicacion tan chevere (concesion al lexico de la juventud)” (Die. de venezolanismos, s.v. chevere, situada en el tomo III, entre las adiciones al tomo I). Oral у juvenil son, pues, las dos caracteristicas iniciales que tiene el uso de este vocablo en Venezuela en los primeros anos.
  • 105 Cf. supra, 1.2.6. Termino у concepto remiten a Firth [1890-1960], para quien son “actual words in habitual company” (Firth 1957, 14).
  • 106 La aplicacion de consulta del CREA admite la recuperacion de agrupaciones para mas de una forma. En este caso, por ejemplo, es posible obtener las que corresponden a las formas violeta у violetas.
  • 107 Notese que el automatismo del procedimiento hace que, con los textos incluidos en esta version del CORPES, los terminos que muestran mayor peso cstadistico en su coaparicion con violeta son Hemsy у Gainza. Esa distorsion se debe a los diez casos, contenidos en un mismo texto mexicano, en los que se hace referencia a Violeta Hemsy de Gainza. En los puestos mas altos de las coapariciones de violeta en el CdEweb aparecen jxirra у charrumo (por Violeta Parra у Violeta Chamorro).
  • 108 La aplicacion senala lo que aplica en cada caso mediante los numeros dos, tres, etc. en forma de submdice del criterio.
  • 109 La aplicacion de consulta del CORPES trabaja directamente con lemas. Por tanto, no deberfan figurar aqut palabras que pueden aparecer en el contexto del verbo sacar.
  • 110 Por ejemplo, con marcas сото “poco usado”, “desusado”, etc. о referencias a empleos tecnicos, referidos a ciertos paises, etc.
  • 111 Tambien figura Guinea Ecuatorial, pero parece claro que se trata de un efecto derivado del escaso volumen de palabras de ese pais que contiene el CORPES.
  • 112 Son solo tres casos, pero hay que tener en cuenta que tod a via son pocos los textos que han sido caracterizados tipologicamente en la version 0.91, pero eso no implica que el principio basico sea invalido.
  • 113 Por ejemplo, el Petit Robert (ed. de 2006) da сото primera acepcion “Priver de nerf, de toute energie” у la califica de envejecida о literaria. La segunda es “Proceder a la enervation de (un suplicie)”. Y la tercera, que documenta ya en 1897, es “Agacer, exciter, en provoquant de la пег- vosite”. Cf. Petit Robert (2006), s.v. enerver.
  • 114 Sin embargo, el mismo cambio se ha dado tambien en gallego у en Catalan. A este respecto, resulta muy ilustrativa de las actitudes normativistas hacia procesos de este tipo (y, por tanto, de la necesidad de estudiar los usos que muestran los textos) la nota que los traductores al espanol de la obra de Josep Pla El Quadem Gris (Gloria de Ros у Dionisio Ridruejo) anaden a la primera aparicion de este verbo en el texto original:

Pla usa aquf el verbo enervar con un significado opuesto al propio. Enervar quiere decir debili- tar, quitar las fuerzas, deprimir. Pla quiere decir excitar о poner nervioso. No le corrijo, pero el lector queda advertido. Y sirva la advertencia para lo sucesivo, pues el empleo erroneo de la palabra es sistematico en sus escritos.

(Nota de los traductores a la edicion espanola de El Quadem Gris, de Josep Pla: El cuademo gris.

Barcelona: Destino, 1966, p. 48.)

  • 115 La consulta al NTLLE muestra que esta palabra aparece por primera vez en el diccionario de Alemany (1917), entra en el DLE en 1925 у se mantiene en el hasta la 23.a edicion.
  • 116 Frente a lo que parece indicar el texto citado, el Diccionario de terminos medicos (DTM) diferencia entre enervacion (que remite a denervacion у es definido сото “reseccion”) e inervacion (“distribu- cion de los nervios en un cierto organo"). En el CORPES no hay casos de denervacion.

Capi'tulo 5

 
<<   CONTENTS   >>

Related topics