Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Cuestiones, problemas y temas de investigación

N.B. En este capitulo no se han dado indicaciones precisas acerca del modo de realizar las consultas a los diferentes corpus manejados. Dado que se trata de cuestiones muy generales у sencillas, en la mayor parte de los casos las aplicaciones muestran con claridad la forma en que se pueden llevar a cabo las consultas que aqui se mencionan. Si son necesarios detalles adicionales, pueden consultarse los apartados correspondientes de los capitulos 4 у 5.

  • a) Analice la distribucion por paises de los terminos profesional у profesionista en el COR- PES, у contraste los resultados con los que se pueden encontrar en el Corpus del Espanol (Web/Dialectos) (CdEweb).
  • b) Obtenga las frecuencias generales у normalizadas de canto (verbo) у canto (sustantivo) en el CORPES. En el segundo caso, analice los primeros cincuenta casos у calcule las frecuencias normalizadas de cada uno de los dos homonimos.
  • c) Recurra a su sentimiento lingiiistico para intentar situar en orden decreciente de fre- cuencia los sustantivos у verbos siguientes: amor, ciudad, descubrir, encontrar, entrar, jefe, jugar, momento, salud, volver. Compruebe su impresion con lo que se puede obtener de la consulta de un corpus de referencia.
  • d) Compruebe los datos que se ofrecen en el apartado 1.2.1 sobre la alternancia cinc/zinc, contrastelos con los que se pueden obtener en el CORPES para parejas similares (cigotol zigoto, cmgaro/zfngaro, cinialzinnia) e intente ver si se puede establecer una correlacion constante entre la preferencia por una de las grafias у la variacion geografica.

e) En una lista de frecuencias de lemas (del CORPES, por ejemplo):

i Localice los diez sustantivos, adjetivos, verbos у adverbios mas frecuentes.

ii Calcule su frecuencia normalizada conjunta у comparela con la que suman las diez preposiciones mas frecuentes.

  • f) Segun se puede obtener de la consulta del Nuevo tesoro lexicogrdfico de la lengua espanola (NTLLE), la palabra electricidad aparece por vez primera en la edicion del Diccionario de la Real Academia Espanola (DRAE) en 1803 у unos anos antes, en el diccionario de Terreros (publicado en 1787). Averigiie si hay testimonies anteriores de uso de esta palabra usando el CORDE у el CdEhist.
  • g) Segun el Diccionario de la lengua espanola (DLE), la palabra saga es un sustantivo que puede significar:

i f. Cada una de las leyendas poeticas contenidas en su mayor parte en las colecciones de primitivas tradiciones heroicas у mitologicas de la antigua Escandinavia.

ii f. Relato novelesco que abarca las vicisitudes de varias generaciones de una familia.

iii f. Estirpe familiar.

Parece claro que las dos ultimas acepciones proceden de la generalizacion de la primera, que es la originaria. Utilizando el CREA у el CORPES, busque los primeros ejemplos en los que se pueda ver con claridad el significado de la tercera acepcion.

h) El italiano spaghetti (plural de spaghetto) se ha adaptado al espanol сото espagueti, pero, al no ser considerado сото plural, ha dado lugar a la forma espaguetis. Rastree en algun corpus del espanol contemporaneo la aparicion de:

i La forma espagueto (singular, paralela a la forma italiana).

ii Las expresiones los/unos/algunos espagueti (plural incorporado directamente del italiano у sin adaptacion a la morfologia propia del espanol).

  • i) En el corpus ESLORA, obtenga la frecuencia de la expresion me encanta diferenciando entre hombres у mujeres у haciendo el cruce con los diferentes grupos de edad.
  • j) Localice las apariciones de la expresion www en los textos orales del CORPES у determine las diferentes formas de pronunciarla у la extension por paises de cada una de ellas.
  • k) Obtenga las frecuencias de militar сото adjetivo, sustantivo у verbo en el CORPES у el CdEweb. Contraste los resultados obtenidos a partir de las frecuencias normalizadas.

NOTAS

  • 1 Como se vera en el apartado 6.1.1, el sentido tradicional de corpus se refiere a un conjunto de materiales (no solo textos) de caracterfsticas similares, agrupados para facilitar la localizacion de los aspectos relevantes.
  • 2 Notese que esta caracterizacion excluye de la consideracion habitual de corpus a los construidos mediante la agregacion indiscriminada de materiales ya existentes en la red, сото mantenia Sinclair (2005a); cf. infra 3.1.2.
  • 3 En las referencias a corpus у otros recursos electronicos, utilizare la denominacion complete у la sigla о denominacion abreviada correspondiente a la primera vez que los mencione en el texto о en los casos en los que haya mucha distancia con las citas anteriores. En los pies de las tablas у los graficos usare directamente la denominacion abreviada. Para las denominaciones completes, las siglas у las direcciones electronicas, vid. el apendice con los recursos electronicos mencionados en el texto.
  • 4 En el reconocimiento de las fuentes de datos utilizare referencias completas о abreviadas (vid. nota anterior) segun resulte mas conveniente en cada caso. En los recursos electronicos, todos los datos han sido obtenidos о comprobados entre enero у mayo de 2020, de modo que no hare cons- tar en la tabla la fecha exacta de la consulta. En el caso de recursos que experimenten cambios, la indicacion de la version utilizada figura tambien en el apendice con los recursos electronicos utilizados.
  • 5 El calculo se hace, pues, tomando сото referenda el tamano (en millones de formas) del corpus. En este caso, se obtiene dividiendo la frecuencia general entre 152,5 millones de formas, que es el tamano aproximado de la parte escrita del CREA.
  • 6 En realidad, se trata de algo bastante mas complicado, puesto que hay que tener en cuenta el pro- blema que crean las formas que suponen diferentes tipos de derivacion: nifiita, ninaza, larguisimos, etc. Parece logico que las consideremos сото integrantes de los lemas nino у largo, respectiva- mente, con lo que se abre un espacio amplio para la integracion de formas.
  • 7 El lema es la “palabra lexicografica”, es decir, la que agrupa a todas las formas morfologicas pertenecientes a la misma unidad. Asi, dijo, dire, diciendo, decir, dicen, etc. son todas ellas formas pertenecientes al lema decir, son algunas de las formas que integran su paradigma.
  • 8 Los cinco sustantivos mas frecuentes son <япо, pais, tiempo, parte у vida, con frecuencias nor- malizadas situadas entre 2260 у 960 casos por millon. En los adjetivos, nuevo, bueno, grande, ultimo у mayor. En los adverbios, mas, cuando, tambien, ya у muy. La anotacion practicada en esta version del CORPES (la 0.91) mantiene la caracterizacion independiente de las contracciones. Si es necesario, resulta facil reconvertir las frecuencias у asignarlas a los elementos gramaticales correspondientes.
  • 9 Como el de Juilland у Chang-Rodriguez (1964), con datos ya envejecidos. Mas recientes son los de Almela Perez et al. (2005) у Davies (2006). С/. infra, 4.2.2. Algunos diccionarios de uso pro- porcionan, entre otras informaciones, una caracterizacion general de la mayor о menor frecuencia de una palabra (no de sus acepciones). Ninguno del espanol lo hace todavia.
  • 10 Este sera el tipo de letra utilizado en todo el libro para la indicacion de las pestanas о botones que hay que pulsar en cada caso en las aplicaciones de consulta mencionadas.
  • 11 Dado que el objetivo de este capitulo es presentar una vision general de los diferentes tipos de informacion que pueden extraerse de los corpus textuales, omito indicaciones sobre el modo de obtenerla. Aunque todas las que figuran aquf son sencillas y, por tanto, facilmente realizables en las aplicaciones de consulta correspondientes, los detalles acerca de los procedimientos estan en los capitulos 4 у 5.
  • 12 Para no sobrecargar las referencias, en las tablas posteriores la mencion a la fuente se hard send- llamente con la indicacion del recurso utilizado, cuyos datos completes figuran en el apendice sobre recursos electronicos, Sobre la fecha de las consultas о comprobaciones, cf. supra, nota 4.
  • 13 Tengase en cuenta que la equivalencia de estos dos terminos no es total. Por ejemplo, no se habla nunca de zumo de came ni de zumos gastricos. Esa restriccion sobre zumo explica una buena parte de los casos de jugo en el espanol de Espana.
  • 14 Hay bastantes casos de este tipo de alternancia. Vid. la relacion de las mas frecuentes en el apdo. 6.2.2.7.1.1 de la Ortografia, que prefiere la variante con c en todos los casos: acimo/azimo, acimut/ azimut, a'ngaro/zingaro, circonita/zirconita, etc.
  • 15 En todos estos recuentos no menciono cifras mas extremes que vienen de subcorpus con muy pocos casos у que, en consecuencia, pueden estar un tanto sesgados.
  • 16 Es decir, el lema debe incluir la indicacion correspondiente a la clase de palabras, de modo que regular corresponde a cuatro lemas diferentes. No se debe confundir esta perspective con la distri- bucion de las entradas de un diccionario, que depende de otros factores. En un caso сото este, los diccionarios pueden describir los usos en una, dos, tres о cuatro entradas diferentes. Lo habitual en la tradicion hispanica es situar en una entrada los usos sustantivos, adjetivos у adverbiales у en otra los verbales.
  • 17 Como se explica con detalle en el apartado 3.5, la anotacion automatica dene siempre un cierto riesgo de error. Por tanto, las frecuencias que figuran en la tabla deben ser interpretadas con cierta precaucion.
  • 18 A pesar de la complejidad de los calculos, la forma de conseguir estos datos es muy sencilla. En la ventana Clase de palabras, se selecciona Preposicion у se pulsa luego la opcion Estadisticas, que devuelve tanto la frecuencia general сото la normalizada. Vid. capitulos 4 у 5 para mas detalles sobre las caracteristicas de diversas aplicaciones de consulta. Es importante captar la importancia que tiene la posibilidad de hacer bCisquedas сото la que aqui se describe, que se basa en rasgos gramaticales abstractos, introducidos en el proceso de anotacion, у no en la simple forma ortogra- fica de las secuencias.
  • 19 Cf. supra, 1.1. Los calculos de la tabla estan hechos no sobre formas ortograficas, sino sobre ele- mentos lingOisticos. Para los datos sobre la composicion de esta version del CORPES, cf. http:// web.frl.es/CORPES/org/publico/pages/estad.view.
  • 20 Hay que tener en cuenta, para valorar debidamente este porcentaje, que en esta cifra estan comprendidos tambien los nombres propios. Cf. 5.2. у 7.4 para el analisis de algunas de sus implicaciones.
  • 21 Vid. mas detalles sobre estas palabras en el apartado 4-7.
  • 22 Con un unico ejemplo ilustrativo:

Si no lo hubiera, apunto, no tendria sentido toda la operacion que se da en torno de la droga, por lo tanto es parte responsable del comercio de los enervantes que se suscita en el continente americano (CORPES, noticia del 13/4/2001 en el periodico Excelsior).

La palabra no figura en el Diccionario de americanismos, lo cual implica que no se considera que tenga significados exclusivos de algtin pais americano. Vid. 4.7 para mas detalles.

  • 23 Informacion coincidente con la que figura en el CDH.
  • 24 Sin embargo, aluden a un “ej. suelto” en un texto de hacia 1440. Cf. DCECH, s.v. vegetal.
  • 25 En realidad, la aplicacion devuelve tambien casos del siglo xx, procedentes todos ellos de tratados de botanica que incorporan citas procedentes de textos antiguos. Cf. 3.4 para el problema de las citas insertas en textos que producen desajustes aparentes en las fechas.
  • 26 La expresion complete es (en Espana) A no revuelto, ganancia de Pescadores.
  • 27 Mas otros dos que estan integrados ya en el CORPES.
  • 28 Colocacion es un termino tecnico usado a imitacion del ingles collocation. Evidentemente, su ori- gen es el latin collocare у derivados. En ingles es un termino tecnico, pero su uso en espanol, donde existen los terminos generales colocar, colocacion, etc. no encaja bien con el significado habitual de estas palabras. En realidad, deberia ser conlocacion, que es el significado latino (“situar al lado de algo”). Parece preferible, por tanto, usar coaparicion, que se entiende bien tanto en la lengua general сото en la tecnica, у es, ademas, el que se emplea en la aplicacion de consulta del CORPES, el CREA anotado о el CDH.
  • 29 Son las siglas que corresponden a mutual information, uno de los estadisticos usados habitual' mente para fenomenos de este tipo. Su equivalente en espanol es informacion mutua (1M). Para mas detalles sobre este tipo de pruebas estadisticas, cf. infra 4.6.
  • 30 No es posible profundizar aqui en los factores que pueden explicar este desajuste aparente, pero si cabe indicar que la mayor о menor frecuencia de esta construccion depende, al menos en parte, del tipo de texto que se pide en cada caso a los estudiantes.
  • 31 Lo cual no significa que no pueda incorporar aplicaciones adicionales. Por ejemplo, anadir una capa nueva de anotacion о mejorar la aplicacion de consulta.
  • 32 Los corpus abiertos se ponen habitualmente en relacion con el corpus monitor disenado por Sinclair en los primeros anos de la LC. Cf. infra, 3.1.2.
 
<<   CONTENTS   >>

Related topics