Desktop version

Home arrow Language & Literature

  • Increase font
  • Decrease font


<<   CONTENTS   >>

Lecturas complementarias recomendadas

Sobre los antecedentes de la LC es util contrastar la vision mas habitual con la expuesta en Leon (2005) у Rojo (2015). Para las diferentes etapas de la LC, vid. Tognim-Bonelli (2010, 47 у sigs.). Para mas detalles sobre los antecedentes de la LC en espanol у los diversos tipos de corpus construidos para esta lengua puede verse Rojo (2016a).

Para obtener una idea de las ventajas у desventajas que presenta el uso de corpus son utiles Hunston (2002, cap. 1), Jones у Waller (2015, cap. 1), Szudarski (2018, cap. 1). Resulta muy ilustrativa la lectura de Lleal Galceran (2013) para comprender los problemas filologicos que surgen en el trabajo con textos de epocas anteriores.

Profundizar en las cuestiones relacionadas con la representatividad у el equilibrio en los corpus siguen necesitando de la lectura de Biber (1993). Vid. tambien McEnery, Xiao у Tono (2006, unidad A 2).

Para una revision general de los problemas planteados por la configuration estadlstica de los corpus, vid. Rojo (2017).

Cuestiones, problemas y temas de investigación

a) Localice en la biblioteca de su centra alguna publicacion (anterior a 1995) con las con- cordancias de alguna obra importante de la literatura о la cultura hispanica; contraste su organizacion у contenido con unas concordancias posteriores (por ejemplo, Garcia- Macho у Sassi 1998) у tambien con un indice (por ejemplo, Fernandez Mosquera у Azaiistre 1993).

  • b) Haga el recuento de los caracteres ortograficos (incluidos los signos de puntuacion) que aparecen en un texto breve (no mas de doscientas palabras). Compruebe si la distribu- cion hallada es conforme con las leyes de Zipf у Pareto.
  • c) Analice la informacion que figura en dos corpus generates sobre la distribucion de los textos contenidos en ellos, у valore su adecuacion a los objetivos perseguidos.
  • d) Compare las listas de frecuencias (de formas ortograficas, elementos gramaticales о lemas) obtenidas de dos corpus generates diferentes. Localice las diferencias que se dan entre los elementos que figuran en las cien primeras posiciones de ambos.
  • e) Compare la lista de los cien lemas mas frecuentes en un diccionario de frecuencias у un corpus general. Localice las diferencias que se dan entre ambas.

NOTAS

  • 1 El trabajo de Francis (1992) lleva el tftulo, realmente Uamativo у provocador, “Language corpora B.C.”, es decir “before computer(s)”.
  • 2 Lo cual no excluye, por supuesto, que se pueda construir un corpus a partir de las citas sclecciona- das, сото se menciona en el apartado 3.2.2.
  • 3 Vease, sin embargo, Baiwir у Renders (2013) para una vision distinta.
  • 4 Sobre todo, por el hecho de que la explotacion basica que Francis у Kucera hicieron del corpus de Brown fue, precisamente, el analisis estadi'stico de las frecuencias lexicas (с/. Kucera у Francis 1967; Francis у Kucera 1982).
  • 5 Segun Kennedy (1998, 16), que remite a una obra de Bongers de 1947, Kading era un taqufgrafo (o estenografo) que emprendio el analisis manual de un corpus de aproximadamente once millones de formas del aleman con la idea de obtener las frecuencias de formas у combinaciones de letras para ayudar en la formacion de los taqufgrafos. Segtin esta misma fuente, colaboraron con el unos cinco mil ayudantes. La referencia complete de Kading (1897-1898) puede encontrarse en http:// portal.acm.org/citation.cfm ?id=972721&dl=GUIDE, %23url.dl.
  • 6 El Diccionario de autoridades define las concordancias сото “[l]as tablas de lugares semejantes en razones u dicciones: сото son las concordancias de la Biblia” (s.v. concordancia).
  • 7 “Esta especie de concordancias distribuye los materiales de la Sagrada Escritura en cierto nCimero de epfgrafes, por ejemplo: caridad, fe, redencion, infierno, justicia, etc. y, disponiendolos en orden alfabetico, facilitan a los predicadores, teologos, etc. ... el hallazgo de los pasajes de la Sagrada Escritura donde se tratan las materias que quieren estudiar. El inventor de este genero de concor- dancias fue san Antonio de Padua (1195-1231), con su obra Concordantiarum moralium inS. Biblia Libri V” (Enciclopedia universal ilustrada europeo-americana. Bilbao / Madrid / Barcelona (Espasa- Calpe), 1908-1930, s.v. Version electronica del artt'culo sobre concordancias en www.filosofia.org/ enc/eui/e610155.htm [consultado 8/2/2014].
  • 8 Tengase en cuenta que la estructuracion de los textos bfblicos es algo que se desarrolla de forma gradual. Hugo de San Caro utilizo la organizacion en capftulos propuesta poco tiempo antes por Stephen Langton (mas tarde arzobispo de Canterbury) у subdividio cada uno de ellos en siete fragmentos de extension aproximadamente igual. Para datos de interes sobre la historia de las concordancias bfblicas, puede consultarse, ademas de la Wikipedia, la entrada Concordances of the Bible en http://catholic.org/encyclopedia у Concordancias de la Sagrada Escritura en la Enciclo- pedia Universal Ilustrada Europeo-Americana (Enciclopedia Espasa) en http://filosofia.org/enc/eui/ e610155.htm.
  • 9 En el curso de la preparacion de su tesis doctoral sobre el concepto de “presencia” en la obra de Tomas de Aquino, Roberto Busa se dio cuenta de que necesitaba analizar, ademas de los sus- tantivos, adjetivos у verbos vinculados a este concepto, preposiciones que, сото in, lo implican directamente. La magnitud del trabajo y, sobre todo, el deseo de evitar a otros la penosa tarea que el habfa llevado a cabo lo llevaron a intentar encontrar un procedimiento automatizado para la elaboracion de las fichas que el habfa ido preparando. En un viaje a Estados Unidos en 1949 entro en contacto con IBM, у en 1950 comenzo la tarea de pasar a fichas perforadas toda la obra de Tomas de Aquino. El trabajo culmino con la publicacion, entre 1974 у 1980 de los 56 voliimenes del Index Thomisticus: Sancti Thomae Aquinatis operum indices et concordantiae (Busa 1974-1980; Busa 1980).
  • 10 Por su caracter relativamente tardfo con respecto a la mayor parte de los trabajos de este tipo que se han realizado entre nosotros у tambien por su distancia con relacion a los proyectos de investigacion linguistica о literaria cabe citar las concordancias de la obra complete de Ortega у Gasset publicadas por Fresnillo Nunez (2004). En el curso del trabajo, Fresnillo у sus colabora- dores tuvieron que enfrentarse con numerosos problemas existentes en la edicion utilizada (la de Paulino Garagorri). Como consecuencia de todo ello, ademas de las concordancias, editadas en un CD,

[h]emos Uevado a cabo la edicion digital de la obra orteguiana, subsanando unas 1200 erratas de la edicion de Garagorri, en la que resultaron especialmente maltratadas las lenguas clasicas (sobre todo el griego), pero tambien el aleman.

  • (Fresnillo Nunez 2004, 14)
  • 11 Davies (2008) menciona el FDSW (y el proyecto de estudio sobre la norma culta, cf. infra) сото prueba de que la linguistica de corpus no sufrio en la linguistica espanola la marginacion que tuvo que padecer en los Estados Unidos сото consecuencia de la critica chomskyana. La consideracion no es del todo exacta, сото se muestra en este mismo apartado.
  • 12 Dirigido por Lloyd A. Karsten у John J. Nitti. Todos los textos transcritos у procesados en esta primera epoca han sido revisados e integrados en la Biblioteca digital de textos del espanol antiguo (y una buena parte de ellos tambien en el CORDE).
  • 13 Cf. Mighetto (1985), Mighetto у Rosengren (1982, 1983, 1985). Para detalles sobre estos proyec- tos у la bibliografia correspondiente, vid. Rojo (2016a, apdo. 2).
  • 14 Ademas de la posibilidad de analizar directamente los materiales contenidos en el SEU, segun Greenbaum у Svartvik (1990, 13-14), en esos textos fueron analizados “65 grammatical features, over 400 specified words or phrases, and about 100 prosodic paralinguistic features”. Tomo la cita de Meyer (2009, 12).
  • 15 De hecho, fue convertido posteriormente en un corpus у tambien integrado parcialmente, junto con el Survey of Spoken English (SSE), desarrollado por Svartvik, en el London-Lund Corpus (LLC). Cf. el apartado siguiente.
  • 16 Segtin esta autora, se trata del “first electronic corpus of spoken language”, que, dada la epoca en que se construye, hace pareja con el Brown Corpus, formado por textos escritos, aunque “the researchers were not initially aware of each other's work" (Tognini-Bonelli 2010, 16).
  • 17 Por supuesto, hay que entender el acceso libre de forma adecuada a las posibilidades de cada momento: Internet no ha existido siempre у la forma de consultar los primeros corpus consistia en desplazarse fisicamente hasta el lugar en que estaba la maquina que contenia el corpus о podia procesar la informacion contenida en el.
  • 18 En otras palabras, en estos proyectos es necesario invertir una gran cantidad de tiempo у esfuerzos en la seleccion у codificacion de textos antes de llegar a la fase en la que, gracias a ese caracter no dirigido a aspectos concretos, se puede extraer informacion sobre muy diferentes fenomenos. No se trata solo de la construccion de corpus. La Base de Datos Sintacticos del Espanol Actual (BDS), desarrollada en la Universidade de Santiago de Compostela, supuso diez anos de trabajo de un grupo numeroso de linguistas para proceder al fichado manual de las algo mas de ciento sesenta mil clausulas existentes en un conjunto de textos de aproximadamente 1,5 millones de formas ortograficas. Cf. www.bds.usc.es/ у Rojo (2001).
  • 19 Cf. Lope Blanch (1967, 1986); cf. tambien Spitzova (1991) у Rabanales (1992).
  • 20 Cf. Samper, Hernandez у Troya (1998). Los textos seleccionados para esta edicion en CD fueron incluidos en el CREA.
  • 21 El Brown Corpus se termino en 1964. La primera publicacion derivada de su analisis fue Kucera у Francis (1967). Para los datos fundamentales, puede verse www.helsinki.fi/varieng/CoRD/corpora/ BROWN/index.html.
  • 22 Formado tambien por textos publicados en 1961, pero en el Reino Unido. La primera version se termino en 1976. Para mas informacion, vid. www.helsinki.fi/varieng/CoRD/corpora/LOB/.
  • 23 Entre 1957, ano de publicacion de Syntactic Structures, у 1965, cuando aparece Aspects of the The- ory of Syntax.

24 Es conocida la conversacion entre W. Nelson Francis у Robert Lees. SegCin el propio Francis (1982, 7-8):

In 1962, when I was in the early stages of collecting the Brown Standard Corpus of American English, 1 met Professor Robert Lees at a linguistic conference. In response to his query about my current interests, 1 said that 1 had a grant from the U.S. Office of Education to compile a million-word corpus of present-day American English for computer use. He looked at me in amazement and asked, ‘Why in the world are you doing that?’ 1 said something about finding out the true facts about English grammar. I have never forgotten his reply: “That is a complete waste of your time and the government’s money. You are a native speaker of English; in ten minutes you can produce more illustrations of any point in English grammar than you will find in many millions of words of random text”.

  • 25 С/. www.atilf.fr/spip.phpJrubrique77.
  • 26 Estas caracterfsticas, diffciles de entender desde las posibilidades existentes en la actualidad, se mantienen durante bastantes anos. Por citar un caso que conozco de primera mano, la edicion de los indices de la poesia de Quevedo supuso la informatizacion de los textos (en la edicion de J. M. Blecua), su codificacion en el sistema COCOA, su procesamiento mediante el paquete OCP para la produccion de indices у ... la impresion de los resultados en un libro de algo mas de 1000 paginas (с/. Fernandez Mosquera у Azaustre 1993). Naturalmente, la utilizacion de esos indices у la localizacion de los casos de interes implicaba la necesidad de emplear la misma edicion sobre la que se habian elaborado los indices.
  • 27 De hecho, el texto de Chomsky, difundido inicialmente por Leech, en el que senala que cual- quier corpus esta forzosamente sesgado, es de 1962, es decir, es anterior a la aparicion del corpus de Brown (cf. Rojo 2011a para mas detalles sobre este punto). Ademas, hay que reconocer que el enfoque habitual en esa epoca del uso de corpus por los distribucionalistas resulta inadecuado en muchos casos. Para Hockett, por ejemplo, el objetivo del lingiiista estructural “is not simply to account for all utterances which comprise his corpus”, sino que “the analysis of the linguistic SCIENTIST is to be of such a nature that the linguist can account also for utterances which are NOT in his corpus at a given time” (Hockett 1948, 269; elementos destacados en el original).
  • 28 Tambien Leech (2011, 162) ha destacado este factor: “It is no coincidence that English Corpus Linguistics has flourished in countries where a tradition of English studies is very strong, but where English is not a native language —in Germany, Sweden, and Japan, for instance”.
  • 29 Integrado luego, con parte del SEU, en el London-Lund Corpus (LLC), terminado en 1990. Consta de quinientas mil formas procedentes de textos orales del ingles britanico, transcritas con gran riqueza de rasgos prosodicos. Cf. www.helsinki.fi/varieng/CoRD/corpora/LLC/.
  • 30 Cf.www.collinsdictionary.com/cobuild/. En su diseno inicial, este corpus constaba de 7,5 millones de formas, lo cual supone ya un incremento considerable de tamano con respecto a los preceden- tes. Dado que su utilizacion iba a ser fundamentalmente lexica, se vio pronto que era necesario darle mayor volumen, de modo que la confeccion del diccionario se hizo sobre un corpus que tenia ya unos diecisiete millones de formas.
  • 31 Scgun la ley de Moore, el aumento en la capacidad у la velocidad de las computadoras se basan en que el niimero de transistores integrados en un microchip se duplica aproximadamente cada dos anos.
  • 32 A partir de 1960, corpus que siguen el modelo del Brown Corpus. El aumento de tamano que se hace posiblc a partir de 1980 permite diferenciar entre corpus de referenda у corpus especializa- dos. Desde 1990 al esperable aumento del tamano se anade la aparicion de los corpus diacronicos, incluyendo aquellos que trabajan con perfodos considerablemente mas reducidos que los tradicio- nales. Desde 1998, la existencia de Internet у la WWW hace posible usar la web сото un corpus. Finalmente, senala el efecto que a partir de 2005 tiene la existencia del sistema de distribucion Internet2 (GRID), con efecto en las posibilidades de intercambio.
  • 33 La prensa digital es, sin duda, el caso mas llamativo de todo este proceso de mejora. En la cons- truccion del CREA, por ejemplo, los textos periodfsticos exigfan una enorme cantidad de trabajo debido a sus caracterfsticas tipograficas (titulares, entradillas, texto en varias columnas, fotos у pies de fotos, etc.). En el CORPES, en cambio, iniciado ya despues de la aparicion de la prensa digital, los textos periodfsticos son una de las fuentes mas faciles de manejar e integrar en el corpus. Para detalles sohre la evolucion de la prensa digital, cf. Rojo у Sanchez (2010, cap. 4).
  • 34 Cf. www.corpus.unam.mx:8080/cemc/.
  • 35 Fue publicado inicialmente en CD (Admyte 0 en 1991 у Admyte 1 en 1992), у es consultable, mediante suscripcion, a traves de Internet (www.admyte.com/presentacion.htrn).
  • 36 Para una perspective mas completa, pero ya desactualizada, puede consultarse Rojo (2016a).
  • 37 Hay que tener en cuenta que la frecuencia de los elementos у las estructuras sigue las lfneas de la ley de Zipf, de modo que no es extrano que algunas palabras о combinaciones tengan una frecuen- cia media tan baja que se entienda perfectamente su ausencia de corpus constituidos incluso por cientos о miles de millones de formas.
  • 38 Vease, por ejemplo, en el apartado 7.2, la biisqueda en ESLORA de formas verbales de primera persona de singular que no van precedidas ni seguidas inmediatamente por la forma yo.
  • 39 Estas busquedas tienen su contexto natural en los tree-banks (cf., por ejemplo, ANCORA) о recur- sos del tipo de DRASAE.
  • 40 Es cierto que, сото senala Enrique-Arias (2012), el uso de corpus paralelos (сото el de la Biblia Medieval, dirigido por el) puede ayudar a reducir esa limitacion. En este caso concreto, la loca- lizacion de conectores en el texto fuente у su comparacion con lo que ocurre en las traducciones al Castellano puede dar una idea de la medida en la que los mecanismos de conexion van evolu- cionando. Sin embargo, en el fondo el problema sigue siendo el mismo, puesto que se necesita la presencia del conector en el texto fuente.
  • 41 Hay sobre este punto visiones tan radicales сото la de Alvarez Ramos (2015), que considera que el numero de casos que se registrar! en corpus de referencia son siempre insuficientes у que la solucion radica en el empleo de los datos existentes en la red. Cf. Rojo (en prensa) para la crrtica de esta postura.
  • 42 С/. www.sketchengine.eu/.
  • 43 Bastante mas diftciles de detectar son, por ejemplo, las derivadas de las caracterizaciones linguisti- cas en los textos de ficcion. Se puede dar сото rasgo propio de un autor algo que incorpora сото parte de la caracterizacion lingufstica de alguno de las personas de sus obras.
  • 44 No se trata de algo exclusivo del trabajo con corpus. Vease, por ejemplo, la clarificadora revision de los problemas vinculados a los trabajos de orientacion diacronica realizada por Lleal Galceran (2013).
  • 45 De ahr la necesidad de tener en cuenta tanto la frecuencia general у la normalizada сото la dispersion (vid., por ejemplo, el apdo. 4.2.2).
  • 46 Ast, la e se representa сото un punto (.) у la t сото una raya (-), mientras que a la letra f>

corresponde la secuencia .— ., —.- codifica la letra q у-----, con cinco elementos corresponde

a la n, que no figuraba en el alfabeto Morse inicial. Como es obvio, la frecuencia de las letras depende de las lenguas у el sistema ortografico que utilicen en cada momento.

  • 47 Cf. https://es.wikipedia.org/wiki/Teclado_Dvorak. Se ha dicho incluso que la distribucion de las letras en los teclados de tipo QWERTY responde al deseo de ralentizar el ritmo de los mecanogra- fos para evitar problemas mecanicos en las primeras maquinas de escribir manuales: el exceso de velocidad podia producir la coincidencia de varias palancas у el consiguiente atasco de la maquina.
  • 48 Cf. Rojo (1991) para un analisis detenido de las frecuencias de fonemas. Debe tenerse en cuenta que el procedimiento seguido en este trabajo consistio en la aplicacion de rutinas de transcripcion fonologica de algunos de los textos que forman parte del corpus ARTHUS, con un total de algo mas de 3 640 000 fonemas. La transcripcion se hizo a un sistema fonologico en el que se diferencia entre /s/ у /е/ у entre /X/ у /)/ Por tanto, el porcentaje de /s/ indicado en el texto debe convertirse en el 9,24 % para las variedades con seseo.
  • 49 Los calculos se han realizado sin diferenciar entre mayusculas у minusculas, sin tomar en cuenta las secuencias formadas exclusivamente por digitos у, сото es habitual en este tipo de recuentos, sin considerar los signos de puntuacion.
  • 50 Tengase en cuenta que, al tratarse de formas ortograficas, la lista tiene todos los problemas deriva- dos de las tan frecuentes homografias: que, la, los, etc.
  • 51 Para la confeccion de la tabla, he reducido todos los elementos a minuscula, de modo que en la fila correspondiente a de se agrupan todos los casos de de, De, DE, etc. Naturalmente, se marca la dife- rencia de clase de palabras. Tengase en cuenta que el sistema de anotacion utilizado en esta version del CORPES mantiene сото clase diferenciada las contracciones. Por tanto, la estadistica correspondiente a a, de у el tiene que ser corregida si se pretende trabajar con ella.
  • 52 El primer sustantivo es ano, que no aparece hasta la posicion setenta у tres. Y el primer adjetivo, nuevo, en la 78.
  • 53 Cf. http://weh.frl.es/CORPE8/org/publico/pages/estad/cstad.viewMjstadosLemas.
  • 54 Aunque ya se ha indicado, es importante insistir en que los lemas a los que me refiero aqui impli- can tambien la pertenencia a una clase de palabras. Por tanto, hay que pensar que una parte, probablemente importante, de los hapax proceden de, por ejemplo, palabras que pueden aparecer сото sustantivos о adjetivos у solo presentan un caso en alguna de esas dos clases, etc.
  • 55 Son nociones proximas, pero no equivalentes, a las establecidas por Bybee (2007) entre type frequency у token frequency. Vid. Rojo (201 la) para mas detalles.
  • 56 Se llega al porcentaje senalado teniendo en cuenta que, en la tabla mencionada, las contracciones estan consideradas сото un grupo independiente. Por tanto, a los porcentajes de cada una de las dos clases hay que anadir el correspondiente a las contracciones.
  • 57 Los datos del DLE corresponden tambien a lemas con clase de palabras. No coinciden con los que pueden obtenerse de, por ejemplo, Enclave RAE, porque este recurso proporciona las estadfsticas de todas las acepciones que presentan el rasgo solicitado. Por tanto, en una entrada que tenga cinco acepciones, todas ellas correspondientes a usos sustantivos, el recuento dara cinco casos de sustantivo. Para los calculos de la tabla 6.7 se han uniticado todas esas apariciones, de modo que los mencionados en el ejemplo anterior solo contarfan una vez. Las cifras de sustantivos se refieren unicamente a los comunes tanto en el inventario сото en los textos.
  • 58 De nuevo, los datos de Enclave RAE, que se refieren a las acepciones, difieren de los que doy en el texto. En Enclave RAE hay 6628 acepciones (no lemas) de clase adverbial у 2078 (el 31,35 %) corresponden a formas en -mente.
  • 59 Dado que no todos los sistemas de etiquetacion trabajan de este modo, debe tenerse en cuenta que en esta version del CORPES las formas compuestas de los verbos han sido consideradas сото una entidad unica. Por tanto, habi'amos llegado es un solo caso que se asocia al verbo llegar.
  • 60 Salvo, claro esta, que alguno de estos rasgos este sistematicamente asociado a otro(s) que si tenga(n) relevancia social.
  • 61 El trabajo clasico, al que es necesario seguir haciendo referenda, es Biber (1993). Al parecer (cf. Varadi 2001), se produjo un debate entre las grandes figuras de la primera epoca de la LC acerca de esta cuestion. Quirk у Leech propugnaban la necesidad de que los corpus fueran representatives у estuvieran equilibrados, mientras que Sinclair у Meijs eran partidarios de un corpus abierto. “Oral tradition has it that the debate was decided by the audience in favour of Sinclair team” (Varadi
  • 2001,591).
  • 62 Quiero decir que esos subcorpus no estan construidos previamente ni los resultados han sido “con- gelados” con anterioridad: сото cada texto Ueva los valores correspondientes a los distintos para- metros, el subcorpus se construye de forma dinamica, de acuerdo con las caracteristicas que se incluyen en cada consulta.
  • 63 Senalan tambien Atkins у Rundell (2008) que este fenomeno no se reduce a lo que puede suceder con la inclusion de textos tecnicos: la inclusion de la novela Saturday, de Ian McEwan, cuyo pro- tagonista es un neurocirujano, puede producir consecuencias muy similares. La alusion a obras de ficcion ambientadas en ciertos entornos lexicos en funcion de las caracteristicas de sus protagonis- tas nos lleva tambien a otro fenomeno de consecuencias importantes: las fronteras entre la lengua corriente у la lengua tecnica se desdibujan con cierta frecuencia. Por ejemplo, los suplementos culturales о los suplementos sobre temas de salud implican forzosamente la utilization de terminos tecnicos en textos que estan dirigidos mas bien a lectores no tecnicos, con lo que encontraremos abundantes terminos tecnicos en textos que no tienen ese caracter.
  • 64 Con palabras de Leech (2011, 160), “the Brown Corpus may not be entirely representative, but it is better than a million words of the Wall Street Journal, for instance”.
  • 65 La vinculacion entre las nociones de representatividad у equilibrio se refleja, por ejemplo, en la distincion realizada por Torruella Casanas (2017, 137 у sigs.) entre representatividad cualitativa (relacionada con la calidad у diversification de las muestras) у la representatividad cuantitativa, consistente en el equilibrio externo (relation entre las muestras у la poblacion por un lado у entre los tamanos de las muestras correspondientes a los diversos bloques de un corpus). Ya Biber (1993, 243) indicaba que la “[representativeness refers to the extent to which a sample includes the full range of variability in a population”.
 
<<   CONTENTS   >>

Related topics