viernes, 29 de febrero de 2008

Predecir las dinámicas del cambio lingüístico aplicando fórmulas matemáticas y modelos de simulación computacional

Todos aquellos interesados o que estéis estudiando Lingüística histórica, echadle un vistazo a los siguientes resúmenes (el destacado es mío):

Lieberman, E., Michel, J-B, Jackson, J., Tang, T. y Nowak, M. A. (2007): Quantifying the evolutionary dynamics of language, Nature, 449 (7163): 713-716.

http://www.nature.com/nature/journal/v449/n7163/pdf/nature06137.pdf

Abstract

Human language is based on grammatical rules. Cultural evolution allows these rules to change over time. Rules compete with each other: as new rules rise to prominence, old ones die away. To quantify the dynamics of language evolution, we studied the regularization of English verbs over the past 1,200 years. Although an elaborate system of productive conjugations existed in English's proto-Germanic ancestor, Modern English uses the dental suffix, '-ed', to signify past tense. Here we describe the emergence of this linguistic rule amidst the evolutionary decay of its exceptions, known to us as irregular verbs. We have generated a data set of verbs whose conjugations have been evolving for more than a millennium, tracking inflectional changes to 177 Old-English irregular verbs. Of these irregular verbs, 145 remained irregular in Middle English and 98 are still irregular today. We study how the rate of regularization depends on the frequency of word usage. The half-life of an irregular verb scales as the square root of its usage frequency: a verb that is 100 times less frequent regularizes 10 times as fast. Our study provides a quantitative analysis of the regularization process by which ancestral forms gradually yield to an emerging linguistic rule.

Este artículo, y el que viene a continuación, son una muestra de cuáles son los límites en la aplicación lexicoestadística, y en general de los métodos cuantitativos puros, al estudio de las ciencias sociales.

Con la primera afirmación en negrita ya empezamos mal. Aseverar que el cambio lingüístico se produce en el contexto de la evolución cultural es una obviedad aplastante, tanto como decir que el cambio en los tipos de interés se produce en el contexto de la evolución económica. Si, por el contrario, se sugiere que la evolución cultural es el motor del cambio lingüístico, entonces lo mejor que podemos hacer es recomendarles a los autores un buen manual de Lingüística histórica.

Segundo: vemos que es un estudio que se basa en una sola lengua y, por tanto, antes de dar por científicamente válido el supuesto algoritmo de regularización, éste se ha de comprobar en un buen número de otras lenguas. La significación estadística (y el sentido común) establece no sólo cuándo debemos considerar estadísticamente significativos los resultados de nuestra medición (con arreglo al valor P), sino también qué tamaño y qué variabilidad debe tener la muestra poblacional sujeta a análisis para poder extrapolar nuestros resultados a toda la población. Hace falta, pues, analizar la evolución de los verbos irregulares de bastantes más lenguas para poder empezar a decir algo con fundamento.

Tercero: así como la semivida (no sé por qué ven útil aplicar aquí ese término de la biología, la verdad) de un verbo irregular les sale como producto de un algoritmo tan exacto (equivale a la raíz cuadrada de su frecuencia de uso) podría no haberles salido así. ¿Y si les hubiera dado que la semivida de una pieza léxica se extrae de la división de su frecuencia de uso, multiplicado por siete? Lo que quiero decir es que desde el punto de vista lingüístico, ese algoritmo, sea cual sea, es explicativamente nulo: no nos aporta nada, no respalda ninguna hipótesis, sólo cuantifica un fenómeno. Es, por tanto, vacuo respecto de la teoría lingüística: no nos dice nada nuevo sobre los mecanismos de regularización, ni sobre la analogía, ni la ultracorrección, ni la improductividad morfológica.

Cuarto, ¿qué fuentes se han utilizado para establecer la frecuencia de uso de los verbos irregulares ingleses: fuentes escritas, evidentemente. ¿De la presencia de determinados verbos en la literatura o en los textos jurídicos y administrativos podemos inferir la frecuencia del uso efectivo, real, de la calle, de esos verbos? Vuelvo a este punto en el comentario del siguiente artículo.

Pagel, M., Atkinson, Q. D. y Meade, A. (2007): Frequency of word-use predicts rates of lexical evolution throught Indo-European history, Nature, 449 (7163): 717-720.
http://www3.isrl.uiuc.edu/~junwang4/langev/localcopy/pdf/pagel07wordFrequencyNATURE.pdf

Abstract

Greek speakers say "omicronupsilonrho", Germans "schwanz" and the French "queue" to describe what English speakers call a 'tail', but all of these languages use a related form of 'two' to describe the number after one. Among more than 100 Indo-European languages and dialects, the words for some meanings (such as 'tail') evolve rapidly, being expressed across languages by dozens of unrelated words, while others evolve much more slowly--such as the number 'two', for which all Indo-European language speakers use the same related word-form. No general linguistic mechanism has been advanced to explain this striking variation in rates of lexical replacement among meanings. Here we use four large and divergent language corpora (English, Spanish, Russian and Greek) and a comparative database of 200 fundamental vocabulary meanings in 87 Indo-European languages to show that the frequency with which these words are used in modern language predicts their rate of replacement over thousands of years of Indo-European language evolution. Across all 200 meanings, frequently used words evolve at slower rates and infrequently used words evolve more rapidly. This relationship holds separately and identically across parts of speech for each of the four language corpora, and accounts for approximately 50% of the variation in historical rates of lexical replacement. We propose that the frequency with which specific words are used in everyday language exerts a general and law-like influence on their rates of evolution. Our findings are consistent with social models of word change that emphasize the role of selection, and suggest that owing to the ways that humans use language, some words will evolve slowly and others rapidly across all languages.


La primera observación es que la frecuencia con que se usan las palabras “in everyday language” NO equivale y no puede extraerse de la frecuencia con que aparecen en los corpora escritos. Los autores comentan que han utilizado corpora orales también, pero me temo que esos corpora serán más bien escasos, teniendo en cuenta lo reciente de su creación.
Si bien los textos escritos son muy útiles para comprobar qué tipo de vocabulario o estructuras sintácticas son propias de la modalidad escrita de un idioma en determinada época, el uso actual que de la lengua se hace en la calle nunca podrá medirse a partir de esos textos.

Hace poco hablaba en otra entrada de la recursividad lingüística, cuya forma prototípica es el embedding o la inclusión de oraciones dentro de otras ([El libro [que me has regalado] es genial]). Pues bien, la recursividad es un mecanismo más bien inexistente en el lenguaje oral; sin embargo cualquier marciano que estudiara nuestra lengua a partir de los textos escritos creería que la subordinación es la configuración estructural básica del lenguaje humano.
Está claro que, en muchos casos las únicas pruebas de que disponemos para hacer lingüística histórica son escritas, pero es que la reconstrucción lingüística o el método comparativo no necesitan conocer el uso real del léxico. Por tanto, la variable de la que parten para hacer las predicciones (el uso de las palabras) ya cuenta con un problema importante. De hecho no sé si la lexicoestadística debiera llamarse estadística de corpus, más bien.

Segundo, está muy bien la conclusión del estudio: “Nuestros hallazgos […] indican que algunas palabras evolucionan despacio y otras rápido en todas las lenguas, según los modos en que los seres humanos usamos las lenguas”. ¡Para este viaje no hacían falta esas alforjas!

Como resumen, está claro que el cambio lingüístico no es caótico (de hecho, las generalizaciones más robustas, los universales más ampliamente aceptados son los del cambio lingüístico), pero mucho menos es predecible a partir de la aplicación de algoritmos matemáticos y aún muchísimo menos de la aplicación de programas informáticos que simulan situaciones de evolución lingüística en poblaciones de hablantes virtuales (en una próxima entrada). El cambio lingüístico se produce y ha de observarse en el mundo real, no en Second Life, y es producto de un número elevado de variables cualitativas (la más importante e impredecible, la mente humana) que hemos de estudiar contextualizadas e interconectadas, aunque esto no invalida que podamos extraer universales del cambio si las tendencias y los procesos se observan en una cantidad considerable de lenguas. Cuando los autores separan la "frecuencia de uso" del resto de "factores culturales, cognitivos y sociales" es que no están entendiendo los mínimos básicos del estudio del lenguaje.

16 comentarios:

Eduard Abelenda i Puigvert dijo...

Ja veig que aquests dos exemples que mostres són poc rigorosos.

En el primer exemple que poses sembla que diguin que el canvi lingüístic avança amb una velocitat uniforme, cosa que sembla molt dubtós.

Ja em sembla bé que es facin estudis quantitatius del canvi lingüístic amb una ampla perspectiva històrica però cal ser molt curós amb el que es fa i distingir bé què es mesura, mitjançant una bona anàlisi teòrica.

Ara bé, dubto molt que trobin cap regularitat. No crec que el canvi lingüístic sigui uniforme. A més, n'hi ha tantes de variables que canvien i totes per causes diferents i a velocitats diferents.

A més, coneguent el que sol produïr els canvis, que són qüestions culturals imprevisibles... com tu ja dius.

Ells analitzen corpus de l'anglès, no? Com si l'anglès fos un objecte fàcilment identificable. ¡Si l'anglès està format de desenes de petits sistemes dialectals amb causes de canvi diferents en cada cas!

Si, em sembla que abans s'ha de saber moltíssim de lingüística per poder posar-se a quantificar dades sense fer bestieses.

Intentava imaginar-me un estudi que a partir de la freqüència d'us d'una paraula, pogués treure conclusions lingüístiques relacionades amb el canvi lingüístic. Què podriem arribar a saber si ho féssim bé?

Per exemple agafem una paraula de l'anglès força comuna a tot el territori però poc usada en els textos. Agafem-ne una que sigui molt usada. Intentem que aquestes dues paraules siguin de probable ús també en la llengua parlada, per intentar que el fet que treballem amb textos no ens impedeixi que les conclusions siguin vàlides tant per la llengua parlada com per l'escrita. Han de ser paraules que tinguin una freqüència més o menys igual al llarg de tota la història. Tenim un índex numèric de freqüència de les dues paraules. Què fem ara amb aquest índex? Amb què el podriem correlacionar? He intentat que les dues paraules siguin controlables escollint-les molt bé i mirant que cap altra variable me les faci invàlides per a una estudi, però segur que podria aconseguir dues paraules com aquestes, o això és imposssible?

Buf, quant de dubte! Algú, especialment la Concha i la Llenguaddicta creu que es podria fer un experiment així, o se li acut com es podria continuar aquest a fantasia experimental que he proposat?

llenguaddicta dijo...

La meva pregunta és, ¿cal? Encara que poguessis dur a terme un experiment com el que proposes, tornaríem al principi: estem parlant d'una llengua, i d'una paraula, ningú t'acceptaria cap conclusió extreta d'aquest context. ¿Seria aplicable a altres llengües? Ho dubto, perquè en cada llengua hauries d'agafar mots diferents (posem per cas que per al català triessis "casa", igual a la zona de l'inuk-titut ja no et serviria).

Crec que la Concha té raó quan diu que estem barrejant conceptes que no enganxen ni amb cola. I la culpa és nostra, dels lingüistes, que creiem que per a obtenir dades "fiables" hem d'acostar-nos a les ciències dures, estadística i resultats irrefutables, quan en realitat la llengua és quelcom viu i en constant canvi, predictible en certs casos, però impredictible en d'altres. ¿Algú pot predir cap a on evolucionarà la nova llengua que s'usa en àmbits com el messenger o els mòbils? No. I això és en primer lloc perquè parlem d'un llenguatge (si voleu) molt recent, del qual tot just se'n comencen a fer estudis. I en segon lloc, perquè no tenim fórmula matemàtica que, aplicada a aquest nou llenguatge, ens doni un resultat final. És a dir, per més que existís aquesta fórmula, i suposadament funcionés amb les llengües orals (si no amb totes, amb la gran majoria), tampoc crec que pogués aplicar-se a una modalitat lingüística que el que fa és plasmar l'oralitat espontània en l'escriptura.

Ergo: deixem-nos de pamplines i dediquem-nos a coses tangibles.

(llenguadicta dixit)

Concha Campos dijo...

Eduard y Raquel:

Gracias por vuestros comentarios, siempre tan apropiados. ¡He tenido que hacer un copiar y pegar de vuestros mensajes para organizarme bien en la respuesta! Veo que el tema os interesa, sobre todo después de haber estado con el profesor Bastardas, con el hincapié que ha hecho en el tema de los métodos de investigación y la problemática que existe a la hora de aplicar según qué método al estudio de algo tan “elusive” como los comportamientos humanos, del tipo que sean.
Para mí lo más curioso de esos estudios es que creen (por cierto no son lingüistas) que todo en esta vida es susceptible de ser aprehendido a través de las matemáticas. Además, ¿es que si aplicamos un algoritmo el cambio lingüístico se convierte, por arte de magia, en algo científico?
En uno de los estudios se comprueba que los verbos ingleses que más se usan (be, have, give, take, go, etc.) son irregulares y que ello se debe a que su uso constante en el discurso diario (su alta frecuencia de uso) los “fija”, es un factor que impide su regularización (que sí funciona con verbos irregulares poco frecuentes que, por cuestiones memorísticas, tienden a entran en un proceso de cambio analógico). Pero esto ya se sabía. ¿A santo de qué necesitamos saber que se extrae de la raíz cuadrada de no sé qué?, ¿qué aporta eso al proceso observado?, ¿pretenden decirnos que es predecible matemáticamente? Yo les digo que eso es imposible.

Mirad lo que tiene que decir al respecto un lingüista bastante eminente que se dedica, justamente, a las simulaciones informáticas de procesos de cambio y variación lingüísticos:

“The way a language changes depends on how it is transmitted from generation to generation of speakers, and that transmission will be heavily affected by such factors as the way children are brought up, the structure of social networks, the degree of mobility and inter-group contact, the extent of bilingualism and diglossia, the existence of word taboos, and the attitudes and practices of the community at large. Such considerations should lead us to recognise that the rate of linguistic change is likely to vary across time and place for many different reasons. This argument could easily lead to the conclusion that no generalisations at all were possible about the rate of linguistic change, and therefore that no chronological inferences from the divergence of languages are ever possible. This would be a disappointing conclusion, since it would radically reduce the utility of historical linguistics as a window on the past”.

Nettle, D. (1999): Is the rate of linguistic change constant?, Lingua, 108 (2): 119-136

Creo, Eduard, que esto y los argumentos de Raquel respoden a tus preguntas. Si no es así, dímelo.

Un saludo a los dos.

Eduard Abelenda i Puigvert dijo...

Bé, gràcies per les respostes. Sí, responeu a una part de les preguntes, però no a tot. Sobretot la meva preocupació era intentar fer compatible la matemàtica amb la lingüística històrica. No cal que condemnem aquesta barreja perquè és difícil de fer, no és especialment útil i hi ha molta gent que la fa malament, com és el cas que ha mostrat la Concha. Si es fes bé, potser podria ajudar. Qui sap. Val la pena reflexionar-hi, em sembla.

llenguaddicta dijo...

A mi se'm fa difícil creure que la matemàtica pugui donar explicació a TOT, com pretenen alguns. Partint del fet que dos més dos no sempre són quatre (això m'han ensenyat professors de Sociologia i de Psicologia a la carrera de Magisteri), no m'entra al cap com una fórmula matemàtica em donarà un comportament predictible i infal·lible d'una modalitat concreta de canvi lingüistic. És més, serà perquè sóc molt de lletres, però les fórmules a mi no m'han convençut mai (¿algú sap per a què servia allò del x igual a menys b més menys arrel quadrada de menys 4 a c partir de 2 a? Vull dir en la vida real i diària...).

Ja veus, Eduard, que sóc un pèl escèptica amb aquestes pràctiques. Estic d'acord amb l'autor que ens ha copiat la Concha en aquest darrer comentari: el canvi lingüístic depèn de tants factors (la major part d'ells, vinculats directament al comportament humà), que pretendre una predictibilitat de llibre és absurd.

Però endavant si vols demostrar el contrari. El meu cap té una limitació matemàtica evident.

Eduard Abelenda i Puigvert dijo...

Bé, jo també estic amb tu, crec que la matemàtica hi ha moltes coses que no pot ordenar. Hi ha altres mètodes. També crec que no pot predir gaire el canvi lingüístic, però sí que pot donar cets index per poder fer treballs comparatius per exemple, això sempre que aquests índex siguin fiables i s'hagin dissenyat amb el màxim rigor lingüístic.

Anónimo dijo...

Hola,

Ésta es mi primera aportación a este blog. Me gustaría que fuera la primera de muchas, porque por aquí se respira muy buen ambiente, pero lamentablemente ando muy mal de tiempo y no me atrevo a asegurar que vaya a ser un asiduo. De todos modos, me he animado a escribir para añadir un contrapunto crítico al escepticismo generalizado que habéis expresado en relación con los métodos matemáticos. Razonable, y también comprensible, pero necesitado, creo, de algunos matices.

1. Concha, dices que el que los autores del estudio de las matemáticas afirmen que "cultural evolution allows these rules to change over time" es una "obviedad aplastante", y parece que lo dices a modo de recriminación. Te recuerdo que, en este mismo blog, unos mensajes más abajo, criticabas a Chomsky justamente por no admitir algo igual de obvio y de aplastante, a saber, que los hablantes son humanos y que su "hablante ideal" es más propio del esoterismo que de una cienca rigurosa. El propio Chomsky se ha hecho famoso intentando negar el papel de la cultura en el lenguaje (hasta que sus propias contradicciones le han condenado a cierto descrédito entre la comunidad científica). Así pues, a nosotros nos puede parecer muy obvio que lo que hace cambiar la lengua es la cultura, pero luego yo veo que hay gente convencida de que hay algo llamado "Lengua-I" que es propio y distintivo de nuestra especie y que, por lo tanto, aceptados los axiomas de la biología, no debería de ser susceptible de cambiar culturalmente (con lo que la "obviedad" ya no lo es tanto, ¿no crees?). Por eso creo que el artículo que citas es una gran notica: al haberse demostrado que la regularidad o irregularidad de un verbo puede predecirse cuantitativamente a partir de una muestra de lenguaje, muchos dogmas se vienen abajo: seguramente conoces la archiconocida distinción entre lo lingüísticamente productivo (aquello generado mediante reglas) y "lo demás" (las popularizadas como "idiosincrasias", todo aquello que debe aprenderse de memoria). Y seguramente sabrás también que los verbos regulares son del primer tipo, y los irregulares, del segundo. Pues bien, si ahora este estudio halla pautas de regularización y muestra que no hay "reglas", por un lado, y "rarezas", por otro, sino que las reglas se aplican precisamente a las rarezas (cuanto menos frecuente, i.e. más idiosincrático es un verbo, más rápido se regulariza, i.e. más rápido pasa a generarse mediante una regla), algo en teoría imposible si aceptas una distinción categorial como la propuesta, tal distinción queda automáticamente en entredicho, lo cual tiene toda una serie de muy claras consecuencias teóricas y, contrariamente a tu afirmación, creo que un tanto exagerada, de que no aporta nada a la Lingüística, es un resultado que arroja luz y nos da razones para cuestionarnos un determinado modelo teórico, a saber, el de reglas vs. "lo demás". (¡Se me hace la boca agua sólo de pensar que la sintaxis siempre la han puesto como el paradigma de la regularización y la productividad, y el léxico como "rarezas"! Pero, ¿qué es la sintaxis sino combinaciones de palabras, y qué son las combinaciones de palabras sino pautas estadísticas de comportamiento? Tengo la plena convicción de que los modelos matemáticos de la Teoría de la información son una herramienta inestimable de cara a abordar los desafíos del lenguaje natural).

2. Concha, también considero excesivamente severo (y metodológicamente poco fundamentado) tu reproche de que "antes de dar por científicamente válido el supuesto algoritmo de regularización, éste se ha de comprobar en un buen número de otras lenguas": no se están midiendo variables dependientes de la lengua. Fíjate que, precisamente, no hay ninguna lengua que tenga más verbos irregulares que regulares (lo cual, dicho sea de paso, sería estadísticamente absurdo). Así, del mismo modo que todas las lenguas tienen menos verbos irregulares que regulares, y del mismo modo también que en todas las lenguas hay menos preposiciones que sustantivos, y menos artículos que preposiciones, etc. (en virtud de la ley de Zipf), por lo mismo no creo que los resultados de este estudio vayan a verse contradichos ni sustancialmente modificados con una muestra mayor. Como ya te he dicho, en él se cuantifica una variable independiente de la lengua. Si alguien demostrara que el 90% de los clientes de El Corte Inglés repite, y a partir de eso indujera que "todo el mundo que compra en una tienda repite", sólo podrías reclamarle datos sobre otras tiendas si asumieras que hay efectivamente otras tiendas pero, ¿y si todo lo que hay son en realidad diferentes centros de El Corte Inglés, todos una misma tienda? Pues los resultados se repetirían, y efectivamente ya sabemos que es así (v.gr. los universales de Greenberg o nuevamente la ley de Zipf) Por eso, aunque sin duda hay otras lenguas además del inglés, ¿son "otras" lenguas, i.e. se diferencian del inglés en el número de verbos irregulares que tienen? ¡No!: ¡todas tienen menos verbos irregulares que verbos regulares! Y, mira por dónde, justo ésa es la gracia del estudio: ¡nos han dicho a cuántos tocan!

Lo que cambia de lengua a lengua es la cultura, el vocabulario, pero no las pautas estadísticas. Por eso no veo justificado tu reproche: asumes que las lenguas podrían ser diferentes en cuanto a la proporción de verbos regulares respecto de irregulares, cuando sabemos que esa proporción es siempre aproximadamente la misma. Y si lo que criticas no es (contrariamente a lo que parece) el que la regularización de verbos pueda explicarse mediante un determinado cómputo, sino el que, en vez de la raíz cuadrada, no pueda ser la cúbica, pues igual tienes razón, pero entonces para justificarlo te hará falta un mayor aparato teórico y la misma base empírica que reclamas a estos investigadores. Lo que quiero decir es que la aproximación de los autores me parece, en lo fundamental, lingüísticamente irreprochable, y que miden una variable que no cambia de lengua a lengua. A mí, al menos, no se me ocurre ningún factor por el que otra muestra poblacional debiera usar menos verbos irregulares. ¿O sabes tú si en Mallorca o en Jaén tienen algún problema con, p.ej., las preposiciones, y las usan con una frecuencia estadísticamente menor? A mí no me suena nada por el estilo, y me extrañaría que así fuera, porque estamos hablando de categorías, "regular" vs. "irregular", que pertenecen al sistema de la lengua (al igual que el género gramatical, otro tema del que también has hablado y en el que coincido plenamente contigo) y, por lo tanto, no es previsible que varíen de castellano a catalán o de inglés a alemán (recuerda, lo que varía es la cultura). Por cierto, de ahí la gracia del asunto: es como hacer física; del mismo modo que las condiciones climatológicas que desencadenan la formación de los cristales de hielo son universales, también lo son los patrones estadísticos interlingüísticos de verbos regulares e irregulares, artículos, preposiciones, etc. No hay lingüística más cercana a la ciencia, ni puede haberla tampoco con un mayor afán de universalidad y de "humanidad", en la medida en que ser humano sea formar parte de la naturaleza a la que nos debemos.

3. Por consideraciones análogas, creo que tu objeción en virtud de la cual una generalización como la del artículo no puede hacerse a partir de corpora textuales, es de nuevo demasiado osada. No están hablando del uso de una determinada palabra cargada de significado, sino de verbos regulares e irregulares. Es verdad que hay gente que, por estilo, usa más adverbios que otra, y gente que usa más oraciones coordinadas o yutxapuestas que otra. Ahora bien, ¿dirías que hay gente que usa más verbos irregulares que otra? ¿O más preposiciones "de" que otra? ¿O más artículos femeninos que otra? Sería muy freaky, ¿verdad? Estoy seguro de que no es así, porque nuevamente hablamos del sistema de la lengua. De ahí que sí puedas hacer el estudio de estos autores sobre la base de corpora textuales. Estás extrapolando la objeción metodológica que se le hace a ciertos tipos de lingüística a otro tipo de lingüística que no tiene ese problema: si estudias la sintaxis, y dado que la sintaxis oracional es totalmente diferente dependiendo de si escribes o si hablas, usar un corpus textual para sacar conclusiones sobre la lengua oral es tendencioso. Ahora bien, ¿has notado alguna vez que usaras menos o más artículos determinados cuando escribes que cuando hablas? ¿Has evitado alguna vez usar un verbo irregular porque temías que, al pronunciarlo, en lugar de escribirlo, no fuera a entenderse? Obviamente, no. Por eso seguramente tú misma te darás cuenta de que tu reproche al respecto contra los autores del estudio que comentas no procede.

4. Ahora estaba dudando de si usar contigo la dureza que usas contra los investigadores que criticas, porque te aseguro que no entiendo lo que intentas decir cuando sostienes que haber explicado el 50% de la variación en base a la frecuencia "equivale a NO indicar nada" porque "nos está diciendo que el otro 50% de las palabras analizadas NO se ajusta a este mecanismo". ¿Cómo que "nada"? ¿Si tú necesitas 100 cosas y alguien te da 50, consideras que no tienes "nada" porque te faltan otras 50? Según este razonamiento, cualquier teoría que explique un 50% del lenguaje hay que desecharla. Pues dado que no hay ninguna que llegue ni al 5%, siendo optimistas, ya me dirás a qué nos dedicamos.

Y por otra parte, ¿te parece poco? Piensa que, como los autores dicen, no es "la frecuencia" sino "sólo la frecuencia". Tú misma sugieres la infinidad de factores externos que pueden motivar cambios en el léxico: sabiendo que la gente no habla al azar, sino al hilo de las circunstancias, resulta cuando menos llamativo que, pese a todo, el papel de las circunstancias sea éste sí sólo del 50%: uno no tiene por qué esperar mucho de la simple frecuencia, pero sí que se esperaría mucho más de la "cultura". Y sin embargo, según el estudio, el 50% de las palabras cambian más cuanto menos se usan y viceversa. Eso quiere decir que sólo el 50% restante no cambian tanto o tan poco como su propio uso haría esperar, y que sólo ese 50% se mantienen o se abandonan por razones externas que son las que, en su caso, determinan el uso. Si asumiéramos que la gente dice "yunque" cada vez que ve un yunque, entonces una circunstancia externa (la presencia del yunque) nos estaría haciendo usar esa palabra el 100% de las veces. Pero estamos hablando del 50%: eso quiere decir que la gente sólo se refiere al yunque la mitad de las veces que lo tiene delante. ¿Qué pasa la otra mitad de las veces? Pues seguramente que se usan paráfrasis, pronombres, "eso", "ahí", etc. O lo que es lo mismo, a pesar de las modas, las tendencias, los oficios, las manías, las fobias y las filias, la cultura, el leer palabras en libros o el inventárselas, a pesar de todo lo que puede salir de la mente de los seres humanos, resulta que el 50% del tiempo las palabras se usan o dejan de usarse no porque haya o no un yunque (i.e. según el uso referencial prototípico de los términos), sino porque la palabra "yunque" como palabra se usaba poco y la gente la olvidó, i.e. por razones metalingüísticas. Lo que este estudio quiere decir es que nos creemos dueños de nuestra lengua y, sin embargo, el 50% del tiempo la estamos perdiendo por el camino (y, como contrapartida, creándola de nuevo, por lo general haciendo ciencia, experimentando y acuñando nuevas palabras mientras hacemos observaciones y disfrutamos de maravillosos atarcederes mientras recabamos datos así, tan hedonistamente).

Yo creo que sí es un señor dato: el 50% de las palabras ven su vida o muerte determinada por el número de veces que han aparecido en escena y no porque hagan falta realmente para expresar la idea a la que se referían (si una palabra falla, se busca otra y punto). Si quieres extraer conclusiones de ello, entiéndelo como que las palabras sólo se perpetúan o se abandonan por decisiones "culturales" (i.e. fruto del libre albedrío o del tenor de los acontecimientos) el 50% del tiempo. Es decir, que nuestro comportamiento como agentes cognoscentes sólo influye en nuestro comportamiento verbal el 50% del tiempo; el resto es lo que Chomsky intentó borrar del mapa científico llamándolo "performance". Entenderás el valor de este estudio, así pues, si eres consciente de la relevancia teórica de esta distinción y de sus implicaciones: lo que en teoría no se podía ni estudiar, ahora resulta que puede hasta calcularse. Y es justo el 50%.

Así las cosas, estos estudios no parecen tan insignificantes, después de todo, ¿no crees?

En fin, con esto acabo. Sólo espero a) no haberme hecho especialmente pesado, b) no haber resultado ofensivo en ningún momento (por haber verbalizado tan numerosas discrepancias o por mi mucha vehemencia) y sí c) haberme hecho entender y, sobre todo, haber hecho entender.

¡Gracias por vuestro tiempo!


Ríngelront

Concha Campos dijo...

Hola Ríngelront!

Lo primero que he de hacer es agradecer tu intervención. Eso quiere decir que haber sido vehemente, severa y exagerada me ha servido para que alguien se anime a llevarme la contraria. No hay nada que me guste más que me digan que no tengo razón…Así que me encantaría que intervinieses más porque tus comentarios son así un contrapunto, como tú dices, necesario siempre (a no ser que uno sea partidario del pensamiento único).

Una de las desventajas de los blogs es que si profundizas mucho en un tema, se te alarga la entrada de mala manera y eso espanta a los posibles lectores. Lo sé porque ya me lo han comentado sutilmente varios compañeros y amigos. Una buena táctica es resaltar ciertos temas, o problemas, o puntos contradictorios, como yo he hecho. Sin embargo, el espacio de comentarios me parece un buen formato para explayarnos luego, si queremos, en discutir a fondo lo que nos parezca conveniente.

Tu intervención es muy rica en detalles, así que, para no andar de arriba abajo en la ventana de comentarios para ver lo que tú dijiste y lo que yo te contesto, lo que haré es copiar los puntos de tu comentario que merecen, según yo lo veo, matización. Te he de decir que me ha costado bastante entender ciertos pasajes, como el del “yunque” (debe ser la medicación del resfriado).

Dices en el primer punto:

“hay gente convencida de que hay algo llamado "Lengua-I" que es propio y distintivo de nuestra especie y que, por lo tanto, aceptados los axiomas de la biología, no debería de ser susceptible de cambiar culturalmente (con lo que la "obviedad" ya no lo es tanto, ¿no crees?)”.

Con este comentario aludes al que hice yo: que es una obviedad que se piense que los cambios acontecen en contexto. Citas a los formalistas (con Chomsky a la cabeza, claro) para hacerme ver que no es tan obvio, que hay eminentes lingüistas que piensan que la lingüística debe explicar sólo la forma y olvidarse del funcionamiento. Algo así como que la medicina debe dedicarse a diseccionar cadáveres y ver de qué consta el cuerpo humano, porque de la fisiología ya se encargan otros que no son médicos. Yo, al afirmar que es una obviedad que el lenguaje sólo puede explicarse teniendo en cuenta el contexto, estoy implícitamente alineándome con los no-formalistas (funcionalistas, cognitivistas, tipologistas, antropólogos y sociólogos del lenguaje, y un largo etc.). Por tanto, debería haber dicho: “para buena parte de los lingüistas es una obviedad…” Mea culpa.
Pero, imaginémonos que soy una chomskyana convencida, entonces te diría que tu argumento es inexacto: la Lengua-I por fuerza no puede cambiar con arreglo a factores externos a la mente, ya que se refiere a la “facultad u órgano del lenguaje”. Lo que son distintas son las lenguas, que resultan de las diferentes formas en que los hablantes realizamos o codificamos (para utilizar el término formalista: las distintas “parametrizaciones”) los principios fundamentales del lenguaje humano. Resumiendo, para los formalistas lo biológico, lo común a la especie es la Lengua-I, que luego se externaliza de distintos modos. La lingüística para ellos, ha de tratar de elucidar en qué consiste esa facultad del lenguaje que es inmune a los cambios y los factores funcionales y culturales. Aunque no niegan la labor de esos otros especialistas que se dedican a la antropología ling, a la socioling, a la pragmática, etc., lo que no aceptan es que sus premisas no sean preeminentes desde el punto de vista teórico, respecto del resto de teorías en esos otros ámbitos. Por tanto para los formalistas está claro que la Lengua-I, tal como la definen, no puede cambiar culturalmente: lo que cambia es la Lengua-E.

Por otro lado, y para ser justa con los formalistas, he de decir que hay algunos de ellos bastante moderados, como Newmeyer, que aceptan que hay partes fundamentales de la estructura lingüística que están profundamente influenciados por factores funcionales y cognitivos. Pero aquí ya nos desviamos un poco del tema del comentario.

Este argumento de la Lengua-I lo unes con la idea de que en Lingüística hasta ahora no se daba explicación a las excepciones, lo cual es un tanto desconcertante: no encuentro la relación teórica entre ambas cosas. No logro ver cómo conectas la teoría innatista con las reglas y las excepciones. Quizás quieras aclararlo en otro comentario.

En cuanto a esto último: es verdad, tienes razón. Hasta hace poco, en morfología, las irregularidades, las excepciones, eran lo sobrante. Es normal que a todo el mundo estorben las excepciones, los casos que o bien son un contraejemplo a tu teoría o bien no tienen nada que decir sobre ella. Lass, sin embargo, en una obra muy recomendable, estudió el fenómeno de la exaptación lingüística, que explica que, periódicamente, las lenguas reutilizan morfemas ya desemantizados y les dan un nuevo uso, una función nueva. Las lenguas, según él, reciclan material usado y tirado. Para mí esta es una obra que demuestra que no todos evitan el “linguistic junk” (la basura ling). Pero, por lo general, en todas las ciencias se tiende a evitar dar explicación a las irregularidades, creo yo.

En ese mismo párrafo dices:

“Por eso creo que el artículo que citas es una gran noticia: al haberse demostrado que la regularidad o irregularidad de un verbo puede predecirse cuantitativamente a partir de una muestra de lenguaje,…”

Bueno, si lees bien los resultados y la conclusión verás que el estudio no demuestra eso en absoluto. Demuestra, y eso es de lo que me quejo, algo que ya se sabe en Lingüística: que existe el denominado “analogical levelling” o sea el cambio morfológico por analogía al paradigma regular. Las formas regulares, en tanto que formas no marcadas y mayoritarias ejercen una fuerza centrífuga sobre toda aquella forma irregular debilitada (por el poco uso). Esto es más viejo que el hambre. Y lo dice la famosa ley de Zipf que tú invocas: “a segment will remain phonogically stable so long as it remains within its range of acceptable frequency of incidence, but, if it becomes either too frequent or too rare, it is susceptible to phonological change” (Trask, 2000: 371).
Por tanto, desde el punto de vista teórico, el estudio sólo confirma lo que ya sabíamos.

Más tarde dices:

“Concha, también considero excesivamente severo (y metodológicamente poco fundamentado) tu reproche de que "antes de dar por científicamente válido el supuesto algoritmo de regularización, éste se ha de comprobar en un buen número de otras lenguas": no se están midiendo variables dependientes de la lengua… no creo que los resultados de este estudio vayan a verse contradichos ni sustancialmente modificados con una muestra mayor. Como ya te he dicho, en él se cuantifica una variable independiente de la lengua”.

Primero, me costó bastante darme cuenta de que no hablabas de variables dependiente e independiente desde el punto de vista estadístico, sino dándoles la acepción común de “que depende” y “que no depende de”. Que digas que la frecuencia de uso de los verbos irregulares y su proceso de regularización es independiente de la lengua me deja pasmada, pero más cuando lo corroboras con la metáfora en que igualas las diferentes lenguas con sucursales del Corte Inglés: ¿para qué estudiar lo que pasa en todas los centros si podemos observar lo mismo en el de Plaza Catalunya, por ejemplo? Pues, para empezar, ¿por qué los autores han escogido cuatro lenguas (si no recuerdo mal) para hacer su estudio y no una?
¿Sabes cual fue uno de los principales reproches al primer modelo de Gramática Universal chomskyano, la del proyecto generativo-transformacional? ¡Pues que se basara en el inglés para formalizar las características de nuestra facultad del lenguaje! ¿Cómo vas a extraer una teoría general sobre el lenguaje de una sola lengua? Pues esto es lo defiendes tú.
Además, por mucho que todas las lenguas tengan más verbos regulares que irregulares (eso las que tengan morfología, claro) lo que está en juego no es la cantidad de verbos de una u otra clase, si no ver si la frecuencia de uso en todas las lenguas estudiadas tiene el mismo grado de incidencia (o correlacionan del mismo modo) sobre un hipotético proceso “universal” de regularización. Ese uso es imposible que sea el mismo, matemáticamente hablando, en una lengua que otra. Es irreal.


Luego comentas:

“Lo que cambia de lengua a lengua es la cultura, el vocabulario, pero no las pautas estadísticas”.

Bueno, las lenguas no tienen cultura que yo sepa. Pero, quizás has querido expresar algo diferente. En cuanto a que no cambian las pautas estadísticas: ¡pues no tendríamos variación! Las pautas estadísticas sí cambian, pero eso no quita que podamos observar procesos o tendencias de cambio universales. La tipología lingüística se basa precisamente en descubrir lo general, lo común que subyace a la variabilidad, a las diferencias.

En ese mismo párrafo dices:

“A mí, al menos, no se me ocurre ningún factor por el que otra muestra poblacional debiera usar menos verbos irregulares. ¿O sabes tú si en Mallorca o en Jaén tienen algún problema con, p.ej., las preposiciones, y las usan con una frecuencia estadísticamente menor?”

Aquí haces toda una argumentación sobre un término que no quiere decir lo que tú asumes que quiere decir: en estadística una muestra poblacional no define una muestra de personas (aunque podría ser así, si el estudio va sobre personas): define una muestra de elementos extraídos del universo de elementos. Por tanto en estadística una población puede ser bacterias, preposiciones, hamburguesas, niños o hámsters. Quizás debiera haberme ahorrado el término.

En el punto 3 defiendes que extraer datos de uso de corpora textuales es totalmente lícito y deduces que yo he querido decir que la gente no habla igual en una modalidad (la oral) como en la otra (la escrita). Dejemos ahora de lado que eso es totalmente cierto (por ejemplo, en los textos escritos te encuentras muchísimos menos verbos “comodín” como “hacer”, “dar”, “poner”, “ir”, que se sustituyen, debido a cuestiones estilísticas, por sinónimos más cultos como “llevar a cabo”, “otorgar”, “depositar” o “dirgirse”). Realmente esa no era mi objeción, si te fijas bien, al uso de los corpora escritos: mi objeción es que los profesionales que escriben los textos que constan en esos corpora (textos literarios y periodísticos en su mayoría) no son la gente de a pie y por tanto esos textos no reflejan en absoluto el uso normal de esos ítems, (¿o crees que los corpora incluyen cartas, diarios, agendas y sms?)
Cuando se publican estudios sobre el uso del catalán por los niños catalanes de, pongamos por caso, primaria ¿crees que se dedican a recopilar redacciones? No, van a los colegios, a los patios, a los parques, a las casas y graban conversaciones reales en tiempo real. Esos señores sí pueden demostrar correlaciones entre la variable objeto de estudio y otras como el sexo, la lengua materna, la clase social, la localización geográfica, etc.


En el punto 4 dices:

“…te aseguro que no entiendo lo que intentas decir cuando sostienes que haber explicado el 50% de la variación en base a la frecuencia "equivale a NO indicar nada" porque "nos está diciendo que el otro 50% de las palabras analizadas NO se ajusta a este mecanismo". ¿Cómo que "nada"? ¿Si tú necesitas 100 cosas y alguien te da 50, consideras que no tienes "nada" porque te faltan otras 50?”

Es obvio que la comparación no se sostiene. Yo te hablo de una apreciación objetiva de un porcentaje y tú me lo comparas con lo de la botella medio llena… El argumento que sigo defendiendo es el mismo:
Que el 50% de los verbos irregulares se regularicen debido a su alta frecuencia de uso ¿significa que el alto uso es la variable que define su regularización? Dicho de otra forma: se constata que la mitad de los verbos regularizados son de uso muy frecuente y por tanto que la otra mitad no lo es, ¿por qué inferimos, entonces que una alta frecuencia de uso es la “causa” de la regularización?

Sigo pensando que un 50% en un estudio es un promedio neutro respecto de la hipótesis de partida: ni la confirma, ni la rechaza. Voy a poner un ejemplo donde se ve más claro: si sale Pere Navarro y nos dice que el 50% de los muertos en carretera en 2007 no llevaban puesto el cinturón, ¿nos indica este estudio que el cinturón salva vidas o que no las salva? Piénsalo bien. Además, en la investigación lingüística esa conclusión no tiene mayor repercusión que la de ser “creída” por un sector de los lectores, pero en otras ciencias, como la medicina, sencillamente no creo que te publicaran un estudio semejante ¿Comercializaría alguna farmacéutica una vacuna contra el cáncer de colon que tuviera un 50% de éxito?
Si algo aprendí en mi corta experiencia con la inferencia estadística es que los promedios son un poco engañosos, lo mismo que las medias, que pueden “inflarse” o “desinflarse” debido a la inclusión en la muestra de valores extremos (todo el mundo sabe que una muestra poblacional puede tener un salario medio de unos 3000 euros y si embargo que no haya nadie en absoluto que cobre eso: que hayan unos cuantos que cobran 8000 y una mayoría que cobra 600).

Otro peligro al estudiar el comportamiento humano está relacionado con extraer una sola variable para explicar una situación donde múltiples variables entran en juego: De esos 50% de personas que murieron en el ejemplo anterior, ¿cuántas conducían ebrias, cuántas llevaban un coche de más de diez años, cuántas conducían un coche de menos de 24.000 euros, cuántas conducían de noche? etc., etc., etc.
Precisamente en la frase final de la entrada lo que hago notar es que los autores abstraen, en un ejercicio de lingüística ficción, el “uso”, de los factores culturales, funcionales y sociales, como si el uso fuera un ente desligado de los “usadores” y del momento y el lugar en que se lleva a cabo.

En el último párrafo haces una serie de afirmaciones con porcentajes que no tiene nada que ver con los resultados del estudio:

“el 50% de las palabras ven su vida o muerte determinada por el número de veces que han aparecido en escena”.

“Lo que este estudio quiere decir es que nos creemos dueños de nuestra lengua y, sin embargo, el 50% del tiempo la estamos perdiendo por el camino”

“Es decir, que nuestro comportamiento como agentes cognoscentes sólo influye en nuestro comportamiento verbal el 50% del tiempo;”


Lo siento, pero creo que todo esto son conclusiones que tú infieres, no es la conclusión real del estudio.

Como resumen de mi punto de vista, usaré las palabras de Guy (1993:235): “The ultimate goal of any quantitaive study… is not to produce numbers (i.e. summary statistics), but to identify and explain linguistic phenomena”.

Te doy la bienvenida de Nuevo y espero leerte a menudo!!

Concha

Concha Campos dijo...

Fe de erratas:

Donde digo "alta frecuencia" en el siguiente párrafo de mi comentario anterior, está claro que debo decir "baja frecuencia" y donde digo "uso muy frecuente" debo decir "uso muy poco frecuente":

"Que el 50% de los verbos irregulares se regularicen debido a su alta frecuencia de uso ¿significa que el alto uso es la variable que define su regularización? Dicho de otra forma: se constata que la mitad de los verbos regularizados son de uso muy frecuente y por tanto que la otra mitad no lo es, ¿por qué inferimos, entonces que una alta frecuencia de uso es la “causa” de la regularización?"

Sorry!

Anónimo dijo...

¡Hola de nuevo!

Muchas gracias por la respuesta, por las referencias y, por supuesto, por las críticas. Lo cierto es que todo lo que dices me parece muy interesante y certero, e intentaré replicar con igual destreza. Importo tu metodología:

1. "imaginémonos que soy una chomskyana convencida, entonces te diría que tu argumento es inexacto: la Lengua-I por fuerza no puede cambiar con arreglo a factores externos a la mente, ya que se refiere a la “facultad u órgano del lenguaje”. Lo que son distintas son las lenguas, que resultan de las diferentes formas en que los hablantes realizamos o codificamos (para utilizar el término formalista: las distintas “parametrizaciones”) los principios fundamentales del lenguaje humano."

Cierto, la definición de Lengua-I no admitiría influencias culturales (veo que eres una chomskyana convencida ;-). Yo, como tantos otros empiristas, aún sigo esperando que alguien me diga dónde está y qué es esa supuesta Lengua-I. Dejando eso al margen, sin embargo, si invocaba verbos regulares e irregulares es porque: a) la Lengua-I ha venido siendo tradicionalmente asociada al componente generativo del lenguaje, a saber, el módulo computacional responsable de procesar sistemáticamente el lenguaje y, por lo tanto, otorgarle su creatividad y la famosa "infinitud discreta"; b) todo aquello que no se genera usando este módulo ni, por lo tanto, de una manera sistemática (i.e. las idiosincrasias), queda recogido en el léxico (o equivalente), un módulo no computacional (en el sentido relevante de recursividad lingüística); c) así las cosas, uno presupondría que uno y otro módulo tienen naturalezas diferentes (acceden a información diferente, la procesan de manera diferente, etc.); d) sin embargo, el estudio que mencionas demuestra que el input sobre el que operan tanto uno como otro módulo es sensible a la frecuencia de las palabras; e) eso quiere decir que dos módulos supuestamente disociados son sin embargo sensibles a una misma propiedad del input; f) por lo tanto, y como poco, ambos módulos beben de una misma fuente. Eso quiere decir que te quedas con un léxico, por un lado, sensible a la frecuencia, y con un componente computacional, por otro (y, para el caso que nos ocupa, el que genera la morfología flexiva verbal), sensible también a la frecuencia. Esto en sí mismo es todo un problema, porque si la Lengua-I fuera innata (i.e. si existiera algo tal como una supuesta Lengua-I innata), su producto presumiblemente no podría verse modificado por un factor ambiental como el número de veces que una palabra se oye o se deja de oír, esto es, el mayor ritmo de generación de verbos regulares no tendría por qué coincidir con su mayor o menor presencia en la muestra. En principio uno esperaría que lo irregular, lo que viene dado por el ambiente, sí variase en función de si el ambiente proporciona una mayor o menor cantidad de estímulos en tal o cual sentido, pero para aquello que es generativo y que supuestamente no depende de factores ambientales, el que la menor frecuencia (i.e. disponibilidad ambiental) determine su carácter computacional es aparentemente una contradicción frontal, hasta donde yo entiendo los datos a los que te referías (no debería ser posible que un verbo que se genera mediante mecanismos innatos deje de generarse de ese modo por oírse poco). Ahora, tienes toda la razón en que, la Lengua-I tal como viene tradicionalmente definida, no puede verse culturalmente modificada, como tampoco puede verse afectado por el ambiente el "hablante ideal" chomskyano que tú tan justamente has criticado antes, o el concepto de "dios" como entidad inaprehensible desde nuestra limitada percepción humana. Ahora, tú conminabas a no confundir la velocidad con el tocino y yo, por mi parte, insto a no confundir las artes mistéricas, el ocultismo y la astrología con la ciencia.

2. "si lees bien los resultados y la conclusión verás que el estudio no demuestra eso en absoluto."

Los autores dicen textualmente:

"We study how the rate of regularization depends on the frequency of word usage. "

Entiendo que mi redactado no ha sido afortunado. Lo incluyo aquí abajo de nuevo:

“al haberse demostrado que la regularidad o irregularidad de un verbo puede predecirse cuantitativamente a partir de una muestra de lenguaje,…”

Por "rate of regularization" entendí "la regularidad o irregularidad de un verbo" (i.e. el hecho de que un verbo sea irregular -no, como quizá tú lo hayas interpretado en un primer momento, el grado de irregularidad que un verbo dado exhiba-). Dado que lo que ellos llaman "rate" y yo "regularidad o irregularidad" depende, según el artículo, de la frecuencia del uso, y dado que la frecuencia se mide en muestras del lenguaje (i.e. corpora), de ello se sigue que, a partir de un corpus, es posible predecir, contando las ocurrencias, si un verbo va a seguir siendo regular o no. Así pues, tengo dificultades para ver el reproche que me haces en este punto.

Y, por otra parte, insisto, te puede parecer "más viejo que el hambre", pero estos autores a) han desarrollado y aplicado una metodología y b) han aislado y determinado con precisión (en relación a su muestra) una variable lingüística. Está muy bien saber que la Coca Cola lleva azúcar e hidratos, pero si no sabes la proporción exacta, no puedes fabricarla. Es prácticamente la misma distancia que hay entre la cultura popular y la física o la ingeniería: todo el mundo sabe que las nubes "están ahí arriba", pero para lanzar un cohete, hacer volar un avión o predecir el clima, necesitas cifras exactas y, sobre todo, que esas cifras no sean "tan viejas como el hambre", sino un poco menos viejas y algo más actuales. Porque, ¿estamos hablando de ciencia, no? ¿O seguimos con las ciencias ocultas, el esoterismo, la folk-science y los hablantes ideales? ;-)


3. "Que digas que la frecuencia de uso de los verbos irregulares y su proceso de regularización es independiente de la lengua me deja pasmada"

Lo sostengo.

a. He releído los artículos y me he dado cuenta de que te contradices en al menos un punto: exiges más lenguas a los autores para dar por bueno el estudio, mientras que luego les reprochas el que sus conclusiones sean de una obviedad aplastante. ¿En qué quedamos, es de validez dudosa o es aplastantemente obvio?

b. Te reto a que me demuestres que los verbos regulares del castellano son más (o menos) de manera estadísticamente significativa que los de alguna otra lengua. Fíjate en que no estoy diciendo que no dependa efectivamente de cada lengua qué verbos en particular sean regulares y cuáles no (eso sí que depende de la lengua: "cantar" es regular en castellano e irregular en inglés); lo que digo es que la proporción numérica de irregulares con respecto a regulares será en todos los casos equivalente y nunca encontrarás variaciones significativas en función de la lengua. Dejaré el ejemplo del Corte Inglés y usaré otro: si estudias las condiciones de formación del hielo y determinas que tienen alguna relación con la temperatura de congelación del auga, estarás tentada de inferir que, siempre que se alcance esa temperatura, el agua se congelará (i.e. aquí y en Rusia). Pues bien, si cuentas palabras en un corpus y determinas que, tras cada X años, un verbo irregular desaparece, parece razonable que concluyas que eso será así tanto en castellano como en ruso, por la sencilla razón de que no es posible imaginar ninguna razón por la que los hablantes rusos debieran verse tentados a cambiar verbos irregulares por regulares más frecuentemente que los españoles. Como decía, no es algo que dependa de la lengua, así que no es necesario replicar el experimento cambiando la variable "lengua" (quizá sí otras). Otro ejemplo: si estudias fonética acústica y determinas la frecuencia de los formantes de la vocal "i" para el castellano, ¿replicarás los experimentos para el inglés, pensando que van a ser sustancialmente distintos? Imposible, si suena como una "i" es que tiene esos formantes, por lo que sabes de antemano que no habrá variación: estás midiendo los formantes de la "i". Por lo mismo, los verbos irregulares ingleses no son, en tanto que irregulares, distintos de los del castellano: tanto unos como otros son irregulares. Sólo cambian léxicamente, pero no en relación a su irregularidad (ni la proporción de ésta). Por lo tanto, si mides su irregularidad, mides una variable independiente de la lengua, y no hace falta replicar el estudio para otras lenguas (si bien es siempre deseable, eso sí que te lo concedo).

c. Los autores del segundo estudio usan cuatro lenguas porque hablan de "reemplazo léxico". Necesitan usar varias lenguas para huir de reconstrucciones puramente teóricas y para que los datos sean fiables. Lo ideal supongo que sería disponer de una lengua madre como punto de referencia respecto del cual medir los cambios y, de ese modo, determinar el reemplazo, pero, a falta de datos empíricos de tal lengua, puede lograrse una cierta aproximación comparando varias lenguas que desciendan de ella y buscando la intersección de palabras comunes, por un lado, y conjuntos complementarios de palabras diferentes, por otro. Es decir, podrían medirse o bien los cambios del castellano actual respecto del indoeuropeo, o bien los cambios del castellano respecto del griego (dos lenguas indoeuropeas), asumiendo que una parte de la lengua madre de ambas será la que se mantenga constante en ambas (y cuantas más lenguas, más fiable el resultado. De lo contrario, la similaridad podría deberse simplemente a que castellano y griego hubieran tomado prestada una misma palabra, por ejemplo).


4. Replicas "Bueno, las lenguas no tienen cultura que yo sepa" a mi comentario de que “Lo que cambia de lengua a lengua es la cultura, el vocabulario, pero no las pautas estadísticas”.

Fíjate en la aposición. He escrito "la cultura, el vocabulario". Si has hecho antropología lingüística, con Carme Junyent, como supongo que sí es el caso a juzgar por tus otras intervenciones, entiendo que no debería hacer falta que te explicara la total interdependencia entre el vocabulario de las lenguas y la cultura que éstas reflejan. Es aquello tan famoso de que los esquimales tienen muchos sustantivos para hablar de la nieve allí donde nosotros sólo tenemos "nieve", o aquello de que nosotros tenemos muchas palabras para muchos trámites burocráticos que estoy plenamente convencido que los esquimales felizmente desconocen. Por pautas estadísticas invariables obviamente me refería a las pautas estadísticamente relevantes para la discusión que estábamos teniendo (i.e. los artículos preceden a sustantivos virtualmente el 100% de las veces en todas las lenguas que los tienen). Naturalmente, si en este blog, de mutuo acuerdo, empezamos a escribir porque sí palabras como "cuyo", "celosía" y "arquitrabe", sus pautas estadísticas de aparición se verán modificadas, pero siempre de manera irrelevante porque, afortunadamente, no hablamos porque sí, sino sólo cuando tenemos cosas que decir.

En cuanto al comentario sobre mi uso de "muestra poblacional", no te preocupes, si pasé a hablar de "poblaciones" (Jaén, Mallorca) no fue en referencia al uso que tú habías hecho del término como tecnicismo, sino para mostrar que la variabilidad geográfica no influye en, p.ej., el número de palabras de clase cerrada que una persona use. Entiendo que ese argumento sigue en pie.


5. "Cuando se publican estudios sobre el uso del catalán por los niños catalanes de, pongamos por caso, primaria ¿crees que se dedican a recopilar redacciones? No, van a los colegios, a los patios, a los parques, a las casas y graban conversaciones reales en tiempo real."

Y yo ahora insisto, ¿has notado que la proporción de verbos regulares varíe en una redacción respecto de una conversación en tiempo real? P.ej., quien dice "ayer fui a casa de mi amigo", ¿escribe luego "ayer ií a casa de mi amigo"?


6. "Que el 50% de los verbos irregulares se regularicen debido a su alta frecuencia de uso ¿significa que el alto uso es la variable que define su regularización? Dicho de otra forma: se constata que la mitad de los verbos regularizados son de uso muy frecuente y por tanto que la otra mitad no lo es, ¿por qué inferimos, entonces que una alta frecuencia de uso es la “causa” de la regularización?"

a. Supongo que simplemente te has equivocado al redactar: te hago notar que es al revés, los verbos irregulares se regularizan cuanto MENOR es su frecuencia, no cuanto mayor es.

b. Dices "se constata que la mitad de los verbos regularizados son de uso muy frecuente [debe entenderse que quieres decir POCO FRECUENTE] y por tanto que la otra mitad no lo es", ¿por qué inferimos, entonces que una alta frecuencia de uso es la "causa" de la regularización?"

El 50% de los verbos se regularizan por falta de uso (o viceversa), y el otro 50% de los verbos, por su parte, simplemente no se regularizan en la proporción en que haría pensar su frecuencia de uso (i.e. son menos o más regulares de lo que su uso llevaría a pensar).

No veo por ningún lado que se diga que ese 50% restante de los verbos no sigan el mismo patrón de regularización (o irregularización) por frecuencia (o baja frecuencia): es sólo que sufren otras influencias. Si el 50% de los niños han ido a clase y el 50% restante no, ¿significa eso que, de éstos últimos, ninguno ha salido de casa? En absoluto: podrían haber salido de casa y haberse averiado el autobús en el que iban a la escuela. Me parece que eres tú quien deduce que el otro 50% de los verbos queda fuera de la fórmula. Los autores creo que diferencian entre regularización "SÓLO por frecuencia", por un lado, y otro supuesto, por otro lado. Ese otro supuesto puede entenderse o bien como "no regularización por frecuencia" (como tú lo entiendes) o bien como "regularización por frecuencia condicionada luego por otros factores" (como creo que hay que entenderlo dado el énfasis de los autores en que el primer 50% varía SÓLO por la frecuencia, i.e. dando a entender que lo relevante es que aquí actúa un único factor perfectamente aislable, mientras que en el otro 50% de los casos los resultados deben predecirse en combinación con otras explicaciones. De hecho, con esta segunda lectura encaja el que afirmen "We propose that the frequency ... exerts a general and law-like influence on their rates of evolution": si los resultados avalan el cambio para el 50% de lo verbos, y si los autores afirman que "es general", entonces supongo que, según ellos, los mismos resultados y, por tanto, conclusiones, rigen también para el 50% de verbos restante, aun cuando en este caso el efecto pueda quedar diluido por entrar en juego otros factores -algo perfectamente razonable: tu modelo puede predecir que hoy lloverá porque hay unos nubarrones plomizos en el cielo, pero si de repente se levanta el viento y se lleva las nubes y no cae una gota en donde tu predijiste que iba a llover, no es que te haya fallado el modelo anterior, sino que no pudiste prever una variable hasta entonces desconocida. Por lo tanto, sigue siendo cierto que, si hay nubes plomizas en el cielo (y simplificando mucho, por supuesto), lloverá. Ahora, también puede soplar viento y, en ese caso, la predicción puede verse deformada. Pero insisto, sigue siendo cierto lo primero, a saber, que donde hay nubes grises lloverá: no se ha visto refutado; simplemente, una vez ampliada la base empírica, hay que hacerle unos cuantos añadidos al modelo. Y diría que, por lo mismo, el 50% de los verbos se regularizan sólo por frecuencia, y el 50% restante también por otras cosas y quizá en un grado diferente, pero tanto unos como otros se regularizan, universalmente, en base a la frecuencia (i.e. si no actuara nada más, todos se regularizarían sólo en base a la frecuencia), con lo que sigo considerando fundamentalmente injusta tu recriminación de que sus conclusiones no vienen avaladas o de que un 50% no es mucho. De hecho, ya te he dicho que me parece que tu interpretación es errónea: parece posible interpretar que, en realidad, el 100% de los verbos se regularizan en función de su frecuencia, si bien sólo el 50% de ellos quedaría al mismo tiempo libre de otras influencias que condicionarían el uso que esperaríamos de ellos en función sólo de la frecuencia (i.e. tu reproche no parece poder poner en entredicho la afirmación de que la regularización ocurra universalmente. Lo único que no es universal son las interferencias de otros factores sobre los efectos de la frecuencia, pero los efectos de la frecuencia sí que parecen universales).


En fin, ahora tengo que dejarlo. De todos modos, intuyo que esta es una conversación que va para largo ;-) Por cierto, estoy disfrutando, así que espero que se me note :-)


Un cordial saludo,
Ríngelront

Anónimo dijo...

Acabo de ver tu fe de erratas sobre la baja frecuencia y la alta frecuencia, de modo que la corrección que yo hacía en mi mensaje ha pasado a estar obsoleta. ¡Perdona por el solapamiento!


Ríngelront

Concha Campos dijo...

Hola Ríngelront!

Qué respuesta rápida!
Bueno, creo que ambas posturas han quedado ya claras. No hay que seguir quemando los argumentos.

Tengo una pequeña duda sobre una frase que me ha llamado la atención:

"(i.e. los artículos preceden a sustantivos virtualmente el 100% de las veces en todas las lenguas que los tienen)".

Ya que de entre las lenguas que efectivamente poseen determinantes en unas éstos preceden al sustantivo, en otras éstos suceden al sustantivo, en otras preceden y suceden al sustantivo al mismo tiempo , en otras son un prefijo del sustantivo, en otras son un sufijo del sustantivo y en otras, las pocas, existe una mezcla de mecanismos.


Por cierto, ¿estás haciendo las asignaturas de M. Carme?

Good night!

Anónimo dijo...

Hola,

En cuanto a los artículos, es justo el reproche que me haces: debí decir "acompañan", no "preceden". Lo siento. Estoy construyendo una gramática de una lengua de orden fijo en la que los núcleos preceden a los modificadores y he debido de tener un acceso de tendencias Greebergianas. Ya sabes, por aquello del "priming" estructural, que nos delata ;-)

En cuanto a las posturas, celebro que de verdad te parezca que la mía está clara, porque yo no estoy tan seguro ;-)

En cuanto a tu pregunta, lo siento pero no tengo por costumbre hablar sobre mí a menos que sea pertinente para la discusión :-)

¡Hasta pronto!


Ríngelront

Concha Campos dijo...

Hola de nuevo!

Bueno, no pretendo saber quién eres... interpreto que esa es tu intención al usar pseudonimo. Sólo contextualizarte un poco.

Eso de la construcción de una gramática debe ser un proyecto impresionante. Si necesitas ayuda, acuérdate de los compañeros!!!

Un saludo,


Concha

Eduard Abelenda i Puigvert dijo...

Mare de Déu quines discussions! La veritat és que encara no he trobat les hores que calen per seguir-vos l'argumentació. Segur que dieu coses interessantíssimes, però fins que no trobi un parell d'horetes per llegir-vos no podrà ser. Au, espero que aquest interès i ganes d'escriure continuïn. Fins aviat.

Language Continuity dijo...

He intentado seguir los comentarios pero se me ha hecho muy pesado. Pero sí que creo haber entendido los puntos más interesantes aportados por unos y otros y debo decir que básicamente estoy de acuerdo con Concha en todo.

Efectivamente, intentar calcular la velocidad del cambio lingüístico de manera estadística es un absurdo en sí mismo. Por otra parte, basar los estudios en el corpus de textos escritos y en la supuesta clasificación 'genealógica' de las lenguas indoeuropeas es un ERROR SERIO, una lacra del último siglo y medio de lingüística histórica. La aplicación de algortimos y estadísticas a datos lingüísticos no válidos no puede más que movernos a la risa. ¿Qué son las supuestas reglas gramaticales, o las famosas leyes del cambio lingüístico si TODO el análisis está basado en premisas falsas?

La pregunta es: ¿hay alguna altrenativa?, ¿hay alguna manera de estudiar la evolución de las lenguas que no parta de tales errores de método? Pues parece ser que sí. Hay gente que está analizando los datos de otra manera, y alcanzando resultados más que interesantes. Me refiero principalmente a Mario Alinei, dialectólogo italiano, creador y propulsor de la llamada "Teoría de la Continuidad". (link: http://www.continuitas.com/). Echad un vistazo a lo que dice, leed alguno de sus artículos o de los miembros de su grupo de trabajo. Después de leerlos, doy por DERRIBADO el edificio de la lingüística indoeuropea tradicional.

Leyendo los "abstracts" que nos ha presentado Concha no puedo más que echarme las manos a la cabeza al ver que la obra de Alinei y otros pasa desapercibida. Por cierto, Alinei no estudia textos antiguos ni busca clasificar las lenguas según grandes normas o reglas. Hace algo mucho más útil: estudiar los dialectos actuales, y compararlos con otro tipo de información histórico-lingüística. Una de las conclusiones a las que llega, y con la que estoy totalmente de acuerdo, es la de que hay que modificar sustancialmente las fechas que tradicionalmente se asignan al indoeuropeo. La manera tradicional de analizar los datos, básicamente centrada en textos escritos y acontecimientos históricos, hablaba de una antigüedad de unos pocos miles de años. Con el nuevo paradigma de la Teoría de la Continuidad, las fechas se remontan a mucho antes.