06 junio 2009

Lenguajes y entropía: el polémico caso del Indo

Allá por el 2600 a.C. surgió en el valle del Indo la primera cultura del Sudeste asiático de la que tenemos noticia. Pueden encontrar referencias por muchos sitios, entre ellos, lógicamente, la Wikipedia. Lo que nos interesa aquí es su "escritura": se han encontrado miles de artefactos de todo tipo con signos que, hasta el momento, no han sido descifrados. Es más, probablemente no lo sean nunca a menos que aparezcan nuevos hallazgos importantes ya que las inscripciones son muy cortas, con apenas media docena de signos de longitud media, con un record de 17 signos para el texto más largo (ver abajo) y con abundancia de inscripciones con sólo uno o dos signos. Por añadidura, se desconoce la lengua original, sus filiaciones no son seguras y no hay textos bilingües.
ResearchBlogging.org

Para mayor complicación, no hay consenso completo sobre la cantidad total de signos existente. La hipótesis minimalista señala que apenas 20 y supone que los signos son composiciones de trazos más simples que compondrían pictogramas. Parece, sin embargo, que esta interpretación es compartida por su autor y poco más. En el otro extremo, la hipótesis más generosa acumula hasta 600. Lo más admitido propone que existen entre 300 y 400 signos. Con sólo ocho de ellos ya completamos un tercio de los signos en las inscripciones descubiertas (varios miles), mientras que hay un par de cientos de signos que sólo aparecen una o dos veces en el conjunto de las inscripciones.

El recuento de 300-400 signos prácticamente excluye que el sistema del Indo sea una escritura alfabética (no pasan de 40) o silábica (40 a 100 generalmente). Actualmente se piensa que estos signos, de ser algo, serían logofonéticos pero, con este panorama algunos dudan incluso de que formen una escritura y que sería un sistema no lingüistico como, por poner un ejemplo actual, el de las señales de tráfico. En conclusión, se ha formado un curioso e intenso debate entre los partidarios de una y otra hipótesis: ¿lenguaje o sistema no lingüistico?

La inscripción más larga (17 signos) de la "escritura" del Indo.

Hace pocos días se publicó en Science un artículo titulado Entropic Evidence for Linguistic Structure in the Indus Script donde Rajesh P. N. Rao y cinco firmantes más utilizan la entropía como indicador de que sí, que esos signos del Indo forman parte probablemente de una escritura. Veremos al final, sin embargo, que alguien ha contestado en apenas unos días calificando el artículo de completamente erróneo.

Pero antes, ¿qué pinta la entropía en todo esto? La entropía, desde una de las múltiples perspectivas que se usan, puede entenderse como la cantidad de información que contiene una señal o mensaje. Un ejemplo con el sonido: un pitido de una frecuencia constante que dure cinco segundos contiene mucha menos información que un fragmento de música de la misma duración o que simplemente una escala. La entropía de un mensaje depende básicamente de dos cosas: de la cantidad de signos diferentes que aparecen en dicho mensaje (entiéndase "signo" y "mensaje" en sentido amplio) y de la frecuencia con que aparece cada uno de ellos. Como medida suele usarse la fórmula de Shannon ...
donde H es la entropía, N es el número signos en el mensaje P(i) es la probabilidad del signo i.
La cantidad total de signos depende del lenguaje y evidentemente no todos los mensajes contendrán todos los signos. Por otra parte, sus frecuencias relativas tienden a estabilizarse si los textos son suficientemente largos aunque en textos cortos pueden ser muy inestables.

¿Para qué resulta útil esto en el problema de la escritura del Indo? Bueno, la idea es que los lenguajes permiten componer secuencias de "caracteres" con ciertas libertades pero ni absolutamente aleatorias ni estrictamente deterministas. Por ejemplo, después de una b en español pueden aparecer varias letras como a, e, i, o, u, r, l... pero no puede aparecer una s o una p. (corrección, una s sí, como me recuerdan en un comentario...). Si encontramos una secuencia br sabemos que después sólo puede aparecer una vocal. Estas secuencias tiene también sus probabilidades asociadas y el análisis de todo ello se puede hacer calculando lo que se llama entropía condicional. que es la incertidumbre asociada a la aparición de un signo j después de que se ha dado uno anterior i.
Los autores del artículo han calculado la entropía condicional para el sumerio, tamil antiguo, sánscrito, inglés -letras y palabras-, ADN, secuencias proteicas bacterianas, FORTRAN, dos códigos no lingüisticos que se usan como control (Tipo 1 y Tipo 2, ver después) además, lógicamente, de los signos del Indo. Fíjense que aparecen cinco lenguajes naturales, uno artificial (el de programación) y cuatro casos no lingüísticos. Dos de ellos (ADN y proteínas) son de naturaleza muy diferente pero los otros dos, los llamados Tipo 1 y Tipo 2, son importantes porque se usan como contraste respecto a los códigos linguísticos (sumerio, tamil antiguo...).
Los resultados fueron que los signos del Indo muestra patrones muy similares a los lenguajes naturales, especialmente al sumerio y al tamil, y muy diferentes del resto, incluyendo los controles Tipos 1 y 2. Según los autores, esta similitud refuerza la hipótesis de que los signos del Indo forman un lenguaje auténtico.

Pero Steve Farmer disiente. Farmer mantiene que los signos no forman un lenguaje sino que tendrían otra función más simbólica (¿prohibido fumar? ¿zona de reunión?). Apoya su idea en la brevedad de las inscripciones, sin similitud con los cientos de lenguajes conocidos, y las frecuencias relativas de los signos, además de la ausencia de otras evidencias sobre escrituras en la zona y época. Los argumentos están expuestos en Farmer, S., Sproat, R., Witzel, M., 2004, The Collapse of the Indus-Script Thesis: The Myth of a Literate Harappan Civilization. Electronic Journal of Vedic Studies, 11-2: 19-57.

En caso es que Steve Farmer ha dado a conocer recientemente un par de páginas donde critica fuertemente el artículo de Science de Rao y colegas. Aunque aún no publicado, lo ha puesto en su página con el título A Refutation of the Claimed Refutation of the Nonlinguistic Nature of Indus Symbols: Invented Data Sets in the Statistical Paper of Rao et al. (Science, 2009). Como puede deducirse del título, Farmer afirma que hay datos inventados en el análisis y parece que no le falta razón. El problema es que los sistemas Tipo 1 y Tipo 2 usados como control son completamente artificiales y representan casos extremos: uno viene de aleatorizar doscientos mil signos y componer líneas de 20 signos equiprobables y el otro, al contrario, está completamente ordenado (a un signo concreto le seguirá otro con probabilidad 1).
Comenta Farmer que no podría esperarse que el sistema del Indo (ni ningún otro) se parezca a eso y que, consecuentemente, la comparación es completamente irrelevante y el diseño de la prueba es, consecuentemente, erróneo. En efecto, el sistema del Indo se parece a los sistemas lingüísticos tamil antiguo, inglés, etc. pero su contraste con los Tipo 1 y Tipo 2 sólo aparece porque estos últimos se han inventado y suponen casos tan artificiales que no sirven como criterio discriminante. Farmer se queja de que estos detalles, muy importantes, no están en el artículo sino en el apartado de material complementario que Science cuelga en su web y recuerda (creo que es un detalle muy importante) que sus propios análisis encuentran una estrecha similitud entre los signos del Indo y sistemas no lingüísticos reales como los signos heráldicos medievales (ver Fig. 2 de este trabajo).
La crítica en resumen es que Rao y colegas han basado las diferencias entre el sistema de signos el Indo y los sistemas no lingüísticos en datos "cocinados" e irreales, un error metodológico que, en opinión de Farmer, invalida completamente el análisis publicado en Science.

Rao, R., Yadav, N., Vahia, M., Joglekar, H., Adhikari, R., & Mahadevan, I. (2009). Entropic Evidence for Linguistic Structure in the Indus Script Science, 324 (5931), 1165-1165 DOI: 10.1126/science.1170391

6 comentarios:

Andrés Bernardos dijo...

Sólo digo un pequeño apunte: Detrás de B sí puede haber s, pero en distinta sílaba (ej.: Absoluto).

Aguafiestas dijo...

"Farmer mantiene que los signos no forman un lenguaje sino que tendrían otra función más simbólica (¿prohibido fumar? ¿zona de reunión?)"
En la foto que has puesto no se repite ni un signo. Si todas las secuencias de signos son como la de esa foto, es algo que apoyaría la hipótesis de Farmer. Se dice "prohibido fumar" una vez, no hace falta prohibirlo dos veces. Claro, que lo contrario no invalidaría a Farmer: dos signos iguale podrían ser "fumar está muy prohibido".
Perdón, me he levantado un poco espeso. Necesito un café.
Por cierto Ángel, una opinión, no me gusta cuando resaltas una frase o una palabra con letras rojas (tampoco si fueran negritas). No le veo mucho sentido, la verdad.
Por otra parte, tu blog sí me gusta. Mucho.

Angel dijo...

Andrés, correcto, voy y pongo un ejemplo erróneo coñe...

Aguafiestas, en efecto, cabe todo tipo de interpretación, incluso la de un colega mexicano que creo que diría que los signos más repetidos significan "espacio para su publicidad".
A mí me ha gustado la comparación con los signos heráldicos pero no he localizado los datos en sí, sólo los resultados.
Sobre lo del rojo: sus deseos son órdenes :-) no se repetirá entre otras cosas porque yo tampoco estaba muy seguro de la "innovación".

Aguafiestas dijo...

Así da gusto. Esto parece "blogueo a la carta"

Alvaro Uribe dijo...

Excelente blog y muy buen post, realmente llegué a tú blog por casualidad, pero he leído un par de artículos y me han parecido muy interesantes. Te seguire leyendo frecuentemente.

Un saludo.

Angel dijo...

Encontrarás un poco de todo, no siempre los posts salen redondos o interesantes pero uno hace lo que puede en función del tiempo disponible y del estado de ánimo. Gracias por tu opinión.

Grab this Widget ~ Blogger Accessories
 
º