Vista tras bambalinas del proceso para crear un diccionario tailandés

Vista tras bastidores del proceso de creación de un diccionario tailandés

This article was originally posted on WomenLearnThai.com.

Creando un diccionario tailandés…

Como la mayoría de los estudiantes del idioma tailandés, sigo agregando a una lista de palabras tailandesas que debo conocer. Comenzó en una hoja de cálculo simple con solo la palabra tailandesa y su(s) significado(s). Luego agregué si las palabras eran sustantivos, verbos, lo que sea. Cuando descubrí los clasificadores, también los agregué. Ah, y partículas corteses, partículas finales, partículas coloquiales, verbos auxiliares… parecía no haber fin a lo que necesitaba aclarar para entender el tailandés. Mi hoja de cálculo en crecimiento me dio una apreciación por los creadores de diccionarios reales.

Cuando se trata de producir diccionarios tailandeses, Benjawan Poomsan Becker de Paiboon Publishing y Chris Pirazzi de Word in the Hand han tenido una relación de trabajo exitosa. Allá por 2003, crearon una versión para Palm OS del primer diccionario Tailandés-Inglés Inglés-Tailandésde Benjawan. En 2009, trabajaron juntos en la versión en papel del mejorado Diccionario Tailandés-Inglés Inglés-Tailandés de tres vías, con la versión de software recién salida. Lo siguiente será lo mismo para el iPhone.

A principios de este año, Chris Pirazzi me pidió si podría ayudar a probar en versión beta su diccionario de software. El tiempo no me permitió participar adecuadamente, pero pude revisar cada versión preliminar enviada. Al hacerlo, me despertó la curiosidad sobre la creación de un diccionario real. Cuando me acerqué a Chris con la idea de una entrevista, él estaba feliz de acceder.

Chris, ¿qué te impulsó a escribir un diccionario?

¡Vaya, esa es la pregunta correcta! En su pionero Diccionario de la Lengua Inglesa de 1755, Samuel Johnson definió con su característico ingenio “lexicógrafo” como “Un escritor de diccionarios; un indigno trabajo que se ocupa de rastrear el origen y detallar el significado de las palabras.” Kun Benjawan comenzó su primer diccionario en 2001, y ambos comenzamos nuestro proyecto de diccionario ampliado en 2007, con una fuerte pasión por crear los primeros diccionarios Tailandés-Inglés-Tailandés que realmente sean útiles para no nativos tailandeses que están aprendiendo el idioma tailandés. Durante este proceso, aprendimos lo increíblemente difícil y laborioso que es producir un buen diccionario, y ganamos gran respeto por pioneros como Johnson y la fallecida Mary Haas, pero gracias a nuestro fuerte deseo de avanzar en el campo, pudimos completar tanto las versiones en papel como de software, ¡con más por venir!

¿Qué lo hace tan difícil?

Crear un diccionario es una tarea tan abrumadora, antes y ahora, simplemente porque desafía casi cualquier tipo de automatización. Para nuestro nuevo proyecto de diccionario que comenzó con el diccionario en papel de 2009, usamos bases de datos, software desarrollado internamente y otras tecnologías para agilizar tantas tareas potencialmente repetitivas como fuera posible, pero en el corazón de todo está algo que incluso las supercomputadoras más poderosas de hoy no pueden tocar: el significado.

Para ver a qué me refiero, escribe cinco palabras comunes en inglés y luego trata de pensar en todos los significados de esas palabras que conoces. Luego, busca esas palabras en un gran diccionario como dictionary.com, y te sorprenderá cuántos significados adicionales hay—significados simples, cotidianos que conoces y usas a menudo—que olvidaste listar. Al leer los diferentes significados de dictionary.com, al principio es probable que digas “Hmm, esos dos son el mismo significado,” pero cuando los lees de nuevo te das cuenta de que los significados son completamente diferentes, y solo juntaste esos significados en tu cabeza porque suceden mapearse a la misma palabra en inglés.

Como humanos, estamos acostumbrados a tener un pensamiento y luego buscar la palabra para ese pensamiento en nuestro cerebro para poder hablarlo o escribirlo, pero no al revés. Rara vez en nuestras actividades cotidianas necesitamos encontrar todos los significados de una palabra dada. Y puedo decirte por experiencia que si ejercitas esta habilidad mental durante más de una hora más o menos, tu cerebro comienza a sobrecalentarse. Si lo haces durante días, semanas y meses seguidos, arando tu camino a través de la lista aparentemente interminable de palabras que compone incluso el diccionario más básico, comienzas a tener una idea de por qué le tomó a Johnson nueve años completar su diccionario inglés-inglés, por qué el primer OED tomó casi 50 años para completarse, y por qué muchos lexicógrafos se vuelven cada vez más desconectados de la realidad 🙂

¿En qué se diferencia crear un diccionario bilingüe?

El segundo idioma agrega toda una nueva dimensión de complejidad. Cada palabra inglesa (por ejemplo, “glass”) tiene un cierto conjunto de significados (por ejemplo, “vidrio (de beber)”, “vidrio (plancha)”), cada uno de los cuales puede (o no) traducirse a un conjunto de diferentes palabras tailandesas, y cada una de esas palabras tailandesas, a su vez, tiene un determinado conjunto de significados, cada uno de los cuales podría traducirse a un conjunto de diferentes palabras en inglés. En este sentido, un diccionario bilingüe es como una red enredada de enlaces de ida y vuelta, y nuestro trabajo es revelar esa red para cada palabra que el lector podría buscar.

Idiomas como el tailandés agregan complejidad adicional porque a menudo hay múltiples palabras diferentes que uno debe elegir según el contexto social (similar a “comer” vs. “devorar” vs. “cenar” vs. “consumir” en inglés, pero este fenómeno ocurre mucho más comúnmente en tailandés que en inglés); nuestros diccionarios indican al lector cuándo una palabra tailandesa está cargada de tal manera. Muchos diccionarios Tailandés-Inglés ignoran esta realidad crítica, y así sus usuarios terminan diciendo cosas como “¡Oye amigo, ¿cómo te va? ¡Vamos a consumir sustento en el puesto de hamburguesas!”

El único lujo que tenemos que Johnson no tenía es que podemos asumir que el lector ya es experto en uno de los dos idiomas. Pero el resultado que producimos es, por lo tanto, solo útil para lectores que son expertos en ese idioma: es una falacia que un diccionario bilingüe puede ser igualmente útil para lectores nativos tanto en inglés como en tailandés.

Los clasificadores son otro punto importante. En tailandés no puedes decir “dos coches,” “este coche,” o “ese coche” sin saber el clasificador especial tailandés para “coche,” y cada sustantivo que puedas querer usar de esta manera tiene uno o más clasificadores diferentes que tienes que aprender. Los diccionarios destinados a los tailandeses suelen omitir el clasificador para la mayoría de las palabras, porque son “obvios” para el lector tailandés. Pero nosotros, los aprendices de tailandés, necesitamos conocer el clasificador para cada sustantivo tailandés que los tenga, por lo que eso es lo que proporcionamos en nuestros diccionarios. ¡Probablemente tenemos la lista más grande de clasificadores tailandeses jamás ensamblada!

Finalmente, las guías de pronunciación y grabaciones de sonido son el último factor que completa un diccionario bilingüe. Hay tantos “diccionarios parlantes” a la venta en los centros comerciales de Tailandia, pero casi todos ellos solo hablan en inglés. A menudo, el vendedor intentará engañarte resaltando la guía de pronunciación para una palabra tailandesa (p. ej., “sanuk”) y presionando el botón “habla”. Pero esto solo hace que la pequeña unidad trate de usar su voz robótica inglesa áspera para pronunciar la palabra tailandesa como si fuera una palabra inglesa real, y el murmullo sin tono resultante es típicamente irreconocible para cualquier oyente tailandés.

Un verdadero diccionario de software bilingüe debe tener grabaciones de sonido de un hablante nativo del idioma objetivo que se va a aprender. Y un verdadero diccionario bilingüe de cualquier tipo (software o no) debe tener un sistema de guías de pronunciación escritas que sea lo suficientemente completo como para que nosotros, los aprendices de tailandés, tengamos al menos una oportunidad de ser entendidos. Eso significa que el sistema de guía de pronunciación debe incluir los tonos tailandeses, y debe tener una manera única de escribir cada sonido vocal y consonante del tailandés que pueda diferenciar palabras. La mayoría de los sistemas de guía de pronunciación (como los que se ven en los letreros viales tailandeses y en los videos de karaoke, pero incluso algunos que se encuentran en los materiales de aprendizaje del tailandés) fallan inmediatamente en esta prueba porque omiten los tonos, omiten las longitudes vocálicas, y mapean muchas vocales comunes al mismo símbolo escrito.

¿Cómo lidian otros con estos desafíos de crear conjuntos de datos bilingües para los aprendices de tailandés?

Principalmente no lo hacen. La gran mayoría de los diccionarios impresos y de software bilingües, particularmente en Tailandia, son copias directas de otros trabajos (en la mayoría de los casos, escaneados y pirateados sin licencia ni dar crédito, y rara vez con alguna edición). Casi todos los diccionarios de software y web que existen actualmente utilizan los mismos datos de LEXiTRON de alrededor de 1995 liberados gratuitamente al público por la agencia tailandesa financiada por el gobierno conocida como NECTEC. Los datos de LEXiTRON, aunque son un recurso increíble, valen cada baht: tienen un conteo de palabras muy grande, pero contienen un número enorme de errores en ambos idiomas, y, desafortunadamente para nosotros los aprendices de tailandés, fueron diseñados pensando en las necesidades de una persona tailandesa aprendiendo inglés. Así que todos los textos explicativos (por ejemplo, las palabras “drinking” y “pane” en “glass (drinking)” vs. “glass (pane)”) están en tailandés, no en inglés. Cuando buscas “glass,” o casi cualquier otra palabra, nunca puedes estar seguro de qué significado(s) estás obteniendo. “¿Puedo tener otra lámina de cerveza, por favor?”

Eso explicaría por qué hay tantos diccionarios de software, por ejemplo, para iPhone, pero por qué los diccionarios disponibles son tan uniformemente terribles. Los autores intentan tomar un atajo para evitar literalmente años de trabajo de edición arduo, pero la utilidad de su trabajo está finalmente limitada por la naturaleza errónea y centrada en el hablante nativo tailandés de los datos subyacentes.

Los conjuntos de datos gratuitos (o pirateados) actualmente disponibles tampoco incluyen guías de pronunciación que sean útiles para aprendices de tailandés como nosotros (a menudo brindan guías de pronunciación solo para las palabras en inglés) y como resultado, muchos de los “re-empaquetadores de software” utilizan un programa informático para generar sus guías de pronunciación tailandesas directamente a partir del script tailandés. Desafortunadamente, el tailandés escrito es lo suficientemente irregular como para que un enfoque automatizado sea extremadamente inexacto, y por lo tanto, hasta el 30-40% de las guías de pronunciación resultantes están equivocadas (a menudo tan desviadas que no tienes ninguna posibilidad de ser entendido). No hay sustituto para tener a un experto nativo tailandés que edite manualmente todas las guías de pronunciación.

Por eso decidimos embarcarnos en la tarea casi insana de crear un conjunto de datos de diccionario Tailandés-Inglés completamente nuevo desde cero. La última vez que esto se intentó, aparte del increíble trabajo en los años 60 por parte de Mary Haas, fue probablemente en los años 30 cuando el prisionero político Sor Settabut completó su conjunto de datos mientras estaba atrapado en Ko Tarutao y en varias otras cárceles tailandesas, ¡y probablemente esta es la única razón por la que pudo terminarlo! Dado que nuestro público objetivo son personas que están aprendiendo tailandés, nos propusimos incluir clasificadores, niveles de formalidad y guías de pronunciación completamente editadas por nativos tailandeses con cada palabra tailandesa.

Este nuevo esfuerzo requiere que hagamos una enorme y continua inversión de tiempo, trabajo y dinero, pero creemos que el resultado es mucho mejor que cualquier otra cosa que exista, y que valdrá la pena. Como todos los creadores de diccionarios, nuestros editores tienen montones gigantes de diccionarios de referencia existentes esparcidos por nuestras mesas, e incluso descubrimos que la búsqueda en Google es una herramienta de corpus fantástico para encontrar usos monolingües de cualquier palabra en inglés o tailandés “en el mundo real” (como Rikker Dockum de Thai 101 ha señalado a menudo), pero el elemento clave intensivo en mano de obra que produce tanto valor es el toque humano: evaluar críticamente y sintetizar los datos de investigación disponibles para crear un conjunto de entradas de diccionario útiles.

¿Paiboon Publishing no tenía ya un diccionario antes de 2009?

Sí. Kun Benjawan lanzó su primer diccionario en papel Tailandés-Inglés-Tailandés en 2001, completo con la innovadora sección de “Sonido Tailandés” donde puedes buscar una palabra por su guía de pronunciación sin tener que saber script tailandés. Esta fue la primera oportunidad de pasar por todo el proceso. Yo usé este mismo conjunto de datos para producir el software de diccionario Tailandés-Inglés-Tailandés Word in the Hand para Palm OS PDAs en 2003. Alrededor de 2007, comenzamos un proyecto de diccionario mucho más amplio, cuyos primeros resultados son el nuevo diccionario compacto en papel Tailandés-Inglés-Tailandés de 2009 y el reciente lanzamiento del Diccionario Parlante Tailandés-Inglés-Tailandés para PC con Windows.

¿Qué aprendieron después del primer proceso?

Mucho. La primera vez, Kun Benjawan realizó gran parte del almacenamiento y edición de datos de manera manual. La segunda vez, aprendimos a usar bases de datos para almacenar todas las palabras de una forma que pudiera ser repuesta fácilmente tanto a un resultado en papel como en software, y escribí bastante software personalizado que nuestro equipo de edición usa para verificar cada entrada en detalle en el momento en que se escribe, lo que nos ayuda a evitar todo tipo de problemas de formato y omisiones (como guías de pronunciación que no coinciden con la palabra tailandesa correspondiente, clasificadores faltantes, etc.). Gracias a la base de datos, también podemos tener grandes cantidades de personas trabajando en el conjunto de datos al mismo tiempo sin pisarse los cambios, y aún más útilmente, podemos distribuir a nuestro equipo geográficamente alrededor del mundo. En este momento, tenemos editores trabajando en California y en Tailandia. La base de datos también nos permite llevar un seguimiento fácil del estado de edición de cada palabra, ya que nuestra política es que cada palabra sea revisada tanto por editores nativos tailandeses como por editores nativos de inglés.

En la segunda vuelta, también aprendimos mucho sobre qué información incluir en cada entrada para que fuera útil para el aprendiz de tailandés. Agregamos los indicadores de formalidad, el acento silábico y los clasificadores, refinamos la lista de partes del discurso y agregamos marcadores de posición en ciertas expresiones verbales para que sepas dónde colocar el objeto (como en “ao ___ maa” para “traer ___”), y ahora tenemos un sistema mucho mejor para asegurar que proporcionemos los significados de cada palabra en inglés que correspondan a las traducciones tailandesas dadas.

¿Entonces el conjunto de datos está terminado?

Para nada. El conjunto de datos contenido en el diccionario de software de 2010 es aproximadamente un 40% más grande que el contenido en el diccionario en papel de 2009, y contiene un buen conjunto de palabras útiles, pero incluso antes de que el diccionario de software saliera, ya habíamos comenzado a trabajar en un conjunto de datos mucho más grande. Esperamos al menos duplicar el tamaño de nuestro conjunto de datos para finales de 2010, y lanzaremos estos datos ampliados para quienes compren el diccionario ahora como una actualización gratuita. Planeamos seguir trabajando en los datos durante varios años, hasta que tengamos un conjunto de datos grande del tipo adecuado para volúmenes de referencia de biblioteca.

¿Fue divertido?

Sí. Una diferencia clave entre tu típica producción lingüística corporativa y nuestro esfuerzo de diccionario es el elemento de diversión tailandés, como lo demuestra este video que Kun Benjawan y algunos de nuestros editores armaron:

¿Cómo eligen qué vocabulario incluir y qué dejar fuera?

Esto fue súper difícil para el diccionario de papel compacto, especialmente dado que tener texto tailandés grande y legible era una prioridad muy alta para nosotros. Tuvimos que hacer algunos compromisos difíciles al decidir qué palabras dejar fuera para mantener el diccionario “compacto”.

Para el software, por supuesto, el espacio impreso no es un problema. El espacio en disco es algo relevante, porque cada palabra tailandesa en nuestro diccionario incluye su propia grabación de audio de alta calidad hecha por un hablante nativo de tailandés, pero la restricción no es tan grande como en el caso impreso. La principal restricción se convierte en el tiempo de desarrollo, y el compromiso que debemos decidir para enviar el proyecto en este milenio es: “¿nos enfocamos en cantidad o calidad?”

La respuesta es clara. Ya hay muchos diccionarios que citan en su material de marketing enormes cantidades de palabras en tailandés e inglés, pero que contienen grandes cantidades de errores y/o guías de pronunciación inutilizables. Decidimos dedicar mucho más tiempo a cada entrada, revisando cada entrada, incluyendo sus guías de pronunciación, a través de editores nativos tanto de tailandés como de inglés. En cada etapa de edición, nos enfocamos en definir bien las palabras más útiles, en lugar de producir grandes listas de palabras raras sin intervención humana. Ahora tenemos un conjunto muy útil de palabras, y creemos que para finales de 2010 habremos cubierto el 95% de las palabras que la gente busca.

Extrañamente, las fuerzas del mercado tienden a alejar todos los diccionarios de la calidad. Cuando las personas buscan un diccionario, tienden a dar un peso desproporcionado al conteo de palabras publicado (fácil de hacer, ya que está impreso por fuera) y no descubren hasta después de comprar que el diccionario es inútil para ellos, porque está lleno de errores, porque sus entradas no están diseñadas para sus necesidades, o porque las palabras en sí resultan no ser muy útiles.

En realidad es bastante impactante lo que algunos vendedores han hecho para alcanzar las cifras astronómicas de conteo de palabras que citan. El truco típico es encontrar enormes listas (generalmente de palabras raras) disponibles gratuitamente en internet, e importar esas listas mecánicamente sin ningún tipo de edición humana. El proceso de importación completamente electrónico puede darle al autor solo unos minutos para completar, resultando en un gran incremento en el conteo de palabras que capta la atención de compradores potenciales, pero no agrega a la utilidad del diccionario de manera apreciable. Por ejemplo, muchos diccionarios han importado mecánicamente listas de decenas de miles de especies de plantas, especies de animales, compuestos químicos, etc., para los cuales la definición generada mecánicamente es simplemente un nombre en latín en cursiva o una ecuación química (que la mayoría de los lectores no encontrará útil), pero sin incluir el nombre común en inglés, si es que existe uno. Como otro ejemplo, un diccionario que miré incluyó varios cientos de nombres de Papas y Cardenales históricos de la Iglesia Católica Romana, transliterados del inglés al tailandés, ¡sin ninguna otra definición! En algunos casos, las “palabras de relleno” pueden hacer que el diccionario sea menos usable, porque el sonido o la ortografía de las palabras inútiles, sin definición, a veces es muy similar a palabras comunes y útiles que la gente está intentando buscar.

¿Son estas “palabras” válidas? Sí.

¿Son útiles, y deberían recibir el mismo “crédito” hacia el conteo de palabras útiles como las palabras principales? Puedes juzgar tú mismo.

¿El conteo de palabras te dice si un diccionario cubre o no las palabras principales útiles? Definitivamente no.

Gracias a foros de aprendizaje del idioma tailandés como este, sin embargo, las personas están volviéndose compradores más inteligentes que demandarán buena cobertura de palabras principales útiles, definiciones que siempre aclaren qué sentido de una palabra en inglés se está traduciendo al tailandés, guías completas y precisas de pronunciación para cada palabra tailandesa, clasificadores, y grabaciones de sonido de alta calidad de cada palabra con hablantes nativos.

Chris Pirazzi,
Palabra en la Mano | Rebanada de Tailandés | Fiebre de Tailandia

Chris y Benjawan en WLT…

Chris y Benjawan no son desconocidos en WLT. Así que si tienes tiempo, por favor lee más:

Advertisement