This article was originally posted on WomenLearnThai.com.
Creando un diccionario de tailandés…
Como la mayoría de los estudiantes de tailandés, sigo añadiendo palabras a una lista de palabras tailandesas que debo conocer. Comenzó como una simple hoja de cálculo solo con la palabra tailandesa y sus significados. Luego añadí si las palabras eran sustantivos, verbos, lo que fuera. Cuando descubrí los clasificadores, también los añadí. Ah, y partículas de cortesía, partículas finales, partículas coloquiales, verbos auxiliares… parecía no haber fin a lo que necesitaba aclarar para entender el tailandés. Mi creciente hoja de cálculo me dio una apreciación por los creadores de diccionarios reales.
Cuando se trata de producir diccionarios de tailandés, Benjawan Poomsan Becker de Paiboon Publishing y Chris Pirazzi de Word in the Hand han tenido una relación laboral exitosa. En 2003, crearon una versión para Palm OS del primer Diccionario Tailandés-Inglés Inglés-Tailandésde Benjawan. En 2009, trabajaron juntos en la versión en papel del mejorado Diccionario Trilingüe Tailandés-inglés Inglés-tailandés, con la versión de software recién salida. Lo siguiente será lo mismo para el iPhone.
A principios de este año, Chris Pirazzi me pidió si podría ayudar a probar su diccionario de software en beta. No tenía tiempo para participar correctamente, pero pude curiosear en cada versión preliminar que enviaron. Al hacerlo, mi curiosidad sobre cómo se hace un diccionario real aumentó. Cuando me acerqué a Chris con la idea de una entrevista, él estaba encantado de colaborar.
Chris, ¿qué te llevó a escribir un diccionario?
¡Vaya, esa sí es la pregunta correcta! En su pionero Diccionario de la lengua inglesa de 1755, Samuel Johnson definió famosamente «lexicógrafo» como «Un escritor de diccionarios; un drudge inofensivo que se ocupa de rastrear el origen, y detallar el significado de las palabras.» Kun Benjawan comenzó su primer diccionario en 2001, y ambos comenzamos nuestro proyecto de diccionario ampliado en 2007, con una gran pasión por crear los primeros diccionarios tailandés-inglés-tailandés que sean realmente útiles para los no nativos del tailandés que están aprendiendo el idioma. Durante este proceso, aprendimos lo increíblemente difícil y laborioso que es producir un buen diccionario, y ganamos gran respeto por pioneros como Johnson y la fallecida Mary Haas, pero gracias a nuestro fuerte deseo de avanzar en el campo, pudimos completar tanto las versiones en papel como de software, con más por venir.
¿Qué lo hace tan difícil?
Crear un diccionario es una tarea tan abrumadora, tanto antes como ahora, simplemente porque desafía casi cualquier tipo de automatización. Para nuestro nuevo proyecto de diccionario que comenzó con el diccionario en papel de 2009, utilizamos bases de datos, software propio y otras tecnologías para agilizar tantas tareas potencialmente repetitivas como fue posible, pero en su núcleo hay algo que incluso las supercomputadoras más poderosas de hoy en día no pueden tocar: el significado.
Para ver a qué me refiero, escribe cinco palabras comunes en inglés, y luego intenta pensar en todos los significados de esas palabras que conoces. Luego, busca esas palabras en un gran diccionario como dictionary.com, y te sorprenderá la cantidad de significados adicionales que hay, significados simples y cotidianos que conoces y utilizas a menudo, que olvidaste listar. Al leer los diferentes significados de dictionary.com, al principio es probable que digas «Hmm, esos dos son el mismo significado», pero cuando los lees de nuevo te das cuenta de que los significados son completamente diferentes, y simplemente agrupaste esos significados en tu cabeza porque coinciden con la misma palabra en inglés.
Como humanos, estamos acostumbrados a tener un pensamiento y luego buscar la palabra para ese pensamiento en nuestro cerebro para poder hablarlo o escribirlo, pero no al revés. Rara vez en nuestras actividades diarias necesitamos encontrar todos los significados para una palabra dada. Y te puedo decir por experiencia que si ejercitas esta habilidad mental durante más de una hora, tu cerebro comienza a recalentarse. Si lo haces durante días, semanas y meses continuamente, abriéndote paso a través de la aparentemente interminable lista de palabras que componen incluso el diccionario más básico, empiezas a tener una idea de por qué el diccionario inglés-inglés de Johnson tardó nueve años en completarse, por qué el primer OED tardó casi 50 años en completarse, y por qué muchos lexicógrafos se vuelven cada vez más desconectados de la realidad 🙂
¿Cómo es diferente crear un diccionario bilingüe?
El segundo idioma añade una dimensión completamente nueva de complejidad. Cada palabra en inglés (por ejemplo, «vaso») tiene un conjunto determinado de significados (por ejemplo, «vaso (para beber)», «cristal (vidrio)»), cada uno de los cuales puede (o no) traducirse a un conjunto de diferentes palabras tailandesas, y cada una de esas palabras tailandesas, a su vez, tiene un conjunto determinado de significados, cada uno de los cuales podría traducirse a un conjunto de diferentes palabras en inglés. En este sentido, un diccionario bilingüe es como una red enredada de enlaces de ida y vuelta, y nuestro trabajo es revelar esa red para cada palabra que el lector pueda buscar.
Los idiomas como el tailandés añaden complicaciones adicionales porque a menudo hay múltiples palabras diferentes que uno debe elegir según el contexto social (similar a «eat» frente a «chow down» frente a «dine» frente a «consume sustenance» en inglés, pero este fenómeno ocurre con mucha más frecuencia en tailandés que en inglés); nuestros diccionarios le dicen al lector cuándo una palabra tailandesa está cargada de esta manera. Muchos diccionarios tailandés-inglés ignoran esta realidad crucial, y por eso sus usuarios terminan diciendo cosas como «¡Oye, amigo, cómo va? ¡Vamos a consumir sustento en la hamburguesería!»
El único lujo que tenemos que Johnson no tenía es que podemos asumir que el lector ya es un experto en uno de los dos idiomas. Pero el resultado que producimos solo es útil para los lectores que son hábiles en ese idioma: es un error creer que un diccionario bilingüe puede ser igualmente útil tanto para lectores nativos de inglés como para lectores nativos de tailandés.
Los clasificadores son otro tema importante. En tailandés, no puedes decir «dos coches», «este coche» o «ese coche» sin conocer el clasificador tailandés especial para «coche», y cada sustantivo que puedas querer usar de esta manera tiene uno o más clasificadores diferentes que debes aprender. Los diccionarios destinados a los tailandeses suelen omitir el clasificador para la mayoría de las palabras, porque son «obvios» para el lector tailandés. Pero nosotros, los estudiantes de tailandés, necesitamos conocer el clasificador para cada sustantivo tailandés que los tenga, y eso es lo que proporcionamos en nuestros diccionarios. ¡Probablemente tengamos la lista más grande de clasificadores tailandeses jamás recopilada!
Finalmente, las guías de pronunciación y las grabaciones de sonido son el factor final que completa un diccionario bilingüe. Hay tantos «diccionarios hablantes» a la venta en los centros comerciales de Tailandia, pero casi todos solo hablan en inglés. A menudo, el vendedor intentará engañarte destacando la guía de pronunciación para una palabra tailandesa (por ejemplo, «sanuk») y presionando el botón de «hablar». Pero esto solo hace que la pequeña unidad intente usar su robótica voz inglesa grave para pronunciar la palabra tailandesa como si fuera una palabra inglesa real, y el resultado es un murmullo sin tono que no es reconocible para ningún oyente tailandés.
Un verdadero diccionario de software bilingüe debe tener grabaciones de sonido de un hablante nativo del idioma objetivo para aprender. Y un verdadero diccionario bilingüe de cualquier tipo (software o de otra manera) debe tener un sistema de guías de pronunciación escritas que sea lo suficientemente completo como para que nosotros, los estudiantes de tailandés, tengamos posibilidad de ser comprendidos. Eso significa que el sistema de guías de pronunciación debe incluir los tonos tailandeses, y debe tener una forma única de escribir cada sonido de vocal y consonante en tailandés que pueda diferenciar palabras. La mayoría de los sistemas de guías de pronunciación (como los que se ven en las señales de tráfico tailandesas y en los vídeos de karaoke, pero incluso algunos encontrados en materiales de aprendizaje de tailandés) fallan inmediatamente en esta prueba porque omiten los tonos, omiten las longitudes de las vocales y asignan muchas vocales comunes al mismo símbolo escrito.
¿Cómo lidian otros con estos desafíos de crear conjuntos de datos bilingües para estudiantes de tailandés?
Mayormente no lo hacen. La gran mayoría de los diccionarios impresos y de software bilingües, particularmente en Tailandia, son copias directas de otros trabajos (en la mayoría de casos, escaneados y pirateados directamente, sin licencia o dando crédito, y rara vez con algún tipo de edición). Casi todos los diccionarios web y de software disponibles actualmente usan los mismos datos LEXiTRON de aproximadamente 1995, libremente liberados al público por la agencia financiada por el gobierno tailandés conocida como NECTEC. Los datos de LEXiTRON, aunque son un recurso asombroso, valen cada baht: tienen un conteo de palabras muy grande, pero contienen un número enorme de errores en ambos idiomas, y, desafortunadamente para nosotros los estudiantes de tailandés, fue diseñado teniendo en cuenta las necesidades de un tailandés aprendiendo inglés. Así que todos los textos explicativos (por ejemplo, las palabras «drinking» y «pane» en «glass (drinking)» frente a «glass (pane)») están en tailandés, no en inglés. Cuando buscas «glass», o casi cualquier otra palabra, nunca puedes estar seguro de qué significado(s) estás obteniendo. «¿Puedo tener otro cristal de cerveza, por favor?»
Eso explica por qué hay tantos diccionarios de software, por ejemplo, para iPhone, pero por qué los diccionarios disponibles son tan uniformemente horribles. Los autores intentan tomar un atajo para evitar literalmente años de arduo trabajo de edición, pero la utilidad de su trabajo está finalmente limitada por la naturaleza errónea y enfocada en nativos tailandeses de los datos subyacentes.
Los conjuntos de datos gratuitos (o pirateados) actualmente disponibles tampoco incluyen guías de pronunciación que sean útiles para los estudiantes de tailandés como nosotros (a menudo proporcionan guías de pronunciación solo para las palabras en inglés) y como resultado, muchos de los «reempacadores de software» usan un programa de computadora para generar sus guías de pronunciación tailandesas directamente del guion tailandés. Desafortunadamente, el tailandés escrito es suficientemente irregular como para que un enfoque automatizado sea extremadamente inexacto, y hasta el 30-40% de las guías de pronunciación resultantes están mal (a menudo tan lejos de la realidad que no tienes posibilidad de ser entendido). No hay sustituto para que un experto nativo tailandés edite manualmente todas las guías de pronunciación.
Así que decidimos emprender la casi loca tarea de crear completamente desde cero un nuevo conjunto de datos de diccionario tailandés-inglés. La última vez que se intentó esto, aparte del increíble trabajo en los años 60 de Mary Haas, probablemente fue en los años 30 cuando el prisionero político Sor Settabut completó su conjunto de datos mientras estaba atrapado en Ko Tarutao y en varias otras cárceles de Tailandia, y probablemente esta sea la única razón por la que pudo finalizarlo. Dado que nuestro público objetivo son las personas que están aprendiendo tailandés, nos propusimos incluir clasificadores, niveles de formalidad y guías de pronunciación revisadas por nativos tailandeses con cada palabra tailandesa.
Este nuevo esfuerzo requiere que hagamos una inversión enorme, continua de tiempo, trabajo y dinero, pero creemos que el resultado es mucho mejor que cualquier otra cosa disponible y pagará la pena. Como todos los creadores de diccionarios, nuestros editores tienen enormes pilas de diccionarios de referencia existentes extendidos por nuestras mesas, e incluso descubrimos que Google Search es una herramienta fantástica de corpus para encontrar usos monolingües de cualquier palabra en inglés o tailandés «en estado salvaje» (como Rikker Dockum de Thai 101 ha señalado a menudo) pero el elemento clave intensivo en mano de obra que produce tanto valor es el toque humano: evaluar críticamente y sintetizar los datos de investigación disponibles para crear un conjunto de entradas de diccionario útiles.
¿No tenía Paiboon Publishing ya un diccionario antes de 2009?
Sí. Kun Benjawan lanzó su primer diccionario en papel Tailandés-Inglés-Tailandés en 2001, completo con la innovadora sección «Sonido Tailandés» donde puedes buscar una palabra por su guía de pronunciación sin tener que conocer el guion tailandés. Esta fue la primera oportunidad de pasar por todo el proceso. Usé este mismo conjunto de datos para producir el software de diccionario Tailandés-Inglés-Tailandés de Word in the Hand para Palm OS PDAs en 2003. Alrededor de 2007, comenzamos un nuevo proyecto de diccionario mucho más amplio, cuyos primeros resultados son el nuevo diccionario compacto en papel tailandés-inglés-tailandés de 2009 y el recientemente lanzado diccionario parlante Tailandeés-Inglés-Tailandeés para PCs con Windows.
¿Qué aprendiste después del primer proceso?
Bastante. La primera vez, Kun Benjawan hizo mucho del almacenamiento de datos y la edición de manera manual. La segunda vez, aprendimos a usar bases de datos para almacenar todas las palabras en una forma que pudiera ser fácilmente reutilizada tanto para un resultado en papel como de software, y escribí bastante software personalizado que nuestro equipo de edición utiliza para verificar cada entrada en detalle en el momento en que se escribe, lo que nos ayuda a evitar todo tipo de problemas de formato y omisiones (como guías de pronunciación que no coinciden con la palabra tailandesa correspondiente, clasificadores faltantes, etc.). Gracias a la base de datos, también podemos tener un gran número de personas trabajando en el conjunto de datos al mismo tiempo sin interferir con los cambios de los demás, y aún más útilmente, podemos extender nuestro equipo geográficamente por todo el mundo. En este momento, tenemos editores trabajando en California y en Tailandia. La base de datos también nos permite llevar fácilmente un seguimiento del estado de edición de cada palabra, ya que nuestra política es mostrar cada palabra tanto a editores nativos de tailandés como a nativos de inglés.
En la segunda pasada, también aprendimos mucho sobre qué información incluir en cada entrada para que fuera útil para el estudiante de tailandés. Añadimos los indicadores de formalidad, el estrés de las sílabas y los clasificadores, refinamos la lista de partes del discurso y añadimos marcadores de posición en ciertas expresiones verbales para que sepas dónde colocar el objeto (como en «ao ___ maa» para «traer ___»), y ahora tenemos un sistema mucho mejor para asegurar que proporcionamos los significados de cada palabra en inglés que corresponden a las traducciones tailandesas dadas.
¿Entonces está terminado el conjunto de datos?
Lejos de eso. El conjunto de datos contenido en el diccionario de software de 2010 es aproximadamente un 40% más grande que el contenido en el diccionario en papel de 2009, y contiene un conjunto saludable de palabras útiles, pero incluso antes de que saliera el diccionario de software, ya habíamos comenzado a trabajar en un conjunto de datos mucho más grande. Esperamos al menos duplicar el tamaño de nuestro conjunto de datos para finales de 2010, y lanzaremos estos datos ampliados a aquellos que compren el diccionario ahora como una actualización gratuita. Planeamos seguir trabajando en los datos durante varios años, hasta que tengamos un gran conjunto de datos del tipo apropiado para volúmenes de referencia de biblioteca.
¿Fue divertido?
Sí. Una diferencia clave entre tu típica producción lingüística aburrida, corporativa y nuestro esfuerzo de diccionario es el elemento tailandés de diversión, como lo demuestra este video que Kun Benjawan y algunos de nuestros editores hicieron:
¿Cómo eliges qué vocabulario incluir y cuál dejar fuera?
Esto fue súper difícil para el diccionario de papel compacto, especialmente dado que tener un texto tailandés grande y legible era una prioridad muy alta para nosotros. Tuvimos que hacer algunos compromisos difíciles al decidir qué palabras omitir para mantener el diccionario «compacto».
Para el software, por supuesto, el espacio impreso no es un problema. El espacio en disco es algo así como un problema, porque cada palabra tailandesa en nuestro diccionario incluye su propia grabación de sonido de alta calidad de un hablante nativo de tailandés, pero la limitación no es tan grande como en el caso impreso. La principal limitación se convierte en el tiempo de desarrollo, y el compromiso que debemos decidir para lanzar el proyecto en este milenio es: «¿nos centramos en la cantidad o en la calidad?»
La respuesta es clara. Ya hay muchos diccionarios por ahí cuyos materiales de marketing citan enormes recuentos de palabras en tailandés e inglés, pero que contienen grandes cantidades de errores y/o guías de pronunciación inutilizables. Decidimos dedicar mucho más tiempo a cada entrada, sometiendo cada entrada, incluidas sus guías de pronunciación, a editores nativos tanto en tailandés como en inglés. En cada etapa de edición, nos enfocamos en definir bien las palabras más útiles, en lugar de producir largas listas de palabras raras sin intervención humana. Ahora tenemos un conjunto de palabras muy útiles, y creemos que para finales de 2010 habremos cubierto el 95% de las palabras que la gente está buscando.
Curiosamente, las fuerzas del mercado tienden a alejar a todos los diccionarios de la calidad. Cuando las personas están buscando un diccionario, tienden a dar un peso desproporcionado al recuento de palabras publicado (fácil de hacer, ya que está impreso en el exterior) y no se dan cuenta hasta después de la compra de que el diccionario es inútil para ellos, porque está lleno de errores, porque sus entradas no están diseñadas para sus necesidades, o porque en realidad las palabras no resultan ser muy útiles.
Es bastante sorprendente lo que algunos vendedores han hecho para alcanzar los recuentos de palabras astronómicos que citan. El truco típico es encontrar listas enormes de palabras (generalmente raras) disponibles libremente en internet, e importar esas listas mecánicamente sin ninguna edición humana. El proceso de importación electrónica puede llevar al autor solo unos minutos para completar y resulta en un gran aumento en el conteo de palabras que atrae la atención de los compradores potenciales, pero no agrega a la utilidad del diccionario de ninguna manera apreciable. Por ejemplo, muchos diccionarios han importado mecánicamente listas de decenas de miles de especies de plantas, especies de animales, productos químicos, etc., para los cuales la definición generada mecánicamente es simplemente un nombre latino en cursiva o una ecuación química (que la mayoría de los lectores no encontrarán útil), pero no incluyendo el nombre común en inglés, si es que lo hay. Como otro ejemplo, un diccionario que vi incluía varios cientos de nombres de Papas y Cardenales católicos romanos históricos, transliterados del inglés al tailandés, ¡sin ninguna definición adicional! En algunos casos, las «palabras de relleno» pueden hacer que el diccionario sea menos utilizable, porque el sonido o la ortografía de las palabras inútiles, sin definición, a veces son muy similares a las palabras comunes y útiles que las personas están intentando buscar.
¿Son estas «palabras» válidas? Sí.
¿Son útiles y deberían recibir el mismo «crédito» para el recuento de palabras útiles que las palabras principales? Tú decides.
¿El recuento de palabras te dice si un diccionario cubre o no las palabras principales útiles? Definitivamente no.
Gracias a foros de aprendizaje del idioma tailandés como este, sin embargo, las personas se están convirtiendo en compradores más inteligentes que exigirán una buena cobertura de palabras principales útiles, definiciones que siempre aclaren qué sentido de una palabra en inglés se está traduciendo al tailandés, guías de pronunciación completas y precisas para cada palabra tailandesa, clasificadores y grabaciones de sonido de alta calidad de cada palabra con hablantes nativos.
Chris Pirazzi,
Word in the Hand | Slice of Thai | Thailand Fever
Chris y Benjawan en WLT…
Chris y Benjawan no son desconocidos en WLT. Así que si tienes tiempo, por favor lee más: