เบื้องหลังการสร้างพจนานุกรมภาษาไทย

บทความนี้ใช้เวลาอ่านประมาณ 15 นาที ยังไม่มีเวลาตอนนี้ใช่ไหม? ไม่เป็นไร ส่งบทความเวอร์ชันไม่มีโฆษณาไปที่อีเมลของคุณ แล้วกลับมาอ่านภายหลังได้!

loading image

This article was originally posted on WomenLearnThai.com.

Backstage View into the Process of Creating a Thai Dictionary

สร้างพจนานุกรมภาษาไทย…

เหมือนกับนักเรียนภาษาไทยหลายๆ คน ฉันมีรายการคำศัพท์ภาษาไทยที่ต้องเรียนรู้เพิ่มขึ้นเรื่อยๆ สำคัญ ที่จะต้องรู้ ตอนแรกก็เริ่มจากการทำสเปรดชีตง่ายๆ แค่มีคำศัพท์ไทยและความหมาย จากนั้นก็เพิ่มบอกว่าคำไหนเป็นคำนาม คำกริยา ฯลฯ เมื่อค้นพบคำลักษณนาม ก็เพิ่มเข้าไปอีก โอ้ แล้วก็มีคำสุภาพ คำลงท้าย คำสแลง คำกริยาช่วย… ดูเหมือนจะไม่มีที่สิ้นสุดว่าฉันต้องทำความกระจ่างอะไรก่อนที่จะเข้าใจภาษาไทยได้ สเปรดชีตที่ขยายใหญ่ขึ้นนี้ทำให้ฉันรู้สึกชื่นชมผู้สร้างพจนานุกรมที่เป็นของจริง

เมื่อพูดถึงการสร้างพจนานุกรมภาษาไทย เบญจวรรณ ภูมิสาน เบกเกอร์ แห่ง Paiboon Publishing และ คริส พิราซี แห่ง Word in the Hand ได้ทำงานร่วมกันอย่างประสบความสำเร็จ ย้อนกลับไปในปี 2003 พวกเขาได้สร้างพจนานุกรม ไทย-อังกฤษ อังกฤษ-ไทย รุ่นบน Palm OS ที่เป็นรุ่นแรกของเบญจวรรณ ในปี 2009 พวกเขาได้ทำงานร่วมกันในฉบับกระดาษของพจนานุกรม ไทย-อังกฤษ อังกฤษ-ไทย แบบสามทาง ที่มี เวอร์ชั่นซอฟต์แวร์ ที่เพิ่งออกมา และต่อมาก็จะมีเวอร์ชั่นเดียวกันสำหรับ iPhone

เมื่อต้นปีนี้ คริส พิราซี ขอให้ฉันทดสอบซอฟต์แวร์พจนานุกรมใหม่ของพวกเขา แม้ว่าจะไม่ได้ร่วมทดลองอย่างละเอียด แต่ฉันก็ได้ลองใช้งานในแต่ละเวอร์ชั่นที่ส่งมา ทำให้เกิดความสนใจในกระบวนการสร้างพจนานุกรมจริงๆ เมื่อได้คุยกับคริสเกี่ยวกับแนวคิดการสัมภาษณ์ เขาก็ยินดีตอบรับ

คริส ทำไมคุณถึงอยากเขียนพจนานุกรม?

คำถามนี้ใช่เลย! ในพจนานุกรมภาษาอังกฤษยุคเคร่งครัดปี 1755 ของซามูเอล จอห์นสัน เขาได้อธิบายคำว่า “เล็กสิโคกราเฟอร์” ว่าเป็น “ผู้เขียนพจนานุกรม; แบกรับงานที่หนักหนาสาหัสในการแกะรากศัพท์และแจกแจงความหมายของคำ” คุณเบญจวรรณเริ่มต้นพจนานุกรมเล่มแรกของเธอในปี 2001 และพวกเราทั้งสองได้เริ่มโปรเจคพจนานุกรมที่ขยายขึ้นในปี 2007 ด้วยความหลงใหลอย่างมากในการสร้างพจนานุกรมไทย–อังกฤษ–ไทยที่เป็นประโยชน์ต่อนักเรียนภาษาไทยที่ไม่ใช่เจ้าของภาษา ในกระบวนการนี้เราได้เรียนรู้ว่าการผลิตพจนานุกรมดีๆ นั้นยากและใช้แรงงานมหาศาลเพียงใด และเราได้ให้ความเคารพอย่างสูงต่อผู้บุกเบิกอย่างจอห์นสันและแมรี่ ฮาสซ์ที่ล่วงลับไปแล้ว แต่ด้วยความต้องการที่จะพัฒนาวงการ เราจึงสามารถทำทั้งเวอร์ชั่นกระดาษและซอฟต์แวร์ให้สำเร็จได้ และยังมีมากกว่านี้ที่จะตามมา!

อะไรคือความยาก?

การสร้างพจนานุกรมเป็นงานที่ท้าทายทั้งในอดีตและปัจจุบัน เพราะมันแทบจะไม่สามารถทำให้เป็นอัตโนมัติได้เลย สำหรับโปรเจคพจนานุกรมใหม่ของเราที่เริ่มต้นจากพจนานุกรมกระดาษในปี 2009 เราได้ใช้ฐานข้อมูล ซอฟต์แวร์ที่พัฒนาขึ้นเอง และเทคโนโลยีอื่น ๆ เพื่อเร่งกระบวนการซ้ำซ้อนที่อาจเกิดขึ้นให้มากที่สุด แต่หัวใจของมันคือสิ่งที่แม้แต่ซูเปอร์คอมพิวเตอร์ที่ทรงพลังที่สุดในวันนี้ก็ยังไม่สามารถสัมผัสได้: นั่นคือความหมาย

เพื่อให้เห็นว่าฉันหมายถึงอะไร เขียนคำภาษาอังกฤษทั่วไป 5 คำ แล้วลองนึกถึงความหมายทั้งหมดของคำเหล่านั้นที่คุณรู้ จากนั้น หาในพจนานุกรมขนาดใหญ่อย่าง dictionary.com แล้วคุณจะประหลาดใจกับความหมายเพิ่มเติมที่มีอยู่มากมาย—ความหมายง่ายๆ ในชีวิตประจำวัน ที่คุณรู้และใช้บ่อย—ที่คุณลืมจดไว้ เมื่อคุณอ่านความหมายต่างๆ จาก dictionary.com ช่วงแรกคุณอาจจะว่า “อืม ความหมายสองความหมายนั้นน่าจะเหมือนกัน” แต่เมื่อคุณอ่านอีกครั้งคุณจะรู้ว่าความหมายนั้นแตกต่างกันโดยสิ้นเชิง และคุณเพิ่งจับความหมายเหล่านั้นมาอยู่ด้วยกันในหัวเพราะมันดันไปตรงกับคำภาษาอังกฤษคำเดียวกัน

ในฐานะมนุษย์ เราคุ้นชินกับการมีความคิดแล้วค้นหาคำที่เหมาะกับความคิดนั้นในสมองเพื่อพูดหรือเขียน แต่ตัวอย่างนี้ต่างออกไป นานๆ จะมีครั้งในกิจวัตรประจำวันของเรา ที่เราต้องพบความหมายทั้งหมดสำหรับคำที่กำหนด และจากประสบการณ์ของฉัน ฉันบอกได้เลยว่าถ้าคุณฝึกฝนทักษะเชิงจิตนี้เกินชั่วโมง คุณเริ่มจะรู้สึกว่าสมองเริ่มร้อนเกินไปแล้ว หากคุณทำเช่นนี้ต่อไปเป็นวัน สัปดาห์ และเดือน อย่างไม่หยุดยั้ง การเดินทางผ่านรายการคำที่ดูเหมือนไม่มีที่สิ้นสุดที่ประกอบเป็นพจนานุกรมพื้นฐาน ก็เริ่มจะทำให้คุณเข้าใจว่าทำไมพจนานุกรมภาษาอังกฤษของจอห์นสันใช้เวลาถึง 9 ปีในการสร้าง ทำไม OED ฉบับแรกถึงใช้เวลาเกือบ 50 ปี และทำไมเล็กสิโคกราเฟอร์หลายคนกลายเป็นคนที่เดียวดายจากความเป็นจริง 🙂

การสร้างพจนานุกรมสองภาษาต่างกันอย่างไร?

ภาษาที่สองเพิ่มความซับซ้อนขึ้นอีกระดับ สำหรับคำภาษาอังกฤษแต่ละคำ (เช่น “glass”) จะมีชุดความหมาย (เช่น “แก้ว (ดื่ม)”, “กระจก (บานหน้าต่าง)”) ซึ่งแต่ละอันอาจจะแปล (หรือไม่แปล) เป็นคำไทยหลายๆ คำ และคำไทยแต่ละคำเหล่านั้นก็มีชุดความหมายที่อาจแปลงกลับเป็นคำภาษาอังกฤษอื่นๆ อีกหลายคำ! ในแง่นี้ พจนานุกรมสองภาษาก็เหมือนกับใยแมงมุมที่พันกันไปมา และหน้าที่ของเราคือการเปิดเผยเครือข่ายนั้นสำหรับทุกคำที่ผู้อ่านอาจต้องการค้นหา

ภาษาต่างๆ อย่างภาษาไทยเพิ่มความซับซ้อนเพิ่มเติมเพราะมีคำหลายคำที่ต้องเลือกใช้ตามบริบททางสังคม (คล้ายกับ “eat” กับ “chow down” กับ “dine” กับ “consume sustenance” ในภาษาอังกฤษ แต่มีรูปแบบนี้ที่พบได้บ่อยในภาษาไทยมากกว่าในภาษาอังกฤษ); พจนานุกรมของเราบอกผู้อ่านเมื่อตอนไหนคำภาษาไทยจะมีความหมายแบบนี้ พจนานุกรมไทย–อังกฤษหลายฉบับมักจะละเลยความจริงข้อนี้ และผลก็คือผู้ใช้พูดสิ่งผิดๆ เช่น “Hey buddy, how’s it goin’? Let’s go consume sustenance at the burger joint!”

สิ่งที่เรามีที่แตกต่างจากจอห์นสันคือเราสามารถสมมติได้ว่าผู้อ่านมีความเชี่ยวชาญในหนึ่งในภาษาสองภาษานี้แล้ว แต่ผลลัพธ์ที่เราผลิตก็จึงมีประโยชน์เฉพาะสำหรับผู้อ่านที่มีทักษะในภาษานั้น มันเป็นการเข้าใจผิดว่าพจนานุกรมสองภาษาหนึ่งเล่มสามารถมีประโยชน์เท่าเทียมกันสำหรับผู้อ่านเจ้าของภาษาอังกฤษหรือไทยได้

ตัวลักษณนามก็เป็นอีกเรื่องสำคัญ ในภาษาไทยคุณไม่สามารถพูด “รถสองคัน,” “รถคันนี้,” หรือ “รถคันนั้น” ได้โดยไม่ต้องรู้ตัวลักษณนามพิเศษของ “รถ” และแต่ละคำนามที่คุณอาจต้องการใช้นั้นก็มีตัวลักษณนามที่ต้องเรียนรู้หลายอย่าง พจนานุกรมที่ทำไว้สำหรับคนไทยมักจะละทิ้งลักษณนามสำหรับคำส่วนใหญ่เพราะมัน “ชัดเจน” ต่อผู้อ่านคนไทย แต่เราในฐานะนักเรียนภาษาไทยต้องรู้ตัวลักษณนามสำหรับทุกคำนามภาษาไทยที่มี และนั่นคือสิ่งที่เรามีให้ในพจนานุกรมของเรา เราอาจมีรายชื่อลักษณนามภาษาไทยที่ใหญ่ที่สุดที่เคยรวบรวมไว้!

ท้ายที่สุดคำแนะนำการออกเสียงและการบันทึกเสียงเป็นปัจจัยพื้นฐานที่ทำให้พจนานุกรมสองภาษาครบสมบูรณ์ ในประเทศไทยมีพจนานุกรมเทียมที่สามารถ “พูด” ได้หลายอย่างวางขายในห้างสรรพสินค้า แต่เกือบทั้งหมดพูดได้แค่ภาษาอังกฤษ บ่อยครั้งพนักงานขายจะพยายามหลอกคุณด้วยการชี้ให้เห็นถึงระบบการออกเสียงสำหรับคำภาษาไทย (เช่น “sanuk”) และกดปุ่ม “พูด” แต่นี่เป็นแค่นั้นหน่วยเล็ก ๆ ที่พยายามใช้น้ำเสียงอังกฤษหุ่นยนต์กราวด์เพื่อออกเสียงคำไทยเสมือนว่ามันเป็นคำภาษาอังกฤษจริงๆ และเสียงพูดที่หางเสียงกราวที่ได้รับมักจะไม่สามารถจดจำได้เลยสำหรับคนฟังไทย

พจนานุกรมซอฟต์แวร์สองภาษาแบบจริงๆ ต้องมีการบันทึกเสียงจากเจ้าของภาษาที่จะเรียนรู้ และพจนานุกรมสองภาษาใด ๆ (ทั้งซอฟต์แวร์หรือสิ่งพิมพ์) ต้องมีการแนะนำการออกเสียงเป็นลายลักษณะอักษรที่สมบูรณ์พอที่ทำให้เรา นักเรียนไทย ก็มีโอกาสที่จะสามารถเข้าใจได้ ซึ่งหมายความว่าระบบแนะนำการออกเสียงต้องรวมถึงเสียงใช้ในภาษาไทย และจะต้องมีวิธีที่ไม่ซ้ำกันในการเขียนเสียงสระและเสียงพยัญชนะของภาษาไทยที่สามารถแยกคำได้ ระบบแนะนำการออกเสียงส่วนใหญ่ (เช่นที่เห็นบนป้ายถนนไทยและในวิดีโอคาราโอเกะ แต่ก็ยังมีในวัสดุการเรียนการสอนภาษาไทยบางอย่าง) ทดสอบนี้ทันทีที่ไม่ได้เพราะพวกเขาละเลยเสียง ใช้ความยาวของสระ และแมปสระทั่วไปหลายๆ ตัวไปที่สัญลักษณ์ตัวเดียวกัน

คนอื่นๆ จัดการกับความท้าทายเหล่านี้ในการสร้างชุดข้อมูลสองภาษาสำหรับนักเรียนภาษาไทยอย่างไร?

ส่วนใหญ่แล้วพวกเขาไม่ทำ ทำไมพจนานุกรมสองภาษาที่ถูกพิมพ์และซอฟต์แวร์จำนวนมาก, โดยเฉพาะในประเทศไทย, เป็นการก็อปงานที่เคยมีอยู่ส่วนใหญ่ (ในกรณีนี้สแกนและละเมิดลิขสิทธิ์โดยตรง โดยไม่มีการให้สิทธิหรือตระหนักถึง และแทบไม่มีการแก้ไขใดๆ) พจนานุกรมออนไลน์และซอฟต์แวร์ที่มีอยู่เกือบทั้งหมดใช้ชุดข้อมูล LEXiTRON ซึ่งเป็นข้อมูลฟรีที่ได้รับการเผยแพร่ต่อสาธารณะแบบอิสระโดยหน่วยงานของรัฐบาลไทยที่รู้จักในนาม NECTEC ข้อมูล LEXiTRON นั้นเป็นทรัพยากรที่น่าทึ่งมีจำนวนคำที่มากมากแต่มีข้อผิดพลาดทั้งสองภาษาจำนวนมาก และเสียดายสำหรับเราที่เรียนภาษาไทย มันถูกออกแบบด้วยความต้องการของคนไทยเรียนภาษาอังกฤษในใจ ดังนั้นทุกข้อความคำอธิบาย (เช่นคำว่า “ดื่ม” และ “บาน” ใน “แก้ว (ดื่ม)” กับ “แก้ว (บาน)”) เป็นภาษาไทย ไม่ใช่ภาษาอังกฤษ เมื่อคุณค้นหา “แก้ว,” หรือคำอื่นเกือบทุกคำ คุณมักจะไม่รู้ความหมายที่คุณได้รับ

นั่นคือเหตุผลที่ว่าทำไมมีพจนานุกรมซอฟต์แวร์มากมายสำหรับ เช่น iPhone แต่ทำไมพจนานุกรมที่มีถึงคุณภาพแย่อย่างสม่ำเสมอ นักเขียนพยายามหาทางลัดเพื่อหลีกเลี่ยงการทำงานแก้ไขที่ต้องใช้เวลาหลายปีที่แท้ แต่ประโยชน์จากงานของพวกเขาถูกจำกัดโดยธรรมชาติไม่มีข้อผิดพลาดที่เกิดจากแก้ไขที่ไม่คำนึงถึงความต้องการของผู้มีความต้องการของผู้เรียนไทย

ชุดข้อมูล (ฟรีหรือผิดกฎหมาย) ที่มีอยู่ในปัจจุบันยังรวมถึงคำแนะนำการออกเสียงที่มีประโยชน์ต่อผู้เรียนไทยอย่างเรา (มักจะให้คำแนะนำการออกเสียงสำหรับคำภาษาอังกฤษเท่านั้น) และดังนั้นผลลัพธ์ก็คือหลายผู้ “บรรจุซอฟต์แวร์ใหม่” ใช้โปรแกรมคอมพิวเตอร์ในการสร้างคำแนะนำการออกเสียงไทยของพวกเขาโดยตรงจากสคริปต์ไทย เสียดายที่ภาษาไทยที่เป็นลายลักษณ์อักษรไม่มีความปกติพอที่กระบวนการแบบอัตโนมัติจะเที่ยงตรง และดังนั้นมากถึง 30–40% ของคำแนะนำการออกเสียงที่ได้ทำผิดพลาด (มักจะห่างไกลมากถึงขั้นที่คุณไม่มีโอกาสได้รับการเข้าใจ) ไม่มีอะไรจะสามารถแทนที่ความเชี่ยวชาญของเจ้าของภาษาไทยในการแก้ไขคำแนะนำการออกเสียงทั้งหมดด้วยตนเองได้

ดังนั้นเราตัดสินใจเริ่มต้นทำภารกิจที่เกือบบ้าคลั่งของการสร้างชุดข้อมูลพจนานุกรมไทย-อังกฤษที่ใหม่ทั้งหมดจากการเริ่มใหม่ ครั้งสุดท้ายนี้ถูกพยายาม นอกจากงานที่น่าทึ่งในทศวรรษที่ 1960 โดย Mary Haas คือในปี 1930 เมื่อ Sor Settabut นักโทษทางการเมืองเสร็จชุดข้อมูลของเขาในขณะที่โดนจับที่ Phú万円จิโอและในเรือนจำไทยอื่นๆ และนี่อาจเป็นเหตุผลเดียวที่เขาสามารถทำสำเร็จได้! เนื่องจากกลุ่มเป้าหมายของเราคือคนที่เรียนภาษาไทย เราตั้งเป้าที่จะรวมลักษณนาม ระดับความเป็นทางการ และคำแนะนำการออกเสียงที่แก้ไขโดยเจ้าของภาษาไทยทั้งหมดกับคำไทยแต่ละคำ

ความพยายามใหม่นี้ต้องการให้เราลงทุนเวลา แรงงาน และเงินมหาศาล แต่เราเชื่อว่าผลลัพธ์จะดีกว่าอย่างไร้เทียมทานกว่าสิ่งอื่นๆ นั้นทำให้คุ้มค่า เหมือนผู้สร้างพจนานุกรมท่านอื่น บรรณาธิการของเรามีกองเอกสารอ้างอิงที่มีอยู่ในโต๊ะด้วย และเรายังเจอว่า Google Search ทำหน้าที่เป็นเครื่องมือจัดการคอร์ปัสที่ดีเยี่ยมในการหาใช้งานแบบโดดเดี่ยวของคำภาษาอังกฤษหรือภาษาไทยใด ๆ “ในป่า” (ตามที่ Rikker Dockum จาก Thai 101 ชี้ไว้อย่างบ่อย) แต่ปัจจัยสำคัญทางแรงงานที่จำเป็นต้องใช้มากที่ได้เพิ่มคุณค่าคือการสัมผัสของมนุษย์: การประเมินและการสังเคราะห์ข้อมูลการค้นคว้าที่มีอยู่เพื่อสร้างรายการพจนานุกรมที่ใช้งานได้มีประโยชน์

Paiboon Publishing ไม่มีพจนานุกรมก่อนปี 2009 อยู่แล้วหรือ?

ใช่ค่ะ คุณเบญจวรรณปล่อยพจนานุกรมกระดาษภาษาไทย–อังกฤษ–ไทยเล่มแรกในปี 2001 พร้อมกับส่วน “Thai Sound” ที่สามารถค้นหาคำด้วยคำแนะนำการออกเสียงได้โดยไม่ต้องรู้สคริปต์ภาษาไทย นี่เป็นโอกาสแรกที่จะผ่านกระบวนการทั้งหมด ฉันใช้ชุดข้อมูลเดียวกันนี้ในการผลิตซอฟต์แวร์พจนานุกรมภาษาไทย–อังกฤษ–ไทยของ Word in the Hand ในปี 2003 สำหรับ PDAs Palm OS ประมาณปี 2007 เราเริ่มโปรเจ็คพจนานุกรมที่มีขอบเขตมากกว่ามาก ผลลัพธ์แรกคือพจนานุกรมกระดาษเล่มไทย–อังกฤษ–ไทยฉบับคอมแพ็คปี 2009 และพจนานุกรมที่มีเสียงพูดไทย–อังกฤษ–ไทยใกล้เคียงที่เปิดตัวไปเมื่อเร็วๆ นี้สำหรับคอมพิวเตอร์ส่วนบุคคล Windows

คุณได้เรียนรู้อะไรหลังจากกระบวนการแรก?

ค่อนข้างเยอะค่ะ ครั้งแรก คุณเบญจวรรณจัดการการเก็บและแก้ไขข้อมูลไปในรูปแบบดั้งเดิม ครั้งที่สอง เราได้เรียนรู้การใช้ฐานข้อมูลในการเก็บคำทั้งหมดในรูปแบบที่สามารถปรับใช้ได้ทั้งในผลลัพธ์กระดาษและซอฟต์แวร์ และฉันได้เขียนซอฟต์แวร์ที่กำหนดเองจำนวนมากที่ทีมแก้ไขของเราใช้งานเพื่อตรวจสอบแต่ละรายการในรายละเอียดในขณะที่เขียน ซึ่งช่วยเราหลีกเลี่ยงปัญหาการจัดรูปแบบต่างๆ และการตกหล่น (เช่นคำแนะนำการออกเสียงที่ไม่ตรงกับคำไทยที่สอดคล้อง ชุดลักษณนามที่ขาดหายัน) ด้วยความช่วยเหลือของฐานข้อมูล เราสามารถให้คนจำนวนมากทำงานบนชุดข้อมูลพร้อมกันโดยไม่ไปกระทบการแก้ไขของคนอื่นๆ และยังมีประโยชน์มากกว่า เรายังสามารถกระจายทีมงานของเราไปทั่วโลกได้ ขณะนี้มีบรรณาธิการทำงานทั้งในแคลิฟอร์เนียและในประเทศไทย ฐานข้อมูลยังช่วยให้เราสามารถติดตามสถานะแก้ไขของแต่ละคำได้ง่าย เนื่องจากนโยบายของเราคือการนำเสนอแต่ละคำโดยทั้งบรรณาธิการพูดภาษาไทยและพูดภาษาอังกฤษเป็นเจ้าของภาษา

ครั้งที่สอง เรายังได้เรียนรู้มากขึ้นเกี่ยวกับข้อมูลที่ควรรวมอยู่ในแต่ละรายการคำเพื่อให้มันเป็นประโยชน์ต่อนักเรียนภาษาไทยได้ เราได้เพิ่มสารบ่งบอกระดับความเป็นทางการ การเน้นพยางค์และชุดลักษณนามเราได้ปรับลิสต์ประเภทของคำและเพิ่มตำแหน่งในการแสดงแบบคำกริยาในบางสถานการณ์เพื่อให้คุณรู้ว่าคุณต้องวางวัตถุไว้ที่ไหน (เช่นใน “ao ___ maa” สำหรับ “เอา ___ มา”), และตอนนี้เรามีระบบที่ดีขึ้นมากในการรับประกันว่ามีความหมายของแต่ละคำภาษาอังกฤษที่สัมพันธ์กับการแปลไทยที่ให้

ชุดข้อมูลเสร็จแล้วหรือยัง?

ยังไม่เสร็จค่ะ ชุดข้อมูลที่มีอยู่ในพจนานุกรมซอฟต์แวร์ปี 2010 มีขนาดประมาณ 40% ใหญ่กว่าฉบับกระดาษปี 2009 และมันมีชุดคำที่มีประโยชน์อย่างมากมาย แต่ถึงแม้พจนานุกรมซอฟต์แวร์จะออกมาสำเร็จแล้ว เราก็ได้เริ่มงานบนชุดข้อมูลที่ใหญ่กว่ามากแล้ว เราคาดว่าจะขยายขนาดชุดข้อมูลของเราถึงสองเท่าภายในสิ้นปี 2010 และเราจะทำการเผยแพร่ข้อมูลที่ขยายนี้ให้กับผู้ที่ซื้อพจนานุกรมตอนนี้เป็นการอัปเกรดฟรีค่ะ เรามีแผนที่จะทำงานกับข้อมูลต่อไปอีกหลายปี จนกว่าจะมีชุดข้อมูลใหญ่สำหรับเล่มอ้างอิงในห้องสมุดค่ะ

สนุกไหม?

สนุกค่ะ หนึ่งในความแตกต่างที่สำคัญระหว่างการผลิตภาษาศาสตร์แบบคลาสิคิงเคมและความพยายามในการสร้างพจนานุกรมของเราคือธาตุความสนุกสนานแบบไทยๆ อย่างที่วิดีโอนี้แสดงให้เห็นที่คุณเบญจวรรณและบรรณาธิการบางคนของเราร่วมทำ:

คุณเลือกคำศัพท์ที่ควรรวมและคำไหนที่จะละเว้นออกอย่างไร?

สิ่งนี้เป็นเรื่องยากมากสำหรับพจนานุกรมกระดาษขนาดกะทัดรัด โดยเฉพาะเมื่อการมีข้อความภาษาไทยขนาดใหญ่และอ่านง่ายเป็นสิ่งสำคัญอย่างมากสำหรับพวกเรา เราต้องยอมรับการตัดสินใจที่ยากในการตัดคำบางคำออกไปเพื่อให้พจนานุกรมยังคงขนาดกะทัดรัดอยู่

สำหรับซอฟต์แวร์ แน่นอนว่าพื้นที่พิมพ์ไม่ใช่ปัญหา แต่พื้นที่ดิสก์อาจเป็นปัญหาบางส่วน เนื่องจากทุกคำในพจนานุกรมภาษาไทยของเราจะมีการบันทึกเสียงคุณภาพสูงของเจ้าของภาษาควบคู่ไปด้วย แต่ข้อจำกัดนี้ไม่สูงเท่ากับในกรณีการพิมพ์ ข้อจำกัดหลักกลายเป็นเวลาในการพัฒนา และการต้องตัดสินใจว่าจะเน้นที่ปริมาณหรือคุณภาพ ก่อนที่จะสามารถส่งโครงการนี้ภายในสหัสวรรษนี้ได้

คำตอบชัดเจนแล้ว มีพจนานุกรมจำนวนมากในตลาดที่มักจะโฆษณาว่ามีจำนวนคำภาษาไทยและภาษาอังกฤษจำนวนมหาศาล แต่กลับมีข้อผิดพลาดมากและ/หรือแนวทางการออกเสียงที่ใช้งานไม่ได้ เราตัดสินใจใช้เวลามากขึ้นในแต่ละรายการ โดยการตรวจสอบและแก้ไขโดยทั้งบรรณาธิการเจ้าของภาษาไทยและภาษาอังกฤษอย่างละเอียด ในแต่ละขั้นตอนของการแก้ไข เรามุ่งเน้นที่การกำหนดคำที่มีประโยชน์มากที่สุดให้ดี มากกว่าการสร้างรายการคำที่หายากจำนวนมากโดยไม่มีการแทรกแซงจากมนุษย์ ซึ่งตอนนี้เรามีชุดคำที่มีประโยชน์อย่างมากแล้ว และเราคิดว่าในตอนท้ายปี 2010 เราจะได้ครอบคลุม 95% ของคำที่ผู้คนค้นหา

แปลกมาก แต่แรงกดดันทางตลาดมักจะผลักดันให้พจนานุกรมทั้งหลายออกจากเส้นทางคุณภาพ เมื่อคนทั่วไปซื้อพจนานุกรมเขามักจะให้ความสำคัญเกินควรกับจำนวนคำที่พิมพ์ไว้บนปกนอก (เป็นเรื่องง่ายที่ทำเพราะมันพิมพ์ไว้อยู่แล้ว) และจะรู้สึกเสียใจหลังจากซื้อไปแล้วเพราะว่าพจนานุกรมนั้นไม่มีประโยชน์สำหรับเขา เพราะมีข้อผิดพลาดมากมาย การกำหนดคำไม่ตรงกับความต้องการของเขา หรือคำที่ให้มาไม่มีประโยชน์

น่าตกใจจริง ๆ ว่ามีผู้ขายบางรายได้ทำอะไรเพื่อให้มีจำนวนคำมากอย่างที่อ้างไว้ กลเม็ดที่พบได้ทั่วไปคือการค้นหารายการคำจำนวนมาก (ซึ่งมักจะเป็นคำหายาก) บนอินเทอร์เน็ตและนำเข้ารายการเหล่านั้นโดยไม่ผ่านการแก้ไขจากมนุษย์แต่อย่างใด กระบวนการนำเข้าแบบอิเล็กทรอนิกส์ทั้งหมดอาจใช้เวลาเพียงไม่กี่นาทีสำหรับผู้เขียน แต่ทำให้เกิดการเพิ่มขึ้นของจำนวนคำที่ดึงดูดความสนใจของลูกค้าได้ แต่มันไม่ได้เพิ่มประโยชน์ใช้สอยของพจนานุกรมอย่างมีนัยสำคัญ ตัวอย่างเช่น พจนานุกรมหลายฉบับมีการนำเข้ารายการพันธุ์พืชพันธุ์สัตว์ สารเคมี ฯลฯ นับหมื่นรายการซึ่งคำจำกัดความที่สร้างขึ้นแบบกลไกจะเป็นแค่ชื่อที่เขียนเอียงหรือสมการเคมี ซึ่งผู้อ่านส่วนใหญ่คงไม่พบประโยชน์ แต่ไม่รวมชื่อสามัญภาษาอังกฤษ หากมีเลย ตัวอย่างอีกตัวหนึ่งคือ พจนานุกรมเล่มหนึ่งที่ฉันดูมีชื่อพระสันตะปาปาและพระคาร์ดินัลชาวโรมันคาทอลิกในอดีตหลายร้อยคนซึ่งถูกแปลแบบทับศัพท์จากภาษาอังกฤษเป็นไทยโดยไม่มีคำจำกัดความเพิ่มเติมเลย! ในบางกรณี การมีคำ “ปลอมหรือเกินเฉพาะการบรรจุ” นี้อาจทำให้การใช้พจนานุกรมยากขึ้น เพราะเสียงหรือการสะกดของคำที่ไม่มีประโยชน์เหล่านี้อาจคล้ายกับคำที่มีประโยชน์ซึ่งผู้อ่านพยายามค้นหาได้

คำเหล่านี้เป็น “คำ” ที่ถูกต้องหรือไม่? ใช่

แต่มีคำเหล่านี้มีประโยชน์จริง ๆ หรือไม่ และควรได้รับ “เครดิต” ในด้านจำนวนคำที่มีประโยชน์เทียบเท่าคำหลักหรือไม่? คุณต้องตัดสินใจเอง

จำนวนคำสามารถบอกคุณได้ว่า พจนานุกรมครอบคลุมคำหลักที่มีประโยชน์หรือไม่? แน่นอนว่าไม่ได้

อย่างไรก็ตาม ด้วยฟอรั่มการเรียนรู้ภาษาไทยที่ยอดเยี่ยมแบบนี้ ผู้คนเริ่มจะเป็นผู้ซื้อที่ฉลาดขึ้น และจะเรียกร้องการครอบคลุมคำหลักที่มีประโยชน์ คำจำกัดความที่ชัดเจนและบอกให้รู้เสมอว่าคำภาษาอังกฤษนั้นกำลังแปลเป็นภาษาไทยในความหมายใด ตัวอย่างการออกเสียงที่ถูกต้องสำหรับทุกคำในภาษาไทย ตัวบ่งชี้ประเภทคำ และการบันทึกเสียงคุณภาพสูงของทุกคำจากเจ้าของภาษาทั้งหมด

คริส พิรัซซี,
Word in the Hand | Slice of Thai | Thailand Fever

คริส และ เบญจวรรณ บน WLT…

คริส และ เบญจวรรณ ไม่ใช่คนแปลกหน้าบน WLT ดังนั้นถ้าคุณมีเวลา โปรดอ่านเพิ่มเติม:

Advertisement
อ่านในภาษาอื่น
บทความนี้มีให้บริการในภาษา: