ดาวน์โหลดเล็กซิตรอน ฟรีดิกส์สำหรับคนไทย

พจนานุกรมสื่ออิเล็กทรอนิกส์ไทย <-> อังกฤษ LEXiTRON เวอร์ชัน 3.0beta จัดทำโดยหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษา ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ เป็นงานพัฒนาต่อเนื่องจาก เวอร์ชัน 2.6 ซึ่งเพิ่มเติมฐานข้อมูลจากเดิมที่มีอยู่ให้เป็นคลังข้อความพจนานุกรมที่มีขนาดใหญ่ หลักการสำคัญของการพัฒนา LEXiTRON คือ การนำเทคโนโลยีฐานข้อมูลขนาดใหญ่เข้ามาช่วยในการวิจัยและพัฒนาในสาขาการประมวลผล ภาษาธรรมชาติ เรียกว่า การสร้างพจนานุกรมจากฐานข้อมูลขนาดใหญ่ (Corpus-Based Dictionary)

วิธีการสร้างฐานข้อมูลขนาดใหญ่ (Corpus) เป็นการใช้เทคโนโลยีทางคอมพิวเตอร์รวบรวมและคัดเลือกคำ ประโยค หรือข้อความ ที่มีใช้จริงและมีอัตราการปรากฏสูงในบริบทต่างๆ ของการใช้ภาษา จากแหล่งข้อมูลและข่าวสารที่เผยแพร่ทางอินเทอร์เน็ตและแหล่งข้อมูลอื่นๆ ที่เชื่อถือได้ เช่น วรรณกรรม
บทความ เอกสารทางวิชาการ ข้อมูลข่าวสารจากหนังสือพิมพ์ เป็นต้น


ลักษณะเด่น
แสดงความหมายและประเภทของคำพร้อมทั้งประโยคตัวอย่างที่มีใช้จริงและมีอัตราการปรากฏ
สูงในบริบทต่างๆ ของการใช้ภาษา

องค์ประกอบของการพัฒนา
1. ฐานข้อมูลพจนานุกรม
1.1 อังกฤษ-ไทย (79,000 คำ) ประกอบด้วย คำศัพท์ภาษาอังกฤษ คำแปลภาษาไทย คำอ่าน คำหลัก
คำค้นหา คำพ้องและคำตรงข้ามความหมายภาษาไทย คำพ้องและคำตรงข้ามความหมายภาษาอังกฤษ และตัวอย่างประโยคภาษาอังกฤษที่อ้างอิงจากคลังข้อความขนาดใหญ่ (Corpus-Based Sentence)
1.2 ไทย-อังกฤษ (51,000 คำ) ประกอบด้วย คำศัพท์ภาษาไทย คำแปลภาษาอังกฤษ คำพ้อง
ความหมายภาษาไทย คำตรงข้ามความหมายภาษาไทย คำนิยามศัพท์ คำลักษณนาม และตัวอย่างประโยค
ภาษาไทย
2. การพัฒนาโปรแกรม
2.1 คลังข้อมูลประโยค คือ Orchid Corpus ที่พัฒนาโดย ฝ่ายวิจัยและพัฒนาสาขาสารสนเทศ
2.2 โปรแกรมสำหรับการพัฒนาคือ J builder และ Apache

Acknowledgements
1. เสียงภาษาอังกฤษ สร้างจาก Microsoft Concatenative Speech Synthesis Engine
2. เสียงภาษาไทย สร้างจาก Vaja Text-to-Speech Engine พัฒนาโดย RDI, NECTEC

ที่มา http://lexitron.nectec.or.th/2009_1/index.php?q=common_manager/aboutlex
สนใจดาวโหลดฟรีได้ที่ http://lexitron.nectec.or.th/2009_1/index.php?q=common_manager/aboutlex(ต้องสมัครสมาชิกก่อนนะครับ ถึงจะเข้าไปโหลดได้)

Post a Comment