Menciptakan Sumber Bahasa Elektronik
Sumber bahasa elektronik dibutuhkan untuk menyempurnakan penerapan NLP (Pemrosesan Bahasa Alami). Dalam mengembangkan korpus, kami mengumpulkan berbagai teks yang ditulis dalam Bahasa Indonesia Standar, Bahasa Indonesia Dialek Jakarta (formal dan informal) dan juga sumber lain yang tersedia. Pendeknya, kami berupaya menciptakan sebuah korpus dengan genre yang luas.
Selain menciptakan tatabahasa yang terbaca-mesin untuk Bahasa Indonesia, proyek ini juga bertujuan membangun sumber-sumber seperti korpus-korpus beranotasi dan juga Treebank yang berguna untuk penelitian linguistik komputasional Bahasa Indonesia ke depan.
Korpus
Terkait dengan kerjasama dengan Universitas Indonesia di Jakarta, kami bertujuan membangun korpus beranotasi yang berguna dalam penelitian dan penerapan NLP. Tujuan kami adalah membuat korpus yang tersedia untuk para peneliti dan universitas-universitas sebagai usaha mempromosikan penelitian terhadap Bahasa Indonesia. Kami juga bertujuan memastikan keberlangsungan dan ketersediaan data yang dihasilkan dengan merujuk kepada standar yang ditentukan oleh OLAC dan badan penelitian lain. Korpus tersebut nantinya akan tersedia untuk umum, kemungkinan bisa diakses dari arsip digital Bahasa-Bahasa Pasifik, PARADISEC.
Treebank
Berbeda dengan Bahasa Inggris, sumber dan program NLP seperti parser yang tersedia untuk umum dalam Bahasa Indonesia masih terbatas. Sebagai bagian dari ARC Grant, kami berencana untuk mendanai seorang mahasiswa PhD untuk mengembangkan Parse Treebank Bahasa Indonesia. Dengan pengembangan sumber-sumber data, seperti halnya Treebank, akan semakin banyak program dan penerapan NLP yang dapat dikembangkan untuk Bahasa Indonesia.