Háskóli Íslands

Hagkvæm máltækni utan ensku

Viable language technology beyond English


Verkefnið hlaut styrk frá Rannsóknasjóði (RANNÍS) 2009-2011.

Verkefnisstjóri: Eiríkur Rögnvaldsson.

Meðumsækjendur/verkefnisstjórn: Hrafn Loftsson, Sigrún Helgadóttir, Kristín Bjarnadóttir, Matthew Whelpton (Co-ordinator for Workpackage on Database of Semantic Relations), Joel Wallenberg, Anthony Kroch og Michel Forcada.

Helstu starfsmenn (rannsóknamenn): Anna Björk Nikulásdóttir, Anton Karl Ingason, Einar Freyr Sigurðsson og Martha Dís Brandt.

Vefslóð verkefnisins.

 

Um verkefnið:

Verkefnið hefur að meginmarkmiði að þróa vísindalegar máltækniaðferðir sem henta auðlindalitlum tungumálum, einkum beyg­ingamálum. Að því verður unnið með því að endurbæta rannsóknaraðferðir og laga þær að ís­lensku; nýta sérkenni íslenskunnar til að þróa nýjar hagkvæmar aðferðir sem gera kleift að byggja upp tól og gögn á einfaldari hátt en áður; og nýta þverfaglega þekkingu rannsóknar­hópsins, reynslu hans úr fyrri verkefnum og samstarf við framúrskarandi erlenda vísindamenn til að tengja á frjóan hátt aðferðir ólíkra fræðigreina.

Innan verkefnisins verður unnið að þróun rannsóknaraðferða og gagna á þremur sviðum; merkingarnáms og merkingarneta, vélrænna grófþýðinga, og þáttunaraðferða og uppbygg­ingar trjábanka. Lögð verður áhersla á að tefla saman málvísindalegum og tölfræðilegum að­ferðum og láta þær vinna saman til að skapa nýja þekkingu og opna nýja möguleika.

 

Helstu samstarfsaðilar:

Michel L. Forcada, Universitat d'Alacant og Anthony S. Kroch, University of Pennsylvania.

 

Ráðstefnur skipulagðar á vegum verkefnisins:

Máltækni í mótun. Málstofa á Hugvísindaþingi, Háskóla Íslands, 2009.

Tekið út úr trjábanka: Nýir möguleikar í megindlegum setningafræðirannsóknum. Málstofa á Hugvísindaþingi, Háskóla Íslands, 2011.

 

Helstu fræðirit og greinar sem spruttu/hafa sprottið upp úr verkefninu:

Anna Björk Nikulásdóttir og Matthew Whelpton. 2010. „Lexicon Acquisition through Noun Clustering“. LexicoNordica 17:141-161.

Anna Björk Nikulásdóttir og Matthew Whelpton. 2009. „Automatic Extraction of Semantic Relations for Less-­Resourced Languages“. Pedersen, Bolette Sandford, Anna Braasch, Sanni Nimb and Ruth Vatvedt Fjeld (ritstj.): Proceedings of the NODALIDA 2009 workshop WordNets and other Lexical Semantic Resources — between Lexical Semantics, Lexicography, Terminology and Formal Ontologies, bls. 1-6. NEALT Proceedings Series, Vol. 7 (2009), 1-6. Northern European Association for Language Technology (NEALT), Tartu University Library. Sjá hér.

Anna Björk Nikulásdóttir og Matthew Whelpton. 2010. „Extraction of Semantic Relations as a Basis for a Future Semantic Database for Icelandic“. Proceedings of 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, bls. 33-39. Valletta, Möltu.

Eiríkur Rögnvaldsson, Anton Karl Ingason og Einar Freyr Sigurðsson. 2011. „Coping with Variation in the Icelandic Diachronic Treebank“. Johannessen, Janne Bondi (ritstj.): Language Variation Infrastructure. Papers on selected projects, bls. 97-111. Oslo Studies in Language 3.2. University of Oslo, Osló.

Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. „Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change“. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj.): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series, bls. 63-76. Springer, Berlín.

Martha Dís Brandt, Hrafn Loftsson, Hlynur Sigurþórsson and Francis M. Tyers. „Apertium-IceNLP: A rule-based Icelandic to English machine translation system“. Proceedings of the 15th Annual Conference of the European Association for Machine Translation (EAMT-2011). Leuven, Belgíu. Sjá hér.

Wallenberg, Joel, Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur Rögnvaldsson. 2011. Icelandic Parsed Historical Corpus (IcePaHC). Version 0.4. Sjá hér.

 

Helstu ráðstefnufyrirlestrar tengdir verkefninu:

Anna Björk Nikulásdóttir. 2010. „A Semantic Database for Icelandic Language Technology“. Leksikografi og sprogteknologi i Norden, Schæffergården, Danmörku, 30. janúar.

Martha Dís Brandt og Francis M. Tyers. 2010. „Icelandic Machine Translation: Recent Progress“. Íslensk máltækni 2010, Háskólanum í Reykjavík, 15. apríl.

Wallenberg, Joel C., Einar Freyr Sigurðsson og Anton Karl Ingason. 2010. „Extending the Comparative Dimension of Diachronic Syntax. A Parsed Corpus of Icelandic from the 12th Century to Modern Times“. Erindi flutt í UMass, Amherst, 11. maí, og NYU, New York, 15. maí.

Wallenberg, Joel C., Einar Freyr Sigurðsson og Anton Karl Ingason. 2010. „12th Century Homilies - the Cutting Edge in Parsing“. Íslensk máltækni 2010, Háskólinn í Reykjavík, 15. apríl.

Wallenberg, Joel C., Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur Rögnvaldsson. 2010. „Icelandic Parsed Historical Corpus: Description and some preliminary results“. Nordic Language Variation: Grammatical, Sociolinguistic and Infrastructural Perspectives. Reykjavík, 9. október.

Þú ert að nota: brimir.rhi.hi.is