Агентство передовых исследований в сфере разведки (IARPA) предоставило грант в размере $16,7 млн Институту информатики (ISI) при калифорнийской USC Viterbi School of Engineering в рамках финансирования проекта по разработке автоматизированной системы сбора и адаптации данных для быстрого перевода «непонятных языков».
Проект получила название SARAL (сокращенно от Summarization and domain-Adaptive Retrieval). К работе над ним привлечено более 30 экспертов в области технологий машинного перевода, распознавания речи, морфологии, а также поиска, интерпретации и обобщения данных.
В настоящее время, для тестирования возможностей системы перевода SARAL используются два так называемых «бедных» языках — тагалог и суахили, которые IARPA определило в качестве приоритетных на данном этапе реализации проекта. А по мере его дальнейшего развития в разработку будут приниматься также другие языки мира (пример работы автоматической системы перевода посмотреть можно тут — www.m-translate.com.ua).
Всего миллион слов
На языках с которыми начали работать специалисты SARAL в настоящее время разговаривают сотни миллионов человек. Но из-за очень небольшого количества письменных документов на этих языках их принято называть «low-resource languages» (т.е. буквально «низкоресурными»). В виду такой их специфики эти языки представляют собой настоящую проблему даже для самых современных систем машинного перевода, которые, как правило, «обучаются» на миллионах письменных документов.
Как отметил в одном из своих недавних интервью руководитель проекта SARAL Скотт Миллер, для обучения системы перевода новому языку требуется не менее 300 миллионов слов, а в данном случае в распоряжении специалистов — в общей сложности не более 800 тысяч слов, что очень мало.
С чего начать?
Специалисты ISI начали с формирования документальной базы на тагалог и суахили, куда входят записи разговорной речи, электронные документы и даже видеоролики, которые ранее были переведены на английский. Эти данные лягут в основу алгоритма, которые будет использоваться для детального анализа шаблонных языковых конструкций, в частности поиска подлежащих и сказуемых в предложениях, определения мест глаголов и прилагательных их отношения к другим словам.
Далее система будет сориентирована на поиск данных по запросам, относящимся к заданным темам (к примеру, «власть и политика», «образование», «образ жизни» и пр.) и должна выводить в среднем по 100 релевантных слов по каждому отдельному запросу.
Стоит также отметить, что помимо программы по созданию быстрого переводчика с «непонятных языков» IARPA параллельно также финансирует проект MATERIAL (Machine Translation for English Retrieval of Information in Any Language, буквально «машинный перевод на английский с любого языка»), к участию в котором планирует привлечь еще целый ряд университетов, исследовательских центров и коммерческих компаний, в частности Университет Джонса Хопкинса, Колумбийский университет и компанию Raytheon BBN Technologies. По материалам USC News.
[irp]