Вы здесь: Главная -> Новости -> -> -> Разработан универсальный распознаватель аббревиатур
Новости науки
2016:
78
2015:
12345678910
2014:
123456789101112
2013:
123456789101112
2012:
123456789101112
2011:
123456789101112
2010:
123456789101112
2009:
123456789101112
2008:
123456789101112
2007:
123456789101112
2006:
123456789101112
Рейтинг@Mail.ru

Разработан универсальный распознаватель аббревиатур


Европейские программисты предложили алгоритм, который позволяет распознавать аббревиатуры и их расшифровку в текстах на 22 языках. Методику поиска аббревиатур группа ученых описала в статье, препринт которой доступен в архиве Корнельского университета. Краткое описание исследования приводится в блоге Technology Review.

Алгоритм показал эффективность около 90 процентов при анализе массива из 400 статей на семи языках: английском, венгерском, испанском, немецком, румынском, французском и чешском. Для определения точности поиска расшифровок аббревиатуры из всех статей были предварительно определены вручную.

Сама методика основана на том принципе, что в стандартных новостных или научных текстах аббревиатура обычно заключена в скобки и расположена сразу после расшифровки термина или названия. Например: Организация объединенных наций (ООН).

Вместе с тем, в работу алгоритма авторам исследования пришлось внести корректировки, связанные с определенными отклонениями от стандартов. Так, в скобках в тексте могли указывать сокращение титула или должности после имени человека, либо использовать англоязычную аббревиатуру в статье на другом языке.

Потенциальной областью применения своей разработки ученые назвали программы для автоматического анализа новостных и научных статей на основе статистики использования тех или иных аббревиатур. Для этого они планируют создать каталог аббревиатур с расшифровками на разных языках.

В отличие от предложенного авторами работы алгоритма, для систематического анализа сложных текстов как правило применяются обучаемые нейронные сети. В частности, подобный механизм решили использовать разработчики Facebook для анализа поведения пользователей и подбора наиболее подходящей информации в новостные ленты.

Источник: Лента.Ру



главная :: наверх :: добавить в избранное :: сделать стартовой :: рекомендовать другу :: карта сайта :: создано: 2013-10-03T00:00:00+00
Наша кнопка:
Научно-образовательный портал