Friday, September 4, 2009

морфология

Тестировал google и yandex на распознавание форм слова. Придумал хорошую проверку -- знают ли поискавики что слово "есть" это не только инфинитив но и личная форма глагола "быть" (и еще куча всего) -- дал им запрос "есть в будущем". Справились. Оба нашли тексты содержащие фразу "что будет в будущем". Это та мелочь с которой не справятся поисковые алгоритмы основанные на стеммерах. Про людей которые просто включают запрос пользоваталя в LIKE '%..%' я вообще молчу.
P.S. Ищу библиотеку морфологического анализа русского языка на java. JNI + С++ не предлагать =)

2 comments:

  1. Привет! Если интересно, есть java-обертка для яндексовского Mystem-а, лежит здесь: http://www.nalaps.ru
    ReplyDelete