Архив

Публикации с меткой «Rewriter»

Онлайн синонимайзер VS Онлайн рерайтер

27 мая 2009

С появлением шинглов в алгоритмах Яндекса для определения дубликатов текстов много народу начало думать, как эти шинглы качественно разрушать, чтобы получать уникальный текст из совсем неуникального! Начал думать и я.

Синонимайзер

СинонимайзерПервое, что всем пришло на ум и мне в том числе — простая замена слов на их синонимы. Но при простой замене синонимы частенько искажают смысл, заложенный в текст. То согласование двух слов не соблюдается, например, одно прилагательное идет во множественном числе, а следом существительное в единственном, то слова вообще не вяжутся. В общем, получается не текст, а сплошной бред. Такой бредовый синонимайзер еще пару дней назад был доступен для использования на http://synonyma.ru.

Для улучшения качества синонимизации нужны алгоритмы поиска, подходящих по смыслу, или хотя бы, чтобы соблюдалось согласованность слов. Еще не мешало бы разбить базу синонимов по разным тематикам и в зависимости от тематики текста пользоваться той или иной БД синонимов.

Еще был вариант спрашивать, например, у Яндекс.XML как часто появляется в результатах то или иное словосочетание, но при большой базе синонимов, например, 400к слов, где в среднем на каждое слово приходится по 4 синонима, получается надо сделать 16 000к запросов, а Яндекс.XML разрешает в сутки выполнять не более 1000 запросов. Ждать 43 года, пока отпарсится вся база, совсем не хотелось, поэтому идея отвалилась сама собой. Читать полностью…

Popularity: 8%

Рерайтер, Сервисы, Синонимайзер , ,