Inviseble_Demon
Мой дом здесь!
- Регистрация
- 11 Дек 2008
- Сообщения
- 478
- Реакции
- 377
- Автор темы
- #1
Заинтересовала тема по получению процента почти уникальности текста.
С самого начала наткнулся на тему на питоне, решил переписать на PHP но тут меня опередили
Но вот чет я понять не могу... В чем смысл делать шинглы по количеству слов ?? Намного релевантное посимвольно! Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной
В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).
Что скажите ? Может, существуют более новые методы ?
С самого начала наткнулся на тему на питоне, решил переписать на PHP но тут меня опередили
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
Но вот чет я понять не могу... В чем смысл делать шинглы по количеству слов ?? Намного релевантное посимвольно! Потому как несовподаемость шинглов при проверке текста с 100 словами и измененным только лиш 1 последним выйдет 90% уникальной
В итоге созрела идея о том чтобы шингл состоял не из набора слов а из набора символов - замедлит работу но увеличит релевантность (вроде..).
Что скажите ? Может, существуют более новые методы ?