Уважаемые пользователи сайта CopyWatcher.ru

Наш сервис временно не работает!

Всем посетителям нашего сайта предлагаем воспользоваться нашим новым сервисом:
CopyWatcher.com - мониторинг и защита текста от плагиата в Google

Начните сейчас

Что такое humans.txt и как его сделать

В прошлом посте я обещал рассказать про ещё один "способ" связать свой блог с социальными сетями. Способ этот относительно новаторский, и имя ему - humans.txt Humans.txt - файл, созданный для того, чтобы указать ссылки на аккаунты, автора проекта, в социальных сетях, и для того, что бы сказать спасибо, всем тем, кто помогал развитию проекта. На данный момент учитывается только Google. Участие файла в ранжировании не доказано. Это как robots.txt, только для людей ....

Подробнее »

12 Ноября 2012

Анализ методов определения дубликатов для Web-документов

Аннотация В работе дается сравнительное экспериментальное исследование наиболее популярных современных методов обнаружения нечетких дубликатов для текстовых документов. Приводится количественная оценка показателей полноты, точности и F-меры. Тестовый набор, использованный в экспериментах, представляет собой веб-коллекцию РОМИП. Предложены два новых алгоритма, имеющих высокие показатели качества. 1 Введение Проблема обнаружения нечетких дубликатов является одной из наиболее важных ....

Подробнее »

09 Ноября 2012

Определение нечетких дубликатов для коротких документов

Хочу поделиться простым, но эффективным алгоритмом определения нечетких копий документов. Есть много статей об использовании для этой цели алгоритма шинглов. Ходят слухи, что большие поисковые системы используют очень похожий алгоритм у себя. Однако, все признают, что шинглы плохо подходят для коротких (3-5 предложений) документов. А в моей задаче надо было работать именно с такими документами. В качестве решения предлагают закольцовывать текст, чтобы как бы сделать из него длинный, н ....

Подробнее »

09 Ноября 2012

Python: Алгоритм Шинглов - поиск нечетких дубликатов текста

В этой статье я расскажу об алгоритме поиска нечетких дубликатов под названием «Алгоритм Шинглов». А так же реализую данный алгоритм на языке Python. Почему я решил изучить данный алгоритм? Сам я являюсь SEO-шником, занимаюсь продвижением сайтов и так далее… Соответственно, моя работа заключается в изменении выдачи поисковой системы по определенному запросу. Но проработав более года в этом направлении меня заинтересовала внутренняя часть поисковых систем. Как они борютс ....

Подробнее »

09 Ноября 2012

Поиск нечетких дубликатов. Алгоритм шинглов для веб-документов

Ранее я показал элементарную реализацию алгоритма шинглов, позволяющую определять, являются ли два документа почти дубликатами или нет. В этот раз я поясню реализацию алгоритма, описанную Зеленковым Ю. Г. и Сегаловичем И.В. в публикации «Сравнительный анализ методов определения нечетких дубликатов для Web-документов». Этим я начинаю серию из трех теоретических статей, в которых постараюсь доступным языком описать принцип алгоритмов шинглов, супершинглов и мегашинглов для сравн ....

Подробнее »

09 Ноября 2012

Наши социальные каналы:

Подписаться на RSS