Главная > SEO > Жажда денег: Воровство контента

Жажда денег: Воровство контента

Посмотрите на два сайта ok-doctor.ru и http://www.doctoralvik.ru Видите разницу? нет? А она есть. С нашего сайта в наглую сдирается контент и в самом низу страницы добавляется маааленькая стока с полем для продажи ссылок с сайта.

Сама система до нельзя проста: пользователь запрашивает с «сайта-зеркала» старницу, запрос перенаправляется на оригинальный сайт, и полученная информация выдается на экран, каждое упоминание сайта донора заменятся на адрес сайта нарушителя. Снизу через обычный include вставляется код любой биржы по торговле ссылок. Вот и все. Делай деньги на пустом месте.

За свою карьеру я не раз сталкивался с воровством конента в сети, закрывал сайты копии порочащие имидж компании, но с таким масштабом я столкнулся первый раз. Обычно воровали страницы, делали бесплатные сайты на народ.ру, даже ленились заменять ссылки корректными. А тут совершенно другой подход. Запросы к сайту-донору отправлялись с сетки ip-адресов, причем если один из них банили, остальные продолжали работать. На сайте-нарушителе также организован кэш, что позволяет сохранять часть уже сграбленных страниц непосредственно на сервере.

В моем случае запросы шли с адресов.

78.109.25.215
91.121.137.197
91.121.153.48
91.121.139.215
78.109.30.248
91.121.74.46

Домен нарушителя принадлежит не понятно кому:

domain:     OK-DOCTOR.RU
type:       CORPORATE
nserver:    ns2.crius.ru.
nserver:    ns1.crius.ru.
state:      REGISTERED, DELEGATED
person:     Private Person
phone:      +7 495 5975983
fax-no:     +7 495 5975983
e-mail:     admin@ok-doctor.ru
registrar:  NAUNET-REG-RIPN
created:    2008.06.20
paid-till:  2009.06.20
source:     TC-RIPN

Как определить что у вас воруют контент?

Во-первых, можно проверить уникальность текстов с помощью утилит типа www.copyscape.com

Следует регулярно следить за статистикой посещений и источниками обращений.

Я пользовался программой awstat:

Итог : 0 известных, 16463 неизвестных (unresolved ip) — 15078 Уникальных посетителей Страниц Скачано Байт Последнее посещение
91.121.137.197 25197 25197 1.94 GB 21 Авг 2008 — 18:34
91.121.153.48 21663 21663 1.68 GB 21 Авг 2008 — 18:35
91.121.139.215 21639 21639 1.29 GB 21 Авг 2008 — 18:34
213.180.206.45 19095 19095 932.86 MB 23 Авг 2008 — 07:14
78.109.30.248 12785 13923 601.54 MB 23 Авг 2008 — 18:38
91.121.74.46 12293 12293 1.38 GB 20 Авг 2008 — 22:19
195.239.211.237 9142 9142 449.87 MB 08 Авг 2008 — 13:23
208.43.66.106 1890 1890 124.85 MB 20 Авг 2008 — 14:00
67.195.37.186 1324 1324 82.58 MB 21 Авг 2008 — 03:19
74.55.143.210 1056 1056 80.44 MB 24 Авг 2008 — 01:43
87.118.70.51 552 552 22.16 MB 24 Авг 2008 — 02:43

Посмотрите на первые строки таблицы. Адрес 213.180.206.45 это поисковый бот яндекса.

Name: spider11.yandex.ru
Address: 213.180.206.45

Стоит ли говорить, что мало кто из обычных посетителей смотрит сайт чаще… А тут картина на лицо, Скачано по 2 Гб информации одним ИП-адресом, стоит задуматься что это?

После проведенного анализа можно занести подозрительные IP адреса в deny-лист вашего сервера, и, надеюсь забыть, о воровстве контента хотя бы на время.

Вот так теперь выглядит сайт зеркальщика:

Forbidden
You don’t have permission to access /index.php on this server.

Additionally, a 404 Not Found error was encountered while trying to use an ErrorDocument to handle the request.
Apache/1.3.37 Server at www.ok-doctor.ru Port 80
лечебная косметика Биокон

Пусть теперь ищут другую аудиторию для сбыта косметики и лечения зубов :) .

Буду рад, если Вы поделитесь своим опытом борьбы с такими ситуациями.

Categories: SEO Tags: , ,
  • http://aivolkov.ru/ Алексей Волков

    С точки зрения обнаружения это очень простой способ воровства. Сложнее приходится, когда сайт целиком копируется, возможно, с периодическими обновлениями. Таких воров отследить сложнее, т.к. они генерируют трафик как обычный пользователь, да и отключить сложнее — нужно, чтобы хостинг отвечал на абузы, а такие воры обычно хостятся на абузостойких хостингах.

    Из всех вариантов поиска ворованного контента мне больше всего понравился следующий:
    1. Для каждой страницы генерируем уникальный хэш. Например что-то вроде 1f3870be274f6c49b3e31a0c6728957fiuahiuhus-aysga-suy. Самое главное, чтобы он не менялся при обновлениях на самой странице, либо при изменении адресов и пр., т.е. был бы постоянным для любой страницы. Можно варьировать этот пункт, чтобы его было сложнее вырезать на автомате.
    2. Периодически ищем Яндексом и Гуглем все хэши на нашем сайте. Можно даже автоматизировать.

    Метод сравним с поиском в copyscape.com, однако, мы не пользуемся чьим-то сервисом, который может не сработать по различным причинам (владелец сайта с ворованным контентом может запретить индексацию этим ботом). А вот Яндекс и Гугль — основные средства, позволяющие заработать на этих клонах, поэтому они всегда найдут копию. А если они не нашли копию, значит СЕ-трафика на них нет, и не стоит так сильно жалеть о том, что есть такое зеркало :)

  • http://dimka.yz74.ru Дмитрий Юзепчук

    Вариант хорош, но с точки зрения пользователя выглядит не красиво. Если развить тему может быть в текст страницы внедрять своего рода хеши-метки?

  • http://aivolkov.ru/ Алексей Волков

    На самом деле тут большое поле для творчества :)
    Пишут же в футере, время генерации страницы — такое-то. Может это элеент дизайна страницы? :) В общем, кто ищет, тот всегда найдет хороший способ, если проблема действительно есть.

    Медицинские сайты для таких «воров» — почти золотая ниша, я бы сам что-нибудь медицинское сделал ;)

  • http://dimka.yz74.ru Дмитрий Юзепчук

    В общем прошло около недели, сайт успешно выпал из индекса Яндекса, на бирже ссылок его вроде забанили. Думаю это одна маленькая победа.

  • RUKA

    Подтверждаю, что есть такой поганец: сделал 16 доменов поместил их на один и тот же ip (78.109.30.251) и сделал копии с родных сайтов, заменив названия на свое.
    Хостируется вор на
    nserver: ns1.crius.ru.
    nserver: ns2.crius.ru.

    Площадку для ВОРа дает Павел Карасихин (crius.ru):

    inetnum: 78.109.30.248 — 78.109.30.251
    netname: crius
    descr: crius — Pavel Karasihin
    country: UA
    admin-c: PK3741-RIPE
    tech-c: PK3741-RIPE
    status: ASSIGNED PA
    mnt-by: MNT-HOSTINGUA
    source: RIPE # Filtered

    person: Pavel Karasihin
    address: Russian Federation, Moskva, Ryazanskiy prospekt h. 30/15
    phone: +74959221444 (звоним и предупреждаем о воре)
    nic-hdl: PK3741-RIPE
    abuse-mailbox: crius@mail.ru (пишем на почту и предупреждаем о воре)
    source: RIPE # Filtered

    Робот с ip 78.109.30.248 ходит к оригинальный сайтам и ворует целиком сайты.

    Для борьбы с этим вором делаем следующее:
    В корне сайта добавить в файл .htaccess строки:

    Order Allow,Deny
    Allow from all
    Deny from xxx.xxx.xxx.xxx

    где xxx.xxx.xxx.xxx — это ip-адрес компьютера, которому запрещается доступ. Возможно также указывать доменное имя. В директивах Deny и Allow можно перечислять через пробел ip или доменные имена. Директива Order определяет последовательность применения директив Allow и Deny, т.е. «Order Allow,Deny» сначала разрешит доступ тем, кто упомянут в директиве Allow, затем запретит тем, кто упомянут в Deny.

    Т.е. для нашего случая в файле .htaccess пишем:

    Order Allow,Deny
    Allow from all
    Deny from 78.109.25.208 78.109.25.209 78.109.25.210 78.109.25.211 78.109.25.212 78.109.25.213 78.109.25.214 78.109.25.215 78.109.30.248 78.109.30.249 78.109.30.250 78.109.30.251 91.121.74.46 91.121.153.48 91.121.137.197 91.121.139.215

    • http://twitter.com/PiraSerg Serg

      Хорошая таблетка! Я бы даже сказал пилюля. Давно хотел закрыть пару адресов. Спасибо за эту мысль!

  • http://dimka.yz74.ru Дмитрий Юзепчук

    Спасибо за развернутый комментарий. В моем случае это помогло.

  • http://www.seneschal.ru Dmitry_Seneschal

    Дмитрий, а не было идеи наехать юридическими мерами?

    Получаем доказательства, что на таком-то сайте была такая-то информация (украденная у вас). Обращаемся в Руцентр о запрете передачи прав на сайт на время разбирательства (чтоб не сбежали) и подаем документы в суд. Можно отсудить минимум по 10000р за каждый текст, описание, фото. Плюс возмещение судебных издержек.

  • http://dimka.yz74.ru Дмитрий Юзепчук

    Мы обсуждали это вопрос с начальником юридического отдела и генеральным директором. Решили не отвлекаться. Главное чтобы сайт жил и приносил людям пользу, тем более что «похититель» контента быстро сдался, сразу как все IP адреса были занесены в черный список.

  • http://absolutmebel.ru xAL

    Вот и с моего сайта начали воровать контент.
    Решил пойти по следующему пути: отправить жалобу в поисковую систему, подтвердив свое авторство на тексты и картинки веб-архивом 2007-го года (web.archive.org). Говорят, что таких тут же банят поисковые системы, и, таким образом, нам они не будут мешать :)

  • http://greesmagik.livejournal.com greesmagik

    Случайно зашел к Вам на блог, нашел много интересного на моей страничке http://greesmagik.livejournal.com я описал подробно что произошло у нашей компании с сайтом, кому интересно будет заходите — читайте(засорять блог не буду). У меня такой вопрос а в 2009 году попыток клонирования не было? У меня 3 клона сайта на crius…т.е. до сих пор ребята страдают воровством, причем помимо воровства контента конкурентами, еще и полные клоны сайта делаются периодически, причем! копии делаются с одной и той же копии — т.е. примерно в марте кто то — что то скопировало себе сайт на ПК, а теперь распространяет копии, с небольшими изменениями в код страниц. Сможет кто нибудь объяснить зачем кто то скупает доменные имена и копирует сайт anjelu.ru на anjmed.ru, anjelex.ru, anjelus.ru …интересно список закончится или мы побьем все рекорды?

  • http://greesmagik.livejournal.com greesmagik

    @Dmitry_Seneschal
    Я насколько понял Вы с юр.компании и как раз занимаетесь такими вот делами, так Вы мне ответь а почему же если Вы верите что минимум 10000 руб. можно будет получить, оплату берете вперед а не после того как эти 10000 я получу? Кто поверит что Вы с crius или с кого другого сможете отсудить, все лица подставные, серваки как правило где нибудь в Люксембурге арендуются, а для того чтобы получить эти деньги нужно поймать того кто все это разместил на этих серваках…Вы как себе это представляете? Я пока тока один законный вариант вижу пойду жаловаться Медведеву:))) …а чтоб поверить что юрист сможет тут что то сделать нужен прецедент хотя бы…

  • http://dimka.yz74.ru Дмитрий Юзепчук

    @greesmagik
    В 2009 году попытки «стырить» контент прекратились. Надеюсь навсегда!

  • http://www.vseprokosmos.ru VPK

    @RUKA А нельзя сделать так?
    Deny from 78.109.25.208-215

  • http://dimka.yz74.ru dimka

    Можно.

  • http://www.webideal.ru SEO оптимизатор

    Если у вас крадут контент это очень хорошо!!! Получите лицензию на свой домен, разместите на сайте правильный копирайт, выявляейте нарушителей, требуйте вознаграждение или подавайте в суд! Все равно выиграете, и неустойку хорошую возьмете с нарушителя.