Жажда денег: Воровство контента
Посмотрите на два сайта ok-doctor.ru и http://www.doctoralvik.ru Видите разницу? нет? А она есть. С нашего сайта в наглую сдирается контент и в самом низу страницы добавляется маааленькая стока с полем для продажи ссылок с сайта.
Сама система до нельзя проста: пользователь запрашивает с «сайта-зеркала» старницу, запрос перенаправляется на оригинальный сайт, и полученная информация выдается на экран, каждое упоминание сайта донора заменятся на адрес сайта нарушителя. Снизу через обычный include вставляется код любой биржы по торговле ссылок. Вот и все. Делай деньги на пустом месте.
За свою карьеру я не раз сталкивался с воровством конента в сети, закрывал сайты копии порочащие имидж компании, но с таким масштабом я столкнулся первый раз. Обычно воровали страницы, делали бесплатные сайты на народ.ру, даже ленились заменять ссылки корректными. А тут совершенно другой подход. Запросы к сайту-донору отправлялись с сетки ip-адресов, причем если один из них банили, остальные продолжали работать. На сайте-нарушителе также организован кэш, что позволяет сохранять часть уже сграбленных страниц непосредственно на сервере.
В моем случае запросы шли с адресов.
78.109.25.215 91.121.137.197 91.121.153.48 91.121.139.215 78.109.30.248 91.121.74.46
Домен нарушителя принадлежит не понятно кому:
domain: OK-DOCTOR.RU type: CORPORATE nserver: ns2.crius.ru. nserver: ns1.crius.ru. state: REGISTERED, DELEGATED person: Private Person phone: +7 495 5975983 fax-no: +7 495 5975983 e-mail: admin@ok-doctor.ru registrar: NAUNET-REG-RIPN created: 2008.06.20 paid-till: 2009.06.20 source: TC-RIPN
Как определить что у вас воруют контент?
Во-первых, можно проверить уникальность текстов с помощью утилит типа www.copyscape.com
Следует регулярно следить за статистикой посещений и источниками обращений.
Я пользовался программой awstat:
| Итог : 0 известных, 16463 неизвестных (unresolved ip) — 15078 Уникальных посетителей | Страниц | Скачано | Байт | Последнее посещение |
|---|---|---|---|---|
| 91.121.137.197 | 25197 | 25197 | 1.94 GB | 21 Авг 2008 — 18:34 |
| 91.121.153.48 | 21663 | 21663 | 1.68 GB | 21 Авг 2008 — 18:35 |
| 91.121.139.215 | 21639 | 21639 | 1.29 GB | 21 Авг 2008 — 18:34 |
| 213.180.206.45 | 19095 | 19095 | 932.86 MB | 23 Авг 2008 — 07:14 |
| 78.109.30.248 | 12785 | 13923 | 601.54 MB | 23 Авг 2008 — 18:38 |
| 91.121.74.46 | 12293 | 12293 | 1.38 GB | 20 Авг 2008 — 22:19 |
| 195.239.211.237 | 9142 | 9142 | 449.87 MB | 08 Авг 2008 — 13:23 |
| 208.43.66.106 | 1890 | 1890 | 124.85 MB | 20 Авг 2008 — 14:00 |
| 67.195.37.186 | 1324 | 1324 | 82.58 MB | 21 Авг 2008 — 03:19 |
| 74.55.143.210 | 1056 | 1056 | 80.44 MB | 24 Авг 2008 — 01:43 |
| 87.118.70.51 | 552 | 552 | 22.16 MB | 24 Авг 2008 — 02:43 |
Посмотрите на первые строки таблицы. Адрес 213.180.206.45 это поисковый бот яндекса.
Name: spider11.yandex.ru
Address: 213.180.206.45
Стоит ли говорить, что мало кто из обычных посетителей смотрит сайт чаще… А тут картина на лицо, Скачано по 2 Гб информации одним ИП-адресом, стоит задуматься что это?
После проведенного анализа можно занести подозрительные IP адреса в deny-лист вашего сервера, и, надеюсь забыть, о воровстве контента хотя бы на время.
Вот так теперь выглядит сайт зеркальщика:
Forbidden
You don’t have permission to access /index.php on this server.Additionally, a 404 Not Found error was encountered while trying to use an ErrorDocument to handle the request.
Apache/1.3.37 Server at www.ok-doctor.ru Port 80
лечебная косметика Биокон
Пусть теперь ищут другую аудиторию для сбыта косметики и лечения зубов
.
Буду рад, если Вы поделитесь своим опытом борьбы с такими ситуациями.