<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Раздел полезных советов: Отсеивание AI-ботов на web-сервере через Cookie</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html</link>
    <description>Для отсеивания ботов, агрессивно &#091;&#091;https://www.opennet.ru/opennews/art.shtml?num=62925 индексирующих&#093;&#093; контент, игнорируя правила из robots.txt, можно воспользоваться тем, что многие боты запрашивают заранее предопределённый набор страниц и не передают Cookie, выставленные в ответ на прошлые запросы. &lt;br&gt;&lt;br&gt;Идея в том, чтобы при поступлении запроса проверять наличие определённой  Cookie и если она отсутствует вместо запрошенного контента отдавать HTML-заглушку, возвращающую JavaScript-код для выставления Cookie и перенаправления пользователя на ту же страницу.  При отправке запроса из браузера при первом входе запрос незаметно для пользователя будет проброшен через код установки Cookie. В промежуточном ответе используем код &lt;br&gt;ошибки HTTP &#091;&#091;https://developer.mozilla.org/en-US/docs/Web/HTTP/Reference/Status/418 418&#093;&#093;, информирующий о нежелании обрабатывать автоматизированные запросы.&lt;br&gt;&lt;br&gt;Предложенный метод не отсеивает всех ботов, но проще в настройке и менее назойливый для посетителей, чем применение системы защит</description>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#36</link>
    <pubDate>Sun, 29 Mar 2026 16:05:18 GMT</pubDate>
    <description>Куки в боте нет вообще никакой проблемы выставлять. Это тривиально делается в httpx. Как и подделка хедеров под браузер. Но это всё - проигранная игра, я уже сказал - на гитхабе в последнее время все скрейперы почти поголовно на Microsoft Playwright написаны, видимо клод натренировали именно его юзать. На куку на домен общее максимум полмегабайта хранить можно, но учитывая что инстанс браузера минимум сотни мегов жрёт, и им - ОК, так вы ботов не заблокируете. Некоторым и нейросеть ведь крутить ресурсов хватает, а это уже десятки гигов для имеющей смысл нейросети, ведь без пропускания через нейросеть скрейпинг почти бесполезен, ни парсинг яндекс томита-парсером (GLR-парсер ... но для естественного языка), ни Stanford NER нужного качества вам не обеспечат, только БЯМ. Так что даже требуя полноценный браузер вы ботов не заблокируете. Даже если вы на просто просмотр каптчу поставите, так вы мощных ботов не заблокируете, для её распознавания нейронка на MobileViT всего 10 мегов весила, 10000 классов объектов, 5 ле</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Maxim Chirkov)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#35</link>
    <pubDate>Sun, 29 Mar 2026 05:28:13 GMT</pubDate>
    <description>Сделал выставление cookie не через JS, должно во всём работать, что поддерживает Cookie.&lt;br&gt;&lt;br&gt;С ботами совсем всё становится плохо. Раньше они не выставляли referrer и по этому признаку их можно было отсеивать. С прошлой недели referrer стал приходить в основной массе и пришлось сделать отсеивание по cookie. Незнаю насколько этого хватит. Небольшой процент ботов, в основном от ByteDance, Cookie умеет ставить, но трафик от них относетильно небольшой.&lt;br&gt;&lt;br&gt;Проблема в том, что на страницах с комментриями под каждым комментарием ссылка на отправку ответа. Индексируя эти страницы боты игнорируют атрибут nofollow и флудят запросами на скрипт отпрвки ответа. Сам скрипт нересурсоёмкий, но боты параллельно индексируют несколько станиц и получается, что отправляют одновременно сотни запросов. Усугубляет это то, что всё это происходит с разных IP - лезут разом с кучи адресов, в основном из китайских, вьетнамских и бразильских подсетей. Например, за вчера были обращения к скрипту публикации ответа с 257581 уникальных IP. За </description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#34</link>
    <pubDate>Sat, 28 Mar 2026 22:10:52 GMT</pubDate>
    <description>Блин, анон, вот ты вредитель, теперь Чирков эту гадость на опеннет запилил, и постинг комментов без JS отвалился. Я, конечно, починил&lt;br&gt;&lt;br&gt;cookieStore.get(&quot;btime&quot;).then(c =&amp;gt; &#123;&lt;br&gt;if (!c) &#123;&lt;br&gt;let nowtime = new Date().getTime() // 1000;&lt;br&gt;cookieStore.set(&#123;&lt;br&gt;&quot;name&quot;: &quot;btime&quot;,&lt;br&gt;&quot;path&quot;: &quot;/&quot;,&lt;br&gt;&quot;value&quot;: nowtime + &apos;.&apos; + nowtime,&lt;br&gt;&quot;saneSite&quot;: &quot;strict&quot;,&lt;br&gt;&quot;maxAge&quot;: 2592000,&lt;br&gt;&#125;);&lt;br&gt;&#125;&lt;br&gt;&#125;);&lt;br&gt;&lt;br&gt;, но в lynx это дерьмо, разумеется, работать не будет.&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#33</link>
    <pubDate>Sat, 28 Feb 2026 06:17:30 GMT</pubDate>
    <description>По итогу Cloudflare будет единственным, кто имеет автоматизированный доступ к контенту сайтов, т.к. его используют для обнаружения ботов. Можно будет продавать данные. И вообще, как можно отличить поискового бота от AI? Суть ведь их работы одна и та же - собирать данные.&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#32</link>
    <pubDate>Tue, 24 Feb 2026 23:44:03 GMT</pubDate>
    <description>Авторы Anubis не принуждают сайты с опенсорсом использовать своё творение. Так что, надеюсь, ты уже заблокировал(-а)(-о) себе ану^W эти негодные сайты с опенсорсом и пользуешься только &quot;всяким проприетарным&quot; с правильными, цисгендерными толстыми зондами.&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Tron is Whistling)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#30</link>
    <pubDate>Fri, 06 Feb 2026 18:00:00 GMT</pubDate>
    <description>Мне как-то фиолетово, есть та же наружная и телевизионная реклама, которая &amp;gt; SEO.&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Vikarti Anatra)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#29</link>
    <pubDate>Fri, 06 Feb 2026 14:22:45 GMT</pubDate>
    <description>&lt;br&gt;&amp;gt; К слову, ботов порезать проще простого. Достаточно красить трафик по автономкам и &lt;br&gt;&amp;gt; без ограничений пускать только интернет-провайдеров, предоставляющих услуги населению. &lt;br&gt;&amp;gt; Но это же думать надо и как-то страшненько.&lt;br&gt;&lt;br&gt;Откройте для себя рынок таких услуг как резидентные (и мобильные) прокси. Удачи в фильтрации. &lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Vikarti Anatra)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#28</link>
    <pubDate>Fri, 06 Feb 2026 14:20:24 GMT</pubDate>
    <description>&amp;gt; Владельцы сайтов не обязаны делать вам хорошо. Скорее это вы должны думать, &lt;br&gt;&amp;gt; как не делать им плохо. Потому что на самом деле не &lt;br&gt;&amp;gt; являетесь теми, для кого создается и наполняется сайт. Правильно было бы &lt;br&gt;&amp;gt; как-то платить за данные, если в дальнейшем из них извлекается какая-то &lt;br&gt;&amp;gt; прибыль.&lt;br&gt;&lt;br&gt;Внезапно - Cloudflare уже тестируют Pay-per-crawl. Ну да - с тотальным vendor lock-in но все же&lt;br&gt;</description>
</item>

<item>
    <title>Отсеивание AI-ботов на web-сервере через Cookie (Vikarti Anatra)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/138252.html#27</link>
    <pubDate>Fri, 06 Feb 2026 14:18:33 GMT</pubDate>
    <description>&amp;gt; При обнаружении бота - слать его в tarpit, лимитировать число запросов десятью &lt;br&gt;&amp;gt; и отдавать со скоростью 100 байт в секунду.&lt;br&gt;&lt;br&gt;Придет с другого IP. &lt;br&gt;Ну и - есть еще один интересный ньюанс.&lt;br&gt;Бывают боты которые собирают материал для обучения ИИ а бывают - которые проверяют страницу прежде чем возвращать данные с нее в ответе пользователю (Perplexity например ловили на этом и они именно этот довод для защиты использовали), если боту второго типа прилетит такое...он просто не будет использовать результаты с этой страницы (и ссылки не будет показывать), найдет откуда _еще_ показать. С учетом что поиск потихоньку становится ИИ-шным...вы только убили себе SEO этим. &lt;br&gt;</description>
</item>

</channel>
</rss>
