Атака Whisper Leak по определению тематики общения с AI-чатботами через анализ TLS-трафика

10.11.2025 21:11 (MSK)

Исследователи безопасности из компании Microsoft разработали технику атаки по сторонним каналам Whisper Leak, позволяющую на основе пассивного анализа шифрованного трафика, передаваемого через TLS-соединение, классифицировать темы запросов к сервисам на базе больших языковых моделей. Информации о размере сетевых пакетов и задержках между их передачей оказалось достаточно для определения тем запросов к AI-чатботам с точностью более 98%. На практике предложенный метод может применяться для выявления в транзитном трафике пользователя определённых тем запросов, например, попыток получения информации о незаконных действиях, без расшифровки содержимого.

Инструментарий для извлечения данных из дампов трафика, обучения модели и тестирования работы метода опубликован на GitHub. Возможность проведения атаки продемонстрирована для 28 популярных больших языковых моделей от крупнейших производителей. Например, точность определения запросов на тему "отмывание денег" для многих AI-сервисов составила 100%, при наличии в анализируемом трафике 1 искомого запроса и 10000 запросов, не связанных с нужной темой.

Причиной утечки информации является то, что модели генерируют ответ на запрос пошагово, по одному токену за раз, на каждом шагу используя предыдущий токен в качестве контекста для определения следующего наиболее вероятного слова или фразы. Соответственно, на каждый токен отправляется отдельный сетевой пакет и задержка между пакетами соответствует задержке между определением моделью следующего токена.

В TLS, если не используется сжатие данных, размен шифротекста равен размеру незашифрованного текста плюс константа. При создании модели, сопоставляющей искомые наборы токенов с размером пакетов и задержками между их отправкой, можно достаточно точно определить наличие в трафике искомых тем. В ходе исследования подготовлено три варианта подобных моделей машинного обучения, основанных на архитектурах нейронных сетей LightGBM, Bi-LSTM и BERT. Для каждой модели проведены эксперименты по определению искомой темы при анализе только размера пакетов, только задержек между пакетами и обоих критериев.

Для снижения эффективности пассивного анализа тематики запросов разработчикам AI-сервисов предложено прикреплять случайное добавочное заполнение, буферизировать передачу токенов или выполнять подстановку фиктивных пакетов.

исправить +16 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/64218-ai

Ключевые слова: ai, attack, fingerprint

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (43)

1.1, Аноним (1), 21:52, 10/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Сложно было спросить "как защититься от сабжа"?

2.2, Аноним (2), 21:58, 10/11/2025 [^] [^^] [^^^] [ответить]	+4 +/–
Сейчас узнаем, что нам с этим делать: https://www.google.com/ai

2.27, nebularia (ok), 08:30, 11/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Технологии типа DAITA. Выравнивает размеры пакетов, фоновый обмен мусором, дианамическая адаптация обмена мусором чтобы скрыть паттерны. Всё, чтобы трафик со стороны выглядел как единообразный поток. Неэффективно с точки зрения потребления трафика и задержек, но работать против статистического анализа должно

3.28, Аноним (28), 08:58, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
Поэтому И-провайдеры применять не будут массово. А кто будет - сотрудники того присядут.

1.4, Аноним (4), 22:16, 10/11/2025 [ответить] [﹢﹢﹢] [ · · · ]

+/–

> Исследователи безопасности из компании Microsoft

... логично смотивированные своей классовой сущностью и целеполаганием дали ценный совет, отражающий их внутренний мир и стремления, тем, кто хочет поотмывать деньги:

> Для снижения эффективности пассивного анализа тематики запросов разработчикам AI-сервисов предложено прикреплять случайное добавочное заполнение

2.13, Аноним (13), 03:43, 11/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Теперь понятно зачем они везде ссылки на справку пихают.

1.5, Аноним (5), 22:16, 10/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> Например, точность определения запросов на тему "отмывание денег" > для многих AI-сервисов составила 100%, при наличии в анализируемом > трафике 1 искомого запроса и 10000 запросов, не связанных с > нужной темой. Больше интересно сколько из тех 10000 оно таки тоже посчитало отмыванием бабла... А то высокому суду нет же оснований не доверять сертифицированной балалайке по поиску запрещенных запросов в SSL мусоре.

1.6, Аноним (6), 22:54, 10/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Ну что за ИТ отрасль сегодня такая, ни дня не проходит без найденных дырений в той или иной технологии, продукте, по.

2.8, Аноним (8), 23:06, 10/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
да ровно такая же как и была, просто раньше на это забивали и игнорировали, конечно факапы случались, но не каждый кто увидет торчащий из кармана телефон в метро попытается его украсть, а сейчас после множества инцидентов, корпорасты наконецто поняли что проще предотвращать чем откупаться, выделили бюджеты, и вот, есть первая линия исследователей безопасности на зарплате, есть вторая по баунти хантер, все по взрослому и это работает

3.33, пох. (?), 09:51, 11/11/2025 [^] [^^] [^^^] [ответить]

+1 +/–

> но не каждый кто увидет торчащий из кармана телефон в метро попытается его украсть

это просто потому что может оказаться что предыдущий владелец телефона может бегает быстрее чем ты.

тут корпорации скорее все ж о себе заботятся. (владельцы ЫЫ и так знают же кто ты и что искал, их огорчает что эту информацию может получить нахаляву третий лишний, вместо того чтобы купить)

3.56, torvn77 (ok), 22:16, 12/11/2025 [^] [^^] [^^^] [ответить]	+/–
В принципе это вообще надо быть уникумом чтобы спрашивать подозрительные вещи у нелокального и неподконтрольного ИИ как минимум потому что владелец может донести куда следует и дальше либо полиция, либо агент от предложения которого трудно отказаться(и потом всё равно тюрьма, но уже за большее количество преступлений)

2.19, Аноним (19), 04:38, 11/11/2025 [^] [^^] [^^^] [ответить]	+4 +/–
И все эти уязвимости работают только в тепличных специально созданных условиях.

3.34, пох. (?), 09:51, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
"проверять это я конечно же никогда не буду, даром что все исходники публичны"

1.7, Аноним (7), 22:54, 10/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> В TLS, если не используется сжатие данных А кто-то еще отправляет несжатые данные? Трафик не жалко?

2.10, Аноним (10), 23:44, 10/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
По статистике w3techs каждый десятый сайт не использует сжатие (10.5%) .

3.18, Аноним (19), 04:36, 11/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Например американский интернет до сих пор состоит на 70% из сайтов написанных в 90-е на коленке.

4.50, Аноним (50), 21:26, 11/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Источник статистики?

5.54, Энтомолог_русолог (?), 00:19, 12/11/2025 [^] [^^] [^^^] [ответить]	+/–
Три П у него источник, как и часто тут. Пол-палец-потолок

2.14, morphe (?), 04:14, 11/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
В случае с языковыми моделями сжатия трафика скорее навредит, потому что классические алгоритмы сжатия не оптимизированы под сжатие трёх-десяти байт перед сбросом фрагмента, они оперируют большими кусками, и стрим токенов будут скорее увеличивать

2.29, Аноним (28), 08:59, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
Сжатие данных само даёт мощнейший side-channel. Когда жали - атака, подобная сабжу, была возможна и для просто сайтов.

2.38, Big Robert TheTables (?), 11:06, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
это неверный перевод, сжатие данных на стороне HTTP-протокола никак не влияет на точность данной модели. TLS-сжатие отсутствует в природе, оно могло бы "застримить" и объединить чанки данных, но нет.

1.11, penetrator (?), 03:01, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+3 +/–
что-то слабо верится, зная как рандомно они генерят, какие случайные сетевые и ресурсные задержки тесты проводились в локальной сети на специальной машине и в изолированной сети?

2.35, пох. (?), 10:01, 11/11/2025 [^] [^^] [^^^] [ответить]

+2 +/–

исследование как бы и намекает что нифига похоже не рандомно.

То что тебе кажется рандомными задержками (потому что ты не повторяешь один и тот же запрос десять раз) - на самом деле одинаково для одного и того же запроса. И настолько разное для других, что прямо в шифрованном траффике видно. Рандом, но не там где ожидали.

> тесты проводились в локальной сети на специальной машине и в изолированной сети?

угу, в которой откуда-то взялись два десятка моделей включая китайские.
Хорошая такая изолированная сеть, интернет называется.

А дамп траффика слитый непосредственно с твоего порта и с транзитного железа в тысяче километров - внезапно, одинаковый.

3.37, penetrator (?), 10:38, 11/11/2025 [^] [^^] [^^^] [ответить]

+1 +/–

я не раз сталкивался, что на заборе написано, начинаеть проверять, воспроизводить, а там дрова лежат, вот сейчас мне прост лень, что-либо перепроверять,

> А дамп траффика слитый непосредственно с твоего порта и с транзитного железа в тысяче километров - внезапно, одинаковый.

а пинги разные, и пакеты под вопросом - а это единственный их источник данных, какой-нибудь промежуточный узел рандомом поливает и все

я ж говорю тест для локалки или хотя бы последней мили

4.44, Аноним (44), 17:11, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
«Пинги» тут никак не влияют. Влияет джиттер, но с ним провайдеры борятся чтобы VoIP не портил.

1.15, Аноним (19), 04:32, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+4 +/–
Просто отключить параметр streaming и получать ответ целиком. Делов то. Хотя у меня давно на роутере стоит скрипт, который генерирует рандомный трафик для предотвращения анализа запросом к мессенджерам. Вот там действительно можно нехило опрос то волос биться, тем более в моей стране, где за инакомыслие убивают в прямом смысле.

2.41, Аноним (-), 14:40, 11/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Можно подробнее про скрипт, пожалуйста?

1.22, Америка (?), 05:51, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
> ...для выявления в транзитном трафике пользователя определённых тем запросов ... о незаконных действиях, без расшифровки содержимого. Но законы в разных странах могут отличаться. То, что незаконно в одной стране, может быть законно в другой и наоборот.

1.24, Аноним (24), 07:43, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Ага, осталось только исключить из схемы корпорацию, сливающую спецам, а то всё без толку будет. Да, и новое железо мы постоянно покупать не обязаны, горбатясь на тех, кто не работает вообще, а только паразитирует на нас. Верно!?

1.25, Аноним (25), 08:25, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
И присесть Ведь всегда можно сказать вы эту фичу реализовали специально, чтобы... большой текст свёрнут, показать

2.42, Аноним (42), 15:11, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
> И присесть. Ведь всегда можно сказать "вы эту фичу реализовали специально, чтобы сотрудников Los Setas и мадуровского картеля покрывать". Не надо пугалки изобретать, так рассуждаючи, уже за TLS должны были присесть.

3.47, Аноним (47), 19:16, 11/11/2025 [^] [^^] [^^^] [ответить]	–1 +/–
С TLS проще: нет нужного корневого сертификата - хрен тебе, а не чебурнет (а интернета вообще просто хрен, без всяких условий). Все государства дойдут до этого.

1.26, Аноним (26), 08:27, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
В плане борьбы за все хорошее против всего плохого, предлагаю мелкософту перенаправить ресурсы на анализ транзитного канализационного трафика в целяхцелях проведения медицинских анализов. А за одно, повлиять на глобальное потепление, снижением количества выделяемого метана.

2.43, Аноним (43), 15:42, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
Нарколаборатории раскрывали по анализам канализационных стоков.

3.49, Аноним (49), 20:57, 11/11/2025 [^] [^^] [^^^] [ответить]	+1 +/–
Разве это не городская легенда, основанная на банальном распиле (воды действительно анализировали, но бестолку, и так спустили кучу денег в ... гм... канализацию)?

4.53, Аноним (26), 23:49, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
>Разве это не городская легенда Реальная тема была во времена ковидлы. Стоки анализировались на количество вирусных частиц на объем. По результатам можно было за несколько дней предсказать волну обращений к врачам и как то подготовиться. Вот например https://www.vshouz.ru/news/analitika/wcs-6477/ Но вообще да, напоминает историю, про то как военкомат по принесенному анализу мочи, определил, что у отца геморой, у матери климакс, сестра беременна, у кота блохи, а парень годен к службе :)

1.30, Аноним (28), 09:03, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Там анализировали одну тему против остальных заведомо легитимных тем из дэйтасета. Не удивлюсь, если ловили сигнатуру ответов сети типа "Я не буду вам помогать, это незаконно".

2.32, пох. (?), 09:48, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
даже если так - чем плохо-то, преступник найден, уже на допросе сознаешься что именно незаконного собирался сотворить.

3.46, Аноним (46), 19:13, 11/11/2025 [^] [^^] [^^^] [ответить]	+/–
Много наркобаронов сознались? Ты, вероятно, слабо представляешь, как устроена организованная преступность.

4.57, пох. (?), 23:05, 12/11/2025 [^] [^^] [^^^] [ответить]

+/–

так с ними проблема как раз в "найден". В смысле "нашел? - Не, пойду еще на кухне поищу"

А так-то у предыдущего президента Филлипин - все сознались. Большинство, правда, посмертно.

1.39, _kp (ok), 12:00, 11/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Вообще то Whisper используют ради весьма годной офлайн работы.

2.55, Аноним (55), 05:18, 12/11/2025 [^] [^^] [^^^] [ответить]	+/–
Читайте статью дальше, не стесняйтесь. Не стоит отстанавливаться на втором слове заголовка.

1.58, Аноним (58), 11:39, 13/11/2025 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Так это не проблема ЛЛМ, а проблема убогого TLS. И долбить надо разработчиков протокола, чтобы они сделали рандомизацию, а не вебмастеров.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: