The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей

03.03.2025 22:39

Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek и ChatGPT). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым 2.67 миллиардов web-страниц.

Сканирование показало, что в наборе присутствует 2.76 миллионов web-страниц, в которые встроены пароли и ключи доступа к API. Всего в архиве зафиксировано 11908 уникальных ключей и паролей, встроенных в HTML-разметку или JavaScript-код web-страниц и успешно прошедших проверку (учитывались только действующие учётные данные, которые позволили успешно подключиться к связанным с ними сервисам). 63% ключей и паролей повторно использовались на нескольких страницах. Например, ключ к API WalkScore присутствовал на 57 тысячах страниц, связанных с 1871 поддоменом.

Из наиболее интересных находок отмечается использование на стороне web-фронтэнда ключа для доступа к хранилищу AWS S3 и наличие на одной из web-страниц одновременно 17 webhook-ов к каналам Slack. Наиболее часто встраиваемыми учётными данными оказались API-ключи к Mailchimp - выявлено около 1500 подобных ключей, которые были указаны прямо в HTML-формах или JavaScript-коде, вместо использования переменных окружения на серверной стороне. Некоторые компании-разработчики ПО использовали одни и те же API-ключи на сайтах разных клиентов.

Предполагается, что использование небезопасного кода при обучении AI-моделей может негативно повлиять на качество работы модели и привести к генерации небезопасного вывода. Предпосылкой к изучению встроенных в web-страницы ключей послужило то, что большинство популярных больших языковых моделей в ответ на запрос кода для интеграции со Slack и Stripe выдали небезопасные примеры, использующие встраивание ключей прямо в web-страницу. Исследователи заинтересовались данным вопросом и попытались изучить насколько часто подобный уязвимый код встречается в данных, задействованных при обучении.



  1. Главная ссылка к новости (https://trufflesecurity.com/bl...)
  2. OpenNews: Утечка токена для полного доступа к GitHub-репозиториям проекта Python
  3. OpenNews: Утечка токенов пользователей платформы Hugging Face Spaces
  4. OpenNews: В публичном коде найден GitHub-токен от внутренних репозиториев Мерседес
  5. OpenNews: В публичных логах Travis CI выявлено около 73 тысяч токенов и паролей открытых проектов
  6. OpenNews: GitHub реализовал возможность упреждающей блокировки утечек токенов к API
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/62823-leak
Ключевые слова: leak, ai, security
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (18) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 23:12, 03/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +12 +/
    Стоит заметить, что создатели оригинальной статьи поступили очень плохо и грязно, назвав её "Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek's Training Data". Да, технически они правы, но на деле практически все современные языковые модели были обучены на CommonCrawl, это по сути самый популярный датасет для моделей вообще. Но Trufflehog, похоже, решили ещё раз показать именно в сторону Deepseek, что-то вида "вот видите, как у них всё плохо и небезопасно", так как из-за успеха Deepseek многие начали обвинять эту компанию во всех смертных грехах.
     
     
  • 2.11, Аноним (11), 01:27, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Нельзя поступить плохо и грязно обвиняя AI помойку в чём угодно.
     

  • 1.2, Аноним (2), 23:13, 03/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Классический вебдев, хоть что-то не меняется в этом мире.
     
     
  • 2.10, Аноним (10), 00:42, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Классический вебдев, хоть что-то не меняется в этом мире.

    Зато ж сколько хайпа у веб-дев было, когда принудительно везде засаживали HTTPS ...

     

  • 1.3, Маняним (?), 23:59, 03/03/2025 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • +/
     
  • 1.4, Аноним (4), 00:03, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Наиболее часто встраиваемыми учётными данными оказались API-ключи к
    > Mailchimp - выявлено около 1500 подобных ключей, которые были указаны
    > прямо в HTML-формах или JavaScript-коде, вместо использования
    > переменных окружения на серверной стороне

    Хм.. и их до сих пор не нашли господа cпамеры и не разослали тонны спама? (после чего маилчимп должен был поблочить ключ).. Да, обленились...

     
     
  • 2.7, чатжпт (?), 00:18, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    github весь завален ключами от сервисов, от s3, логины/пароли от почтовых ящиков и баз данных.. адъ и израиль.
    я одному товарищу написал, что у него утекли секреты от s3, через месяц проверил, а они все еще актуальны. Комментарии излишни
     
     
  • 3.9, Аноним (4), 00:38, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Ну васянский С3 мало кому интересен. ценных данных там нет, разве что снесут и положат файлик  "для восстановления пересылать 1.5 битка сюда". И то врядли, что тот вообще найдёт этот файлик, а если найдёт, то 1.5 битка у него нету и никогда не будет. а вот почта это спам, судя по потокам оного это комуто да интересно.
     

  • 1.5, Microsoft (?), 00:03, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Мы только DeepSeek к Copilot'у прикрутили, а на вашем сайте уже крамольная статейка.
     
  • 1.6, Аноним (6), 00:08, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > Mailchimp

    веб-шимпанзе ваще уже не палятся

     
  • 1.8, Аноним (8), 00:33, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Тогда ещё griggorii говорил что всё в мире уязвимо даже твой монитор , умная колонка или же другая вещь hdd-ssd-data я учёный cdn , диалог учёный аналитег: нет я не мошенник , но надо зарабатывать сдерем дата сет код чужой стабле machine , скажем что наш и бинари тоже или сделаем слакс и потом из этого альт или другую поделку мол не убунту основанную на дебиане за счёт именно стандартизации расширения .deb и тому подобное у. Ну и ушел в другую метадату.
     
     
  • 2.12, Аноним (12), 01:29, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Это какая-то очень фиговая модель. Даже Алиса выражается яснее
     
     
  • 3.16, N (?), 02:12, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    Эта модель 65536 , даже плюс тебе поставила что бы ты не был доволен , как видишь эта модель не нуждается во внимании , а лишь констатирует факты.
     

  • 1.13, Sadok (ok), 01:31, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    "терабайтов" это что за слово?
     
     
  • 2.14, trolleybus (?), 01:37, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Как там в 1987 живется, когда 640 килобайтов хватало на всех?
     

  • 1.15, Аноним (15), 01:47, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Датасеты какие-то, второй человек в США черпает информацию из сторис в Инстаграмме.
     
     
  • 2.18, Аноним (18), 02:51, 04/03/2025 [^] [^^] [^^^] [ответить]  
  • +/
    и купил при этом твиттер, заодно переименовав его?
     

  • 1.17, Аноним (18), 02:51, 04/03/2025 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > в наборе присутствует 2.76 миллионов web-страниц, в которые встроены пароли и ключи доступа к API.

    Минууууточку!
    Я конечно понимаю, что наверное ключики надо было положить на стороне сервера, в директорию чуть повыше.
    НО!
    Как тогда пользователь _из своего браузера_ получит доступ к апи?
    Этож наверное на стороне сервера надо городить какой то прокси-фронтэнд, который будет встраивать ключи, и посылать уже со своих мощностей запросы!
    А так - JS запросы  исполняются на компах миллионов хомячков - ценные серверные ресурсы сбережены.

    Ну и я не верю что 2.76 миллионов web-маkаk руками пилили странички свстраивая коды доступа к АПИ.
    Наверняка дело тупо в инклудах(хеадер, футер) на стороне сервера, которые встраиваются во все страницы автоматически - а это уже другой вопрос, эти миллионы можно смело делить на 100 и то и на тысячу.

    >зафиксировано 11908 уникальных ключей и паролей, встроенных в HTML-разметку или JavaScript-код

    Что непрозрачно нам намекает, на порядка 12 тысяч сайтов, при этом заранее оговорившись в новости, что часть из них тупо клоны.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2025 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру