The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



"В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей"
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей"  +/
Сообщение от opennews (??), 03-Мрт-25, 23:12 
Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей  (например, DeepSeek). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым  2.67 миллиардов web-страниц...

Подробнее: https://www.opennet.dev/opennews/art.shtml?num=62823

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +19 +/
Сообщение от Аноним (1), 03-Мрт-25, 23:12 
Стоит заметить, что создатели оригинальной статьи поступили очень плохо и грязно, назвав её "Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek's Training Data". Да, технически они правы, но на деле практически все современные языковые модели были обучены на CommonCrawl, это по сути самый популярный датасет для моделей вообще. Но Trufflehog, похоже, решили ещё раз показать именно в сторону Deepseek, что-то вида "вот видите, как у них всё плохо и небезопасно", так как из-за успеха Deepseek многие начали обвинять эту компанию во всех смертных грехах.
Ответить | Правка | Наверх | Cообщить модератору

31. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –2 +/
Сообщение от Аноним (31), 04-Мрт-25, 08:13 
а в чём успех, уже заработали миллиард или пока только в планах?
Ответить | Правка | Наверх | Cообщить модератору

32. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +5 +/
Сообщение от EuPhobos (ok), 04-Мрт-25, 08:17 
Обрушить акции конкурента, и переманить не малую часть пользователей оплачивать свой сервис - это не успех?
Ответить | Правка | Наверх | Cообщить модератору

2. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +4 +/
Сообщение от Аноним (2), 03-Мрт-25, 23:13 
Классический вебдев, хоть что-то не меняется в этом мире.
Ответить | Правка | Наверх | Cообщить модератору

10. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +2 +/
Сообщение от Аноним (10), 04-Мрт-25, 00:42 
> Классический вебдев, хоть что-то не меняется в этом мире.

Зато ж сколько хайпа у веб-дев было, когда принудительно везде засаживали HTTPS ...

Ответить | Правка | Наверх | Cообщить модератору

29. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от пох. (?), 04-Мрт-25, 07:24 
Ну уот же ж - ключи теперь утекают - безопастненько!

Ответить | Правка | Наверх | Cообщить модератору

4. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от Аноним (4), 04-Мрт-25, 00:03 
> Наиболее часто встраиваемыми учётными данными оказались API-ключи к
> Mailchimp - выявлено около 1500 подобных ключей, которые были указаны
> прямо в HTML-формах или JavaScript-коде, вместо использования
> переменных окружения на серверной стороне

Хм.. и их до сих пор не нашли господа cпамеры и не разослали тонны спама? (после чего маилчимп должен был поблочить ключ).. Да, обленились...

Ответить | Правка | Наверх | Cообщить модератору

7. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +1 +/
Сообщение от чатжпт (?), 04-Мрт-25, 00:18 
github весь завален ключами от сервисов, от s3, логины/пароли от почтовых ящиков и баз данных.. адъ и израиль.
я одному товарищу написал, что у него утекли секреты от s3, через месяц проверил, а они все еще актуальны. Комментарии излишни
Ответить | Правка | Наверх | Cообщить модератору

9. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от Аноним (4), 04-Мрт-25, 00:38 
Ну васянский С3 мало кому интересен. ценных данных там нет, разве что снесут и положат файлик  "для восстановления пересылать 1.5 битка сюда". И то врядли, что тот вообще найдёт этот файлик, а если найдёт, то 1.5 битка у него нету и никогда не будет. а вот почта это спам, судя по потокам оного это комуто да интересно.
Ответить | Правка | Наверх | Cообщить модератору

28. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –2 +/
Сообщение от пох. (?), 04-Мрт-25, 07:23 
ну может хотя бы сгодится свою порнуху хранить?
Ответить | Правка | Наверх | Cообщить модератору

27. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –2 +/
Сообщение от пох. (?), 04-Мрт-25, 07:22 
то есть как это не нашли и как это не разослали?!
И чего вдруг должен - когда оная мак@ка именно для спамрассылок и нужна?

Счет за эти рассылки, правда, выставят кому-то не совсем тому, но тот их тоже оплатит не присматриваясь - "что-то в этом месяце подорожало, надо бы девляпсам в пятницу плетей выписать"

Ответить | Правка | К родителю #4 | Наверх | Cообщить модератору

8. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –2 +/
Сообщение от Аноним (8), 04-Мрт-25, 00:33 
Тогда ещё griggorii говорил что всё в мире уязвимо даже твой монитор , умная колонка или же другая вещь hdd-ssd-data я учёный cdn , диалог учёный аналитег: нет я не мошенник , но надо зарабатывать сдерем дата сет код чужой стабле machine , скажем что наш и бинари тоже или сделаем слакс и потом из этого альт или другую поделку мол не убунту основанную на дебиане за счёт именно стандартизации расширения .deb и тому подобное у. Ну и ушел в другую метадату.
Ответить | Правка | Наверх | Cообщить модератору

12. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +3 +/
Сообщение от Аноним (12), 04-Мрт-25, 01:29 
Это какая-то очень фиговая модель. Даже Алиса выражается яснее
Ответить | Правка | Наверх | Cообщить модератору

16. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от N (?), 04-Мрт-25, 02:12 
Эта модель 65536 , даже плюс тебе поставила что бы ты не был доволен , как видишь эта модель не нуждается во внимании , а лишь констатирует факты.
Ответить | Правка | Наверх | Cообщить модератору

13. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от Sadok (ok), 04-Мрт-25, 01:31 
"терабайтов" это что за слово?
Ответить | Правка | Наверх | Cообщить модератору

14. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –3 +/
Сообщение от trolleybus (?), 04-Мрт-25, 01:37 
Как там в 1987 живется, когда 640 килобайтов хватало на всех?
Ответить | Правка | Наверх | Cообщить модератору

24. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от Weders (ok), 04-Мрт-25, 07:17 
https://ru.wiktionary.org/wiki/%D1%82%D0%...
Ответить | Правка | Наверх | Cообщить модератору

35. Скрыто модератором  +/
Сообщение от laindono (ok), 04-Мрт-25, 08:27 
Ответить | Правка | К родителю #13 | Наверх | Cообщить модератору

15. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +3 +/
Сообщение от Аноним (15), 04-Мрт-25, 01:47 
Датасеты какие-то, второй человек в США черпает информацию из сторис в Инстаграмме.
Ответить | Правка | Наверх | Cообщить модератору

18. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –2 +/
Сообщение от Аноним (18), 04-Мрт-25, 02:51 
и купил при этом твиттер, заодно переименовав его?
Ответить | Правка | Наверх | Cообщить модератору

19. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +1 +/
Сообщение от Аноним (15), 04-Мрт-25, 03:21 
Маск такой же фейк как пашка дуров, который на словах оппозиционер, революционер, гений, бездетный холостяк.
Ответить | Правка | Наверх | Cообщить модератору

25. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от пох. (?), 04-Мрт-25, 07:18 
Но волосы-то с ладошек - пересадил себе на плешь! Завидуй, Иплон!

Ответить | Правка | Наверх | Cообщить модератору

26. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от пох. (?), 04-Мрт-25, 07:20 
Это первый купил, не перепутай.
И первый не в сторис а в тиктоке в основном информируетсо.

Второй хотя бы честно использует произведенный в стране продукт.

Ответить | Правка | К родителю #18 | Наверх | Cообщить модератору

38. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от YetAnotherOnanym (ok), 04-Мрт-25, 10:17 
> второй человек в США черпает информацию из сторис в Инстаграмме

А откуда он должен их черпать, чтобы снискать одобрение анонима Опеннета? Из протоколов ареопага Богемской рощи?

Ответить | Правка | К родителю #15 | Наверх | Cообщить модератору

17. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –1 +/
Сообщение от Аноним (18), 04-Мрт-25, 02:51 
> в наборе присутствует 2.76 миллионов web-страниц, в которые встроены пароли и ключи доступа к API.

Минууууточку!
Я конечно понимаю, что наверное ключики надо было положить на стороне сервера, в директорию чуть повыше.
НО!
Как тогда пользователь _из своего браузера_ получит доступ к апи?
Этож наверное на стороне сервера надо городить какой то прокси-фронтэнд, который будет встраивать ключи, и посылать уже со своих мощностей запросы!
А так - JS запросы  исполняются на компах миллионов хомячков - ценные серверные ресурсы сбережены.

Ну и я не верю что 2.76 миллионов web-маkаk руками пилили странички свстраивая коды доступа к АПИ.
Наверняка дело тупо в инклудах(хеадер, футер) на стороне сервера, которые встраиваются во все страницы автоматически - а это уже другой вопрос, эти миллионы можно смело делить на 100 и то и на тысячу.

>зафиксировано 11908 уникальных ключей и паролей, встроенных в HTML-разметку или JavaScript-код

Что непрозрачно нам намекает, на порядка 12 тысяч сайтов, при этом заранее оговорившись в новости, что часть из них тупо клоны.

Ответить | Правка | Наверх | Cообщить модератору

22. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  –1 +/
Сообщение от qwe (??), 04-Мрт-25, 06:30 
> Как тогда пользователь _из своего браузера_ получит доступ к апи?

Ну, можно хотя бы, хм... получить ключи отдельным асинхронным запросом после аутентификации, а уж после того юзать апи из браузера. Тоже палево, но не такое палево, как встраивание этих ключей в статику, которую может прочесть любой бот.

Ответить | Правка | Наверх | Cообщить модератору

33. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от Аноним (31), 04-Мрт-25, 08:18 
Все тут нормально с ключами в форме, просто забыли добавить доступ к самой странице. Или Васян-админ специально открыл, чтобы не париться.
Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору

34. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +1 +/
Сообщение от EuPhobos (ok), 04-Мрт-25, 08:19 
> Как тогда пользователь _из своего браузера_ получит доступ к апи?

Про куки не слышали?

Ответить | Правка | К родителю #17 | Наверх | Cообщить модератору

23. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от пох. (?), 04-Мрт-25, 07:15 
НУ НАКОНЕЦ-ТО! ДОЖДАЛИСЬ!

Теперь я могу задать чатгопоте и дипкику вопрос, ответ на который меня на самом деле интересует - "какое, блин, кодовое слово сбербак привесил к моей карте?"

Ответить | Правка | Наверх | Cообщить модератору

30. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от Аноним (30), 04-Мрт-25, 08:06 
А вы думали зачем все это? Когда какой-нибудь Мэйл.ру открывал бесплатную почту, вы думали, что это не для того, чтобы читать ваши письма? Когда какой-нибудь яндекс и гугл открывали поисковики, вы думали , что это чтобы не читать ваши поисковые запросы? Когда они открыли "безопасный" DNS, свои операционки, телефоны, колонки? А тут у них просто еще не все срослось. Слишком много палятся, что на самом деле все эти "ИИ в браузере" будут на самом деле лить кучу приватной информации, даже ваши пароли.
Ответить | Правка | Наверх | Cообщить модератору

36. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от тоже Анонимemail (ok), 04-Мрт-25, 08:50 
Я правильно понимаю, что Зоркий Глаз нашел, например, такие "уязвимости"?
Добавьте в заголовок head HTML-страницы строку следующего вида:
<head>
    <script src="https://api-maps.yandex.ru/2.1/?apikey=ваш API-ключ&lang=ru_RU" type="text/javascript">
    </script>
</head>

Ответить | Правка | Наверх | Cообщить модератору

37. "В БД для обучения AI-моделей Common Crawl выявлено около 12 ..."  +/
Сообщение от Аноним (37), 04-Мрт-25, 09:11 
Сколько же всякого мусора на самом деле покоится в этих "топовых" датасетах...
Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру