# В БД для обучения AI-моделей Common Crawl выявлено около 12 тысяч API-ключей и паролей
robot (spnet, 1) → All – 20:44:03 2025-03-03
Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek и ChatGPT). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым 2.67 миллиардов web-страниц.
https://www.opennet.ru/opennews/art.shtml?num=62823
robot (spnet, 1) → All – 20:44:03 2025-03-03
Исследователи из компании Truffle Security опубликовали результаты анализа публичного набора данных Common Crawl, используемого при обучении больших языковых моделей (например, DeepSeek и ChatGPT). В исследовании использован декабрьский архив Common Crawl, включающий 400 терабайтов данных с содержимым 2.67 миллиардов web-страниц.
https://www.opennet.ru/opennews/art.shtml?num=62823