Согласно исследованию израильской компании по кибербезопасности Lasso, специализирующейся на возникающих угрозах генеративного ИИ, данные, которые были в открытом доступе в интернете хотя бы на мгновение, могут ещё продолжительное время оставаться у онлайн-чат-ботов генеративного ИИ, таких как Microsoft Copilot, после того, как доступ к ним был закрыт.
Эта проблема касается тысяч некогда открытых репозиториев GitHub ряда крупнейших компаний, включая Microsoft, которые с тех пор стали закрытыми, сообщили в Lasso ресурсу TechCrunch.
По словам соучредителя Lasso Офира Дрора (Ophir Dror), компания обнаружила, что контент из её собственного репозитория GitHub появился в Copilot, поскольку он был проиндексирован и кеширован поисковой системой Bing от Microsoft. Этот репозиторий был ошибке открыт в течение короткого периода времени и сейчас является частным. При попытке получить к нему доступ на GitHub появляется сообщение «Страница не найдена».
«На Copilot, как ни странно, мы нашли один из наших собственных закрытых репозиториев, — рассказал Дрор. — Если бы я просматривал веб-страницы, я бы не увидел этих данных. Но любой человек, задав Copilot правильный вопрос, может их получить».
В связи с этим Lasso провела расследование, в ходе которого извлекла список репозиториев, бывших в открытом доступе какое-то время в 2024 году, и определила те, которые с тех пор были удалены или получили статус приватных. Используя механизм кеширования Bing, компания обнаружила, что более 20 тыс. частных репозиториев GitHub более 16 тыс. организаций по-прежнему доступны через Copilot. В частности, это касается Amazon Web Services, Google, IBM, PayPal, Tencent и Microsoft.
Дрор рассказал, что Lasso связалась со всеми компаниями, которые «серьёзно пострадали» от утечки данных, и посоветовала им ротировать или отозвать все скомпрометированные ключи.
Lasso уведомила Microsoft о своих выводах в ноябре 2024 года, но софтверный гигант сообщил ей, что относит проблему к «низкой степени серьезности», заявив, что такое поведение при кешировании «приемлемо». Microsoft отметила, что больше не включает ссылки на кеш Bing в результаты поиска с декабря 2024 года.
Тем не менее Lasso утверждает, что, хотя функция кеширования была отключена, Copilot всё ещё имеет доступ к данным, несмотря на то, что они не отражались в результатах веб-поиска.