Habr<p>Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло</p><p>Привет, Хабр! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории . Гибкие методологии построения хранилищ данных — очень популярный тренд. Причина — возрастающая сложность корпоративных моделей данных и необходимость интеграции большого числа разнородных источников, которые включают в себя не только традиционные СУБД и плоские файлы, но и различные real-time-брокеры сообщений, внешние API и базы данных NoSQL. В этой статье хочу рассказать, как мы изначально хранили данные, почему решили внедрить методологии Data Lake и Data Vault и к чему это привело. Кроме того, покажу, как мы изобрели свой велосипед разработали свой фреймворк по автоматизации работы с помощью модели Data Vault.</p><p><a href="https://habr.com/ru/articles/876834/" target="_blank" rel="nofollow noopener noreferrer" translate="no"><span class="invisible">https://</span><span class="">habr.com/ru/articles/876834/</span><span class="invisible"></span></a></p><p><a href="https://zhub.link/tags/dwh" class="mention hashtag" rel="tag">#<span>dwh</span></a> <a href="https://zhub.link/tags/data_warehouse" class="mention hashtag" rel="tag">#<span>data_warehouse</span></a> <a href="https://zhub.link/tags/data_lake" class="mention hashtag" rel="tag">#<span>data_lake</span></a> <a href="https://zhub.link/tags/%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D0%BB%D0%B8%D1%89%D0%B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="tag">#<span>хранилище_данных</span></a> <a href="https://zhub.link/tags/%D0%BA%D0%BE%D1%80%D0%BF%D0%BE%D1%80%D0%B0%D1%82%D0%B8%D0%B2%D0%BD%D0%BE%D0%B5_%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D0%BB%D0%B8%D1%89%D0%B5_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="tag">#<span>корпоративное_хранилище_данных</span></a> <a href="https://zhub.link/tags/%D0%B0%D1%80%D1%85%D0%B8%D1%82%D0%B5%D0%BA%D1%82%D1%83%D1%80%D0%B0_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="tag">#<span>архитектура_данных</span></a> <a href="https://zhub.link/tags/%D0%B1%D0%B0%D0%B7%D1%8B_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85" class="mention hashtag" rel="tag">#<span>базы_данных</span></a> <a href="https://zhub.link/tags/%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5" class="mention hashtag" rel="tag">#<span>данные</span></a> <a href="https://zhub.link/tags/data" class="mention hashtag" rel="tag">#<span>data</span></a> <a href="https://zhub.link/tags/data_engineering" class="mention hashtag" rel="tag">#<span>data_engineering</span></a></p>