zhub.link is one of the many independent Mastodon servers you can use to participate in the fediverse.

Administered by:

Server stats:

28
active users

#metadata

3 posts3 participants1 post today

Что такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadata

Метаданные или метаинформация – это данные, которые предоставляют информацию о других данных. Подробнее о том, с какими метаданными сталкиваются в BI, чем полезны системы управления метаданными и с какими важными функциями инструмента OpenMetadata знакома на практике, рассказываю в этой статье.

habr.com/ru/articles/868336/

ХабрЧто такое метаданные в BI и как ими управлять? Обзор инструмента OpenMetadataМетаданные или метаинформация – это данные, которые предоставляют информацию о других данных. Например, текст книги – это сами данные, а главы книги – это уже метаданные. Эту информацию также можно...

Создание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)

В статье обсуждается процесс интеграции Apache Spark с Apache Atlas для визуализации выполнения ETL-процессов на основе построения связей между операциями в Spark. Автор описывает создание пользовательских сущностей в Apache Atlas, таких как Process и DataSet , которые необходимы для отражения трансформаций данных. Основной фокус статьи заключается в построении графа lineage (происхождения данных) для операций в Spark. Автор выделяет ограничения архитектуры Apache Atlas, например, необходимость наследования от стандартных типов Process и DataSet для корректного отображения lineage. Также описывается создание и отправка новых типов сущностей в Apache Atlas с использованием REST API, а также проблемы, возникающие при попытках обновления сущностей.

habr.com/ru/articles/842718/

ХабрСоздание data lineage в Apache Atlas из логических планов Spark (не без «костылей»)Ремарка: Текущая реализация представляет собой сырой прототип, направленный исключительно на демонстрацию возможности отображения логического плана из Apache Spark в Apache Atlas . Lfyysq прототип, по...
#apache#spark#etl

Data Lineage из топора

Статья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет ли, и если будет, то когда) — а посмотреть от таблицы назад к источниками или вперед к потребителям от конкретной таблицы хочется прямо сейчас. Условия, в которых это удалось сделать, могут не повториться в других случаях, но сам кейс наверняка будет интересен. Разные самопальные data lineages

habr.com/ru/articles/836648/

ХабрData Lineage из топораСтатья навеяна удачной реализацией Data Lineage «на коленке». Рассматривается случай, когда в окружающем корпоративном ландшафте Apache Atlas, Datahub или Amundsen еще не подвезли (и неизвестно, будет...

После RSS

В свободное время я занимаюсь разработкой сервиса "Awakari", идея которого - фильтрация интересных событий из неограниченного числа различных источников. В этой статье я расскажу о способах извлечения публично доступной информации в интернете за пределами RSS-лент и телеграм-каналов.

habr.com/ru/articles/792560/

ХабрПосле RSSВ свободное время я занимаюсь разработкой сервиса "Awakari", идея которого - фильтрация интересных событий из неограниченного числа различных источников. В этой статье я расскажу о способах...