دریاچه داده
دریاچه داده (انگلیسی: Data lake) سیستم یا مخزن دادهای است که در قالب خام یا طبیعی و معمولاً به شکل بلابهای شیئی یا فایل ذخیره شدهاست،[۱] دریاچه داده معمولاً یک ذخیره واحد از دادهها شامل نسخههای خام دادههای سیستم منبع، دادههای حسگر، دادههای اجتماعی و غیره است،[۲] و دادههای تبدیلشده که برای کارهایی مانند گزارشدهی، مصورسازی داده، تجزیه و تحلیل پیشرفته و یادگیری ماشین استفاده میشود. یک دریاچه داده میتواند شامل دادههای ساختاریافته از پایگاههای داده رابطهای (ردیفها و ستونها)، دادههای نیمه ساختاریافته (CSV، گزارشها، XML، JSON)، دادههای بدون ساختار (ایمیلها، اسناد، فایلهای PDF) و دادههای باینری (تصاویر، صدا، ویدئو) باشد.[۳] یک دریاچه داده را میتوان «در محل» (در مراکز داده سازمان) یا «در فضای ابری» (با استفاده از خدمات ابری از فروشندگانی مانند آمازون، مایکروسافت، یا گوگل) ایجاد کرد.
دریاچههای دادهای که مدیریت ضعیفی دارند، بهطور ظاهری باتلاق داده نامیده میشوند.[۴]
مثالها
[ویرایش]بسیاری از شرکتها از سرویسهای ذخیرهسازی ابری مانند Google Cloud Storage و Amazon S3 یا یک سیستم فایل توزیعشده مانند سیستم فایل توزیعشده Apache Hadoop (ADFS) استفاده میکنند.[۵] علاقهٔ عمومی در حال ازدیاد دانشگاهی به مفهوم دریاچههای داده وجود دارد. به عنوان مثال، Personal DataLake در دانشگاه کاردیف نوع جدیدی از دریاچه دادهاست که هدف آن مدیریت کلان دادههای کاربران با ارائه یک نقطه واحد جمعآوری، سازماندهی و اشتراکگذاری دادههای شخصی است.
جستارهای وابسته
[ویرایش]- دریاچه داده آژور
منابع
[ویرایش]- ↑ "The growing importance of big data quality". The Data Roundtable. Retrieved 1 June 2020.
- ↑ "What is a data lake?". aws.amazon.com. Retrieved 12 October 2020.
- ↑ Campbell, Chris. "Top Five Differences between DataWarehouses and Data Lakes". Blue-Granite.com. Archived from the original on 15 September 2017. Retrieved 19 May 2017.
- ↑ Olavsrud, Thor (June 8, 2017). "3 keys to keep your data lake from becoming a data swamp". CIO (به انگلیسی). Retrieved 2021-01-04.
- ↑ Tuulos, Ville (22 September 2015). "Petabyte-Scale Data Pipelines with Docker, Luigi and Elastic Spot Instances". NextRoll.
- مشارکتکنندگان ویکیپدیا. «Data lake». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۶ فوریه ۲۰۲۲.