کلان دادهها
ترجمه: محمدحسین نشاطی
این مقاله بخشی از مدول یادگیری کاربردهای دیجیتالیسازی است که درک جامعی از مفاهیم اساسی اصطلاحات دیجیتالیسازی، تکنولوژیها و کاربردهای آن در صنعت فولاد ارائه میدهد و توسط کمیته تکنولوژی کاربردهای دیجیتالیسازی جهت یک دوره مقدماتی برای آموزش پرسنل صنعت در زمینه دیجیتالیسازی تدوین شده است.
ماهنامه پردازش – چشمانداز یک کارخانه هوشمند بسیار انعطافپذیر که محصولات خاص مشتری را با هزینه اضافی کم در مدت زمان کوتاهی برای عرضه به بازار تولید میکند، درحال تحقق یافتن است. کلان داده سوخت این انقلاب صنعتی چهارم است. نیرو محرکه این امر توانایی روزافزون، آنالیز دادهها و تعامل با سیستمهای فیزیکی سایبری برای دستاوردهای تجاری است. این مقاله این واژه را در زمینه صنعت فولاد تعریف نموده و همچنین چالشها و مزایای بالقوه آن را نشان میدهد.
کلان داده چیست؟
هر کاری که انجام میدهیم بهطور فزایندهای اثر دیجیتالی از خود برجای میگذارد. وقتی اینترنت را مرور میکنیم یا در خرید آنلاین شرکت میکنیم، اطلاعات مکان و پرداخت ما ردیابی و ثبت شده و نمایهای (پروفایلی) از اینکه چه کسی هستیم و چه میکنیم ایجاد میشود. همین امر در مورد موادی که تولید میکنیم نیز صادق است. در طی تولید، حجم وسیعی داده از حسگرها گرفته و یک دوقلوی دیجیتالی از قطعه فیزیکی مواد ایجاد میشود. دادههای مربوطه از مراحل فرآیندی منفرد، حتی مجموعه کلان دادههای بزرگتری را تولید میکنند که نه تنها وضعیت فعلی، بلکه کل شجرهنامه محصول را نیز توصیف میکند. باتوجه به تعداد زیاد محصولاتی که تولید میشوند، مقدار دادهای که در یک بازه زمانی معین جمعآوری میشود، بیش از چیزی است که توسط انسانها یا ابزارهای نرمافزاری رایج قابل آنالیز باشد، و در این زمان است که از برچسب “کلان داده” استفاده میشود.
تعریف کلان داده: کلان داده مجموعه دادههای با اندازه فراتر از توانایی ابزارهای نرمافزاری رایج برای جمعآوری، مدیریت و پردازش دادهها در یک مدت زمان قابلقبول را توصیف میکند.
مزایای آنالیز کلان دادهها
مزیت اصلی قابل حصول آنالیز کلان داده، تشخیص الگوها و درک بهتر همبستگیها و وابستگیها و همچنین استخراج مدلهای پیشبینی است. کاربردها در صنعت فولاد برای مثال عبارتند از: آنالیز علت اصلی عیوب شناساییشده توسط سیستم بازرسی سطحی در نورد گرم و ردیابی آن تا برگشت به رویدادها در ماشین ریختهگری.الگوریتمهای یادگیری هوش مصنوعی (AI) بر روی کلان دادههای تاریخی، آنالیز پیشبینیکننده را نیز ممکن میسازند.
پایش دادههای دریافتی در زمان واقعیمیتواند آلارمها را ایجاد نماید و در صورت شناسایی مجدد چنین الگویی، امکان اقدامات اصلاحی را فراهم میکند. شبکههای پرسرعت و ذخیرهسازی طولانیمدت داده یکپارچه،امکان یکپارچهسازی کلان دادهها درسطح کارخانه را میدهند.
انواع دادهها
دادههای ساختار یافته در یک فیلد ثابت و در یکرکورد تعریفشده،برای مثال، در یک صفحه گستردهیا یک پایگاه داده رابطهای قرار دارند. دادههای مربوط به سفارش، مشتری و مالی نمونههای آن هستند. همانطورکه از نام آن پیداست، این نوع دادهها معمولا طبق یک مدل داده از پیش تعریفشده ذخیره میشوند و از این نوع در آنالیز دادههای سنتی نیز استفاده میشود.
دادههای بدون ساختار و نیمه ساختاریافته و آنالیز آن یکی از مشخصههای اصلی واژه “کلان داده” است. مقدار تخمینی ۸۰ درصد از اطلاعات مرتبط با کسبوکار، بدون ساختار هستند. برای مثال میتوان تصاویر، فیلمها، وبسایتها و اسناد دستهبندی نشده را نام برد. روش دیگر دستهبندی بر اساس دادههایی است که کسبوکار درحالحاضر مالک آنهاست یا تولید میکند و بنابراین به آنها دسترسی برای کنترل دارد که به آنها دادههای داخلی گفته میشود، دادههایی که خارج از کسبوکار تولیدشده و وجود دارند، بهعنوان دادههای خارجی نامیده میشوند.
آمار فروش،سوابق منابع انسانی، تراکنشهای حساب بانکی و همچنین دادههای تلویزیونی مدار بسته که در محل ثبت میشوند نمونههایی از دادههای داخلی هستند. دادههای خارجی همه دادههای خارج از کسبوکارند و مقدار آنها تقریبا بینهایت است. این نوع دادهها میتوانند بهصورت عمومی (هرکسی میتواند با تلاش اندک رایگان دریافت کند) یا خصوصی (در پس یک دیوار پرداخت/دسترسی محدود که معمولا باید از طریق شخص ثالث دریافت شود) باشند. نمونههایی از دادههای خارجی عبارتند از: دادههای آبوهوا،پستهای رسانههایاجتماعی،خدمات موقعیت جغرافیایی، ناوبری و همچنین دادههای سرشماری دولتی.
رایجترین دادهها در کارخانههای فولاد، داخلی و ساختاریافته هستند: اطلاعات سفارش، نقاط تنظیم تجهیزات و دادههای گرفتهشده از حسگرها. اغلب دادههای بدون ساختار به دادههای ساختاریافته تبدیل میشوند. تصاویر (بدون ساختار) سیستمهای بازرسی سطح برای شناسایی، مقولهبندی و دستهبندی عیوب روی کلافها، آنالیز شده و در پایگاههای داده رابطهای با توجه به مدل داده (ساختاریافته) ذخیره میشوند.
چالشها و تکنولوژی
چالشهای مرتبط با آنالیز کلان دادهها عبارتند از: گرفتن، تجمیع، اعتبارسنجی، ذخیرهسازی و تهیه مقادیر زیادی از دادهها. نتایج دادهکاوی و آنالیز دادهها با کیفیت دادهها بهتر میشوند، اما هرچه حجم دادههای موجود بیشتر باشد، بیشتر مستعد نقص میشوند. هر روز، دادههای زنده از تراکنشهای کارت اعتباری، گوشیهای هوشمند و ردیابهای تناسب سلامت مجهز به ردیاب موقعیت و میکروفونهایی با امکان ضبط مکالمات، دوربینها برای گرفتن عکس و فیلم و همچنین ژیروسکوپ (چرخ دوّار و پُرسرعتی است که وزن آن بر محور حلقه بیرونی متمرکز است و میتواند آزادانه عمود بر صفحه دَوَران در یک یا چند راستا بچرخد.) و حسگرهای بیومتریک، جمعآوری میشوند.
در تولید، سیستم کامپیوتری جمعآوری دادهها بایدبتواند به انواع منابع داده از فروشندگان مختلف (پایگاههای داده، حسگرها، کنترلکنندههای منطقی قابل برنامهریزی (PLC) و…)متصل شود.قوانین اعتبارسنجی دادهها میتواند به عاریبودن دادهها از نقص و جلوگیری از سناریوهای “ورودی آشغال یا خروجی آشغال” در آنالیز کمک کند. دستگاههای ذخیرهسازی دادهها باید بزرگ و سریع باشند. اخیرا چنین سیستمهایی مقرون به صرفه شدهاند و انبارهای توانمند دادهها را میتوان بهعنوان یک راهحل در محل پیادهسازی کرد. ذخیرهسازی ابری یا راهحلهای ترکیبی ابر در محل، از دیگر گزینهها هستند.
دادهکاوی و آنالیز کلان دادهها
آنالیز سنتی دادهها (آنالیز دادهها بدون استفاده از کلان دادهها) معمولاً بر دانش متخصص انسانی در ترکیب با روشهای آماری متکی است. چهار ویژگی کلان داده، آنالیز کلان داده را بسیار متفاوت میکند:
تعریف: آنالیز دادههای بزرگ – آنالیز دادههای بزرگ، فرآیند آنالیز مجموعه دادههای بزرگ با هدف کشف اطلاعات مفید، مدلهای آزمون و فرضیههاست. نتایج میتواند به فرصتهای درآمدی جدید، بهبود کارایی عملیاتی، بازاریابی کارآمدتر و سایر مزایای مربوط به کسبوکار منتج شود.
تعریف: دادهکاوی – دادهکاوی، فرآیندآنالیز دادهها ازدیدگاههای مختلف و خلاصهسازی آنها به اطلاعات مفید است. این موارد شامل شناسایی ناهنجاریها در رکوردها، آنالیز خوشهای فایلهای داده و الگوبرداری متوالی با استفاده از یادگیری ماشین، مدلهای آماری تست A/B (بهعنوان تست تقسیم نیز شناخته میشود)، یادگیری عمیق، پردازش زبان طبیعی، و آنالیز تصویر یا ویدئو برای کشف الگوهای مخفی یا پنهان میباشد.
تجسم دادهها
تجسم نتایج دادهکاوی و آنالیز، به درک بینشی که بوجود میآورد کمک میکند. گزارشهای بر پایه آنالیز سنتی دادهها از نمودارهای خطی (یک بعدی)، نمودارهای دایرهای، نمودارهای پراکندگی و نقشههای حرارتی استفاده میکنند. برای تجسم نتایج حاصل از کلان داده، ابزارهای نرمافزاری متنوع پشتیبانیکننده از انواع نمودارها ایجاد شدهاند. یکی از روشهای استقراریافته کنونی، پیادهسازی داشبوردهای مدیریتی،رابطهای کاربری مختصر و مفید پشتیبانی از تصمیمات است که تمام اطلاعات حیاتیماموریت را نمایش میدهند.