Data Mining چیست؟
data Mining چیست ؟ این سوالی که ممکن است برای اولین بار شما که با این موضوع بر می خورید به ذهن شما برسد. در این مقاله ما این موضوع را به طور قابل توجهی بررسی می کنیم. برای یادگیری برنامه نویسی می توانید به سایت آموزش برنامه نویسی در کرج مشاوره بگیرید.
-آشنایی با مفهوم data
داده به مجموعه ارقام، یا اطلاعاتی گفته میشود که قابل تحلیل و تفسیر باشد؛ که میتواند تصاویر، اعداد و صدا و… باشد. دادهها به سه دسته ساختار یافته، نیمه ساختار یافته و بدون ساختار سازماندهی میشود، که دادههای ساختار یافته بسیار سازماندهی شده هستند و در پایگاه داده استفاده میشود.
در data mining، داده به هر اطلاعاتی که قابل تجزیه و تحلیل باشد گفته میشود مانند ترافیک وبسایت، ارقام فروش و….
-داده کاوی (data mining) چیست؟
داده کاوی،کشف دانش در داده (Knowledge Discovery in Data) یا به اختصار KDD نامیده میشود. زمانی که حجم دادهها بسیار زیاد است با جداسازی و نگاه سطحی به آنها، نمیتوان به راحتی آنهارا تحلیل و به الگوهای آنها پی برد. اما اکنون با استفاده از دادهکاوی میتوان با استفاده از هوش مصنوعی، یادگیری ماشین و… متناسب با اهداف مشخص، آنها را دستهبندی و تجزیه و تحلیل کرد و ناسازگاری و همبستگی دادهها در حل مسائل مختلف را شناسایی کرد.
این دستهبندی و تجزیه و تحلیلها به حل مشکلات، پیشبینی روندها، کاهش خطرات و یافتن فرصتهای جدید کمک میکند. دادهکاوی یکی از زیر شاخههای علم داده محسوب میشود که شامل استفاده از تکنیکهای آماری و الگوریتمها برای کشف الگوها و روابط در جوامع بزرگ است، علم داده علاوه بر اینها حوزه های دیگری مانند یادگیری ماشین، تجسم داده ها، یادگیری عمیق و… را شامل میشود.
-تکنیکها و روش های دادهکاوی
به طور کلی برای دادهکاوی 4 مرحله کلی میتوان درنظر گرفت:
- تعیین اهداف
- جمعآوری و آمادهسازی دادهها
- استخراج الگوهای موجود و ارائه مدلی برای حل مساله
- جمع بندی و ارزیابی نتایج
انتخاب یک الگوریتم مناسب برای پیاده سازی مدل داده کاوی یک امر مهم است، الگوریتم های کلاس بندی((Classification، خوشه بندی (Clustring) و یاد گیری تقویتی ((Reinforcement Learning کاربرد زیادی در این حوزه دارد و برای یافتن ارتباط بین داده ها استفاده میشود.
-اهمیت و کاربرد داده کاوی
آنچه باعث شده است که داده کاوی تا این حد مورد توجه قرار بگیرد ضریب اطمینان بالای تصمیمات اتخاذ شده براساس نتایجی است که ایجاد میشود، از آنجا که ما در یک جهان داده محور زندگی میکنیم باید حداکثر مزایای ممکن را بدست آوریم.
یکی از کاربردهای آن پیش بینی ترند های روز دنیا است.برای مثال چند وقت پیش کمپینی با چالش 10سال در شبکه های اجتماعی مختلف بهوجود آمده بود که افراد تصویری از حال و 10سال پیش خود را به اشتراک میگذاشتند. برخی از مردم براین باور بودند که مارک زاکربرگ با اینکار میخواسته الگوریتمی را برای تشخیص چهره فیسبوک تست کند که با اینکار توانسته در بهینه ترین حالت ممکن تعداد زیادی داده جمع آوری کند.
کمک در بدست آوردن اطلاعات موثق، تولید سودآور و تعدیلهای عملیاتی، شناسایی خطرات امنیتی و کلاه برداری و… برخی از مزایای داده کاوی هستند.
-مشکلاتdata mining
با وجود اهمیت بالا و کاربردهای فراوان داده کاوی مشکلاتی را هم ایجاد میکند که برخی از آنها عبارتند از:
- داده های خام سازمانها دارای اطلاعات ارزشمندی است که نگهداری و حفظ امنیت آنها بسیار دشوار است، از طرفی دیگر داده خامی که برای داده کاوی و استخراج اطلاعات نیاز هست به سادگی به وجود نمیآید و نیاز به حذف داده های پرت و دسته بندی آنها است، که ممکن است داده ها به قدری پراکنده باشند که یکپارچه کردن آن مشکل شود.
- اعتبار و کارآمدی نتایج دادهکاوی نیازمند انتخاب روش و الگوریتم مناسب و درست است، اگر اینگونه نباشد به اعتبارسنجی آن خدشه وارد میشود.
از آنجایی که هرروز حجم زیادی از دادهها تولید میشوند، در نتیجه تقاضای زیادی برای تجزیه و تحلیل این دادها با استفاده از دادهکاوی از متخصصین وجود دارد.
برای اطلاع از شبکه عصبی CNN اینجا کلیک کنید.