تحليلات البيانات الضخمة

مـــقــدمـــة:

في علم البيانات تسمى البيانات بـالضخمة في حال كانت لايمكن ان تتناسب مع ذاكرة اللابتوب او جهاز الحاسوب الشخصي.

التعامل مع البيانات الضخمة ومعالجتها وتحليلها يحتاج الى كتل Cluster مكونة من عشرات او مئات او الاف اجهزة الحاسوب ومن اجل استخدام هذه الكتل من الحواسيب نحتاج الى استخدام انظمة توزيع الملفات distributed files systems وعلى سبيل المثال استخدام انظمة Hadoop الشهيرة والمعروفة بأسم HDFS وهي مختصر Hadoop Distributed File System والتي تستخدم لتوزيع الملفات او البيانات على حواسيب الكتل ، وايضا نحتاج الى استخدام احدى تقنيات معالجة البيانات الضخمة واهمها هي:

  • Hadoop MapReduce
  • Spark

مرحباً بكم في دورة ( BD120: Big Data Analytics ) حيث سنتعلم في هذه الدورة اساسيات البيانات الضخمة وطريقة معالجتها وتحليلها بأستخدام Spark مع لغة Python وسنتعلم ايضا ماهو سبب اهمية Spark ولماذا هي مشهورة جداً وتعتبر من اهم الادوات والمهارات الحديثة التي يبحث عنها اصحاب الشركات في الموظفين والتي يجب على كل عالم بيانات تعلمها واتقانها.

وايضا سنتعلم طريقة بناء نماذج تعلم الالة تحت الاشراف وتعلم الالة بدون اشراف بأستخدام pyspark وتطبيقها على البيانات الضخمة وسوف نقوم بذلك من خلال بناء عدة مشاريع حديثة ومهمة جدا من خلال استخدام MLlib

وسنقوم بكل ذلك من خلال شرح المفاهيم الاساسية والتي تسهل علينا فهم هذه التقنيات الحديثة ومن ثم التطبيق العملي من خلال عدة مختبرات ومن ثم الممارسة من خلال التمارين البرمجية واخيراً بناء المشاريع الحقيقية من اجل الاستعداد بشكل كامل للعمل في هذا المجال.

المشاريع:

  • مشروع تحليل اسهم شركة أبل
  • مشروع التنبؤ بالتأخير او الوصول المبكر للرحلات الجوية
  • مشروع تقسيم عدد كبير من عملاء شركة الى مجاميع متشابهة في الخواص والسلوك

هذه الدورة قيد التطوير وسيتم فتح التسجيل قريباً …

هذه الدورة قيد التطوير وسيتم فتح التسجيل قريباً …

كن أول من يضيف تعليقا.

Please, تسجيل الدخوللترك تعليق
تحليلات البيانات الضخمة

Content is protected