حل مشكلة البيانات غير المهيكلة باستخدام التعلم الآلي

هل لم تتمكن من حضور Remodel 2022؟ تحقق من جميع جلسات القمة في مكتبتنا عند الطلب الآن! مشاهدة هنا.


نحن في خضم ثورة البيانات. حجم البيانات الرقمية التي تم إنشاؤها خلال السنوات الخمس المقبلة سيجمع ضعف المبلغ أنتجت حتى الآن – و بيانات غير منظمة سيحدد هذا العصر الجديد من التجارب الرقمية.

البيانات غير المهيكلة – المعلومات التي لا تتبع النماذج التقليدية أو تتلاءم مع تنسيقات قواعد البيانات المهيكلة – تمثل أكثر من 80٪ من جميع بيانات المؤسسة الجديدة. للاستعداد لهذا التحول ، تجد الشركات طرقًا مبتكرة لإدارة البيانات وتحليلها وتعظيم استخدامها في كل شيء بدءًا من تحليلات الأعمال وحتى الذكاء الاصطناعي (AI). لكن صانعي القرار يواجهون أيضًا مشكلة قديمة: كيف تحافظ على جودة مجموعات البيانات الضخمة غير العملية وتحسنها؟

مع التعلم الالي (ML) ، هكذا. تتيح التطورات في تقنية ML الآن للمؤسسات معالجة البيانات غير المهيكلة بكفاءة وتحسين جهود ضمان الجودة. مع ثورة البيانات التي تحدث في كل مكان حولنا ، أين تقع شركتك؟ هل أنت مثقل بمجموعات بيانات قيّمة لا يمكن إدارتها – أم أنك تستخدم البيانات لدفع عملك إلى المستقبل؟

تتطلب البيانات غير المهيكلة أكثر من نسخ ولصق

لا جدال في قيمة البيانات الدقيقة والمتسقة في الوقت المناسب للمؤسسات الحديثة – فهي حيوية مثل الحوسبة السحابية والتطبيقات الرقمية. على الرغم من هذا الواقع ، لا تزال جودة البيانات الرديئة تكلف الشركات في المتوسط 13 مليون دولار سنويا.

حدث

ميتابيت 2022

ستجمع MetaBeat قادة الفكر لتقديم إرشادات حول كيفية قيام التكنولوجيا metaverse بتحويل الطريقة التي تتواصل بها جميع الصناعات وتؤدي أعمالها في 4 أكتوبر في سان فرانسيسكو ، كاليفورنيا.

سجل هنا

للتنقل في مشكلات البيانات ، يمكنك تطبيق أساليب إحصائية لقياس أشكال البيانات ، مما يمكّن فرق البيانات لديك من تتبع التباين ، والتخلص من القيم المتطرفة ، والانعطاف في البيانات. تظل عناصر التحكم المستندة إلى الإحصائيات ذات قيمة للحكم على جودة البيانات وتحديد كيف ومتى يجب عليك اللجوء إلى مجموعات البيانات قبل اتخاذ قرارات حاسمة. على الرغم من فعاليته ، إلا أن هذا النهج الإحصائي مخصص عادةً لمجموعات البيانات المنظمة ، والتي تصلح للقياسات الكمية والموضوعية.

ولكن ماذا عن البيانات التي لا تتناسب تمامًا مع Microsoft Excel أو Google Sheets ، بما في ذلك:

  • إنترنت الأشياء (IoT): بيانات الاستشعار وبيانات المؤشر وبيانات السجل
  • الوسائط المتعددة: الصور والصوت والفيديو
  • الوسائط الغنية: البيانات الجغرافية المكانية وصور الأقمار الصناعية وبيانات الطقس وبيانات المراقبة
  • المستندات: مستندات معالجة الكلمات وجداول البيانات والعروض التقديمية ورسائل البريد الإلكتروني وبيانات الاتصالات

عندما تكون هذه الأنواع من البيانات غير المهيكلة قيد التشغيل ، فمن السهل أن تنزلق المعلومات غير الكاملة أو غير الدقيقة إلى النماذج. عندما تمر الأخطاء دون أن يلاحظها أحد ، تتراكم مشكلات البيانات وتحدث فسادًا في كل شيء بدءًا من التقارير ربع السنوية وحتى التوقعات المتوقعة. إن أسلوب النسخ واللصق البسيط من البيانات المنظمة إلى البيانات غير المهيكلة ليس كافيًا – ويمكن في الواقع أن يزيد الأمور سوءًا بالنسبة لعملك.

القول المأثور الشائع ، “قمامة في الداخل ، قمامة خارج” ، قابل للتطبيق بشكل كبير في مجموعات البيانات غير المنظمة. ربما حان الوقت للتخلص من نهج البيانات الحالي الخاص بك.

ما يجب فعله وما لا يجب فعله لتطبيق ML على ضمان جودة البيانات

عند التفكير في حلول للبيانات غير المهيكلة ، يجب أن يكون ML على رأس قائمتك. ذلك لأن ML يمكنه تحليل مجموعات البيانات الضخمة والعثور بسرعة على أنماط بين الفوضى – ومع التدريب المناسب ، يمكن لنماذج ML أن تتعلم تفسير وتنظيم وتصنيف أنواع البيانات غير المنظمة في أي عدد من الأشكال.

على سبيل المثال ، يمكن لنموذج تعلم الآلة أن يتعلم التوصية بقواعد لتوصيف البيانات وتنظيفها وتوحيدها – مما يجعل الجهود أكثر كفاءة ودقة في صناعات مثل الرعاية الصحية والتأمين. وبالمثل ، يمكن لبرامج ML تحديد وتصنيف البيانات النصية حسب الموضوع أو المشاعر في موجزات غير منظمة ، مثل تلك الموجودة على وسائل التواصل الاجتماعي أو ضمن سجلات البريد الإلكتروني.

أثناء قيامك بتحسين جهود جودة البيانات الخاصة بك من خلال ML ، ضع في اعتبارك بعض ما يجب فعله وما لا يجب فعله:

  • قم بأتمتة: عمليات البيانات اليدوية مثل فصل البيانات وتصحيحها مملة وتستغرق وقتًا طويلاً. إنها أيضًا مهام قديمة بشكل متزايد نظرًا لقدرات الأتمتة الحالية ، والتي يمكن أن تأخذ عمليات روتينية روتينية وتحرر فريق البيانات لديك للتركيز على جهود أكثر أهمية وإنتاجية. دمج او تجسيد أتمتة كجزء من خط أنابيب البيانات الخاص بك – فقط تأكد من أن لديك إجراءات تشغيل موحدة ونماذج حوكمة مطبقة لتشجيع العمليات المبسطة والقابلة للتنبؤ حول أي أنشطة آلية.
  • لا تتجاهل الرقابة البشرية: ستتطلب الطبيعة المعقدة للبيانات دائمًا مستوى من الخبرة والسياق لا يمكن إلا للبشر توفيره ، منظمًا أو غير منظم. بينما تساعد ML والحلول الرقمية الأخرى فريق البيانات لديك بالتأكيد ، لا تعتمد على التكنولوجيا وحدها. بدلاً من ذلك ، قم بتمكين فريقك للاستفادة من التكنولوجيا مع الحفاظ على الإشراف المنتظم على عمليات البيانات الفردية. يصحح هذا الرصيد أي أخطاء في البيانات تتجاوز مقاييسك التكنولوجية. من هناك ، يمكنك إعادة تدريب نماذجك بناءً على تلك التناقضات.
  • لا تكتشف الأسباب الجذرية: عندما تنبثق الانحرافات أو أخطاء البيانات الأخرى ، فغالباً ما لا يكون هذا حدثًا منفردًا. يؤدي تجاهل المشكلات الأعمق المتعلقة بجمع البيانات وتحليلها إلى تعريض عملك لخطر مشكلات الجودة المتفشية عبر خط أنابيب البيانات بالكامل. حتى أفضل برامج تعلّم الآلة لن تكون قادرة على حل الأخطاء التي تنشأ في المراحل الأولى – مرة أخرى ، يدعم التدخل البشري الانتقائي عمليات البيانات الإجمالية ويمنع الأخطاء الجسيمة.
  • لا تفترض الجودة: لتحليل جودة البيانات على المدى الطويل ، ابحث عن طريقة لقياس البيانات غير المهيكلة نوعياً بدلاً من وضع افتراضات حول أشكال البيانات. يمكنك إنشاء واختبار سيناريوهات “ماذا لو” لتطوير نهج القياس الفريد الخاص بك ، والمخرجات والمعلمات المقصودة. يوفر إجراء التجارب باستخدام بياناتك طريقة محددة لحساب جودتها وأدائها ، ويمكنك أتمتة قياس جودة البيانات نفسها. تضمن هذه الخطوة أن تكون ضوابط الجودة قيد التشغيل دائمًا وتعمل كميزة أساسية لخط أنابيب استيعاب البيانات ، وليس مجرد فكرة لاحقة.

تعد بياناتك غير المهيكلة كنزًا دفينًا للفرص والأفكار الجديدة. بعد فقط 18٪ من المنظمات يستفيدون حاليًا من بياناتهم غير المهيكلة – وتعد جودة البيانات أحد أهم العوامل التي تعيق المزيد من الشركات.

نظرًا لأن البيانات غير المهيكلة أصبحت أكثر انتشارًا وأكثر صلة بالقرارات والعمليات التجارية اليومية ، فإن ضوابط الجودة المستندة إلى ML توفر تأكيدًا تمس الحاجة إليه بأن بياناتك ذات صلة ودقيقة ومفيدة. وعندما لا تكون مهتمًا بجودة البيانات ، يمكنك التركيز على استخدام البيانات لدفع عملك إلى الأمام.

فكر فقط في الاحتمالات التي تنشأ عندما تتحكم في بياناتك – أو الأفضل من ذلك ، دع ML يتولى العمل نيابة عنك.

إدغار هونينج هو مهندس حلول أول في امام.

صانعي القرار

مرحبًا بك في مجتمع VentureBeat!

DataDecisionMakers هو المكان الذي يمكن للخبراء ، بما في ذلك الأشخاص الفنيون الذين يقومون بعمل البيانات ، مشاركة الأفكار والابتكارات المتعلقة بالبيانات.

إذا كنت تريد أن تقرأ عن الأفكار المتطورة والمعلومات المحدثة ، وأفضل الممارسات ، ومستقبل البيانات وتكنولوجيا البيانات ، انضم إلينا في DataDecisionMakers.

يمكنك حتى التفكير المساهمة بمقال خاص بك!

قراءة المزيد من DataDecisionMakers

The Information Weblog The place You Get The Information First
VentureBeat

brain2gain