في العصر الرقمي اليوم، أصبحت البيانات عنصرا حاسما وتعتبر زيت العصر الجديد. عندما تشاهد مقطع فيديو، فإن إعجاباتك ومجموعاتك وتعليقاتك وسلوكياتك الأخرى تولد بيانات، وهذا ليس سوى جزء صغير من البيانات الضخمة في العالم. بجملة واحدة فقط، تم إنشاء أكثر من 4 ملايين جيجابايت من البيانات على مستوى العالم. ومن المثير للصدمة أن نحو 90% من بيانات العالم تم إنشاؤها في العامين الماضيين، وتستمر وتيرة توليد البيانات في التسارع، مع تضاعف كمية البيانات العالمية كل أربع سنوات. يعتمد تكرار المنتج واتخاذ القرارات التجارية وتطوير الذكاء الاصطناعي والعديد من الجوانب الأخرى على البيانات.
بالنسبة للشركات الكبيرة، فإن التعامل مع كميات هائلة من البيانات ليس بالمهمة السهلة. من وجهة نظر مجردة، يتضمن خط البيانات بأكمله خمسة أجزاء: التجميع والاستهلاك والحساب والتخزين والاستهلاك، ولكن الوضع الفعلي أكثر تعقيدًا. هناك العديد من المكونات مفتوحة المصدر للاختيار من بينها، وترتيبها غير ثابت وهي متشابكة. 1. جمع البيانات واستيعابها : يشير جمع البيانات إلى الحصول على البيانات من مصادر البيانات المختلفة. في حين أن قواعد البيانات مثل MYSQL تستخدم بشكل أساسي لتخزين بيانات المعاملات، إلا أنها تميل إلى أن يتم جمعها كمصادر بيانات إذا تم استخدامها للتحليل. بالإضافة إلى ذلك، هناك تدفق للبيانات من أجهزة إنترنت الأشياء مثل المنازل الذكية والسيارات الذكية، بالإضافة إلى البيانات من التطبيقات المختلفة. بعد أن يكون لديك مصدر البيانات، تحتاج إلى استيعاب البيانات في مسار البيانات. تدخل بعض البيانات أولاً إلى أطر الدفق مثل كافكا، ويتم تخزين بعض البيانات في بحيرة البيانات من خلال الاستيعاب الدفعي المنتظم، وفي بعض الحالات يتم حسابها مباشرة بعد الاستيعاب. 2. حوسبة البيانات : تنقسم حوسبة البيانات بشكل أساسي إلى نوعين: معالجة الدفعات ومعالجة التدفق. تحقق أطر معالجة البيانات الحديثة، مثل Spark Blink، تكامل تدفق الدُفعات ويمكنها معالجة سيناريوهين في نفس الوقت، لتحل تدريجيًا محل HDP MapReduce، الذي يدعم معالجة الدُفعات فقط. المعالجة المجمعة هي المعالجة المنتظمة لكميات كبيرة من البيانات في أوقات محددة، مثل تلخيص مبيعات جميع المنتجات كل يوم، ومعالجة التدفق مناسبة للبيانات في الوقت الفعلي، وتتم معالجة البيانات فور وصولها. 3. تخزين البيانات : هناك أنواع عديدة من التخزين. تُستخدم بحيرات البيانات لتخزين البيانات الأولية غير المعالجة لمزيد من سيناريوهات معالجة البيانات مثل التعلم الآلي؛ وتُستخدم مستودعات البيانات لتخزين البيانات المنظمة المعالجة وغالبًا ما تُستخدم في ذكاء الأعمال. وتصور البيانات وسيناريوهات الاستعلام الأخرى. في السنوات الأخيرة، ومن أجل تبسيط العملية، ظهرت العديد من خدمات التخزين المتكاملة التي تجمع بين الاثنين. 4. استهلاك البيانات : تم تصميم السلسلة السابقة من العمليات المعقدة في النهاية لاستهلاك البيانات بكفاءة. يمكن استخدام هذه البيانات للتنبؤ والتحليل في علم البيانات، لتسهيل تصور البيانات وإنتاج التقارير من قبل مديري المشاريع أو الرؤساء، ويمكن استخدامها أيضًا للتدريب على الذكاء الاصطناعي. في الوقت نفسه، كخط أنابيب للبيانات، هناك ترابط بين المهام، ويجب جدولة تسلسل التنفيذ بشكل معقول. تسمح أدوات مثل Airflow للمستخدمين بتوضيح تبعيات المهام من خلال تحديد DAG ثم جدولة كل خطوة.
بشكل عام، يجب تجميع بنية البيانات الضخمة للمؤسسة من العديد من المكونات مفتوحة المصدر. يتم استخدام البيانات غير المتصلة بالإنترنت، والبيانات في الوقت الفعلي، ومعالجة الدفعات، ومعالجة التدفق والفئات الأخرى في الأعمال التجارية، والتي تتضمن عددًا كبيرًا من المكونات، مما يؤدي إلى ارتفاع تكاليف التطوير والتشغيل والصيانة.
في عصر الذكاء الاصطناعي الذي يركز على البيانات، تتم إعادة تصميم جميع البرامج تقريبًا. خذ منصة بيانات Tencent tc house-X التي تم إصدارها للتو كمثال، والتي توضح العديد من الاختلافات في عصر الذكاء الاصطناعي. 1. التصميم المتكامل : إن بناء بنية البيانات بالطريقة التقليدية يشبه بناء وحدات البناء بنفسك، وهو ما يستغرق وقتًا طويلاً ويتطلب عمالة كثيفة. ومع ذلك، يبدو tc house-X فور إخراجه من الصندوق وكأنه قلعة مصنوعة من الطوب. هذا التصميم المتكامل ليس مريحًا فحسب، بل يتجنب أيضًا مشكلة النسخ المتعددة للبيانات في مكونات مختلفة بالطريقة التقليدية. فهو يسمح للمستخدمين بإنشاء مستودعات بيانات افتراضية متعددة بناءً على جزء واحد من البيانات لدعم الأعمال المختلفة، وتجنب مخاطر عدم تناسق البيانات وتوفير مساحة التخزين. علاوة على ذلك، يتم عزل موارد كل مستودع بيانات افتراضي عن بعضها البعض، بحيث لا تؤثر مهمة الحوسبة الثقيلة على تجربة الاستعلام للشركات الأخرى، ويمكن توسيع كل مستودع بيانات افتراضي بشكل مستقل. 2. المرونة التي توفرها الميزات السحابية الأصلية : tc house - يمكن توسيع عمليات الحوسبة والتخزين الخاصة بها بشكل مستقل، مما يقلل بشكل كبير من هدر الموارد. على سبيل المثال، بعد ترحيل بعض أعمال Tencent إلى النظام الأساسي، كان استهلاك موارد الحوسبة أقل من 1/10 من المبلغ الأصلي. مع توفير الموارد، نسعى أيضًا لتحقيق الأداء النهائي وتطوير تقنية المحرك الأساسية الخاصة بنا. بعد ترحيل فريق مؤتمر Tencent، استخدم فقط ثلث موارد الحوسبة الأصلية، ولكن أداء الاستعلام كان أعلى من الأداء الأصلي بمقدار 2 إلى 4 مرات. 3. الذكاء : ينعكس ذكاء المنصة في جانبين: الذكاء الاصطناعي هو البيانات، والبيانات هي الذكاء الاصطناعي. يستخدم الذكاء الاصطناعي للبيانات تقنية الذكاء الاصطناعي لجعل منصة البيانات أكثر قوة، مثل السماح للمستخدمين بالاستعلام عن البيانات باستخدام اللغة الطبيعية لتسهيل المستخدمين الذين لا يفهمون SQL؛ ويمكنه أيضًا تحليل خصائص توقيت التحميل من خلال التعلم الآلي، والتنبؤ بالموارد المطلوبة وضبطها ديناميكيًا ، وحفظ تكاليف العملاء. تعمل البيانات على تمكين الذكاء الاصطناعي، مما يسمح لمنصة البيانات بخدمة الذكاء الاصطناعي بشكل أفضل. في ظل البنية التقليدية، يتم فصل البيانات الضخمة وبنية الذكاء الاصطناعي، مما يتطلب تطوير النظامين وتشغيلهما بشكل منفصل، ويجب استيراد البيانات وتصديرها عدة مرات. بواسطة تي سي هاوس -
منصات مثل tc house - مع التطوير المستمر للتكنولوجيا، أعتقد أنه سيكون هناك المزيد من المنتجات المبتكرة المماثلة في المستقبل، مما يدفع المؤسسات إلى آفاق جديدة في معالجة البيانات والتطبيقات. كيف ترى التطور المستقبلي لمنصات البيانات؟ مرحبًا بك في ترك رسالة ومشاركتها في منطقة التعليق، ولا تنس الإعجاب بهذه المقالة ومشاركتها حتى يتمكن المزيد من الأشخاص من فهم أسرار بنية البيانات الضخمة.
حصة على التغريد أنشرها على الفيسبوك
تعليقات
لا يوجد حاليا أي تعليقات