هل يمكن استخدام الوسائل k لتصنيف البيانات النصية؟

جدول المحتويات:

هل يمكن استخدام الوسائل k لتصنيف البيانات النصية؟
هل يمكن استخدام الوسائل k لتصنيف البيانات النصية؟

فيديو: هل يمكن استخدام الوسائل k لتصنيف البيانات النصية؟

فيديو: هل يمكن استخدام الوسائل k لتصنيف البيانات النصية؟
فيديو: Pivot table | ترتيب البيانات داخل 2024, شهر نوفمبر
Anonim

K- يعني خوارزمية كلاسيكية لتجميع البياناتفي التنقيب عن النص ، ولكن نادرًا ما يتم استخدامه لاختيار الميزة. … نحن نستخدم طريقة k-mean لالتقاط العديد من النقط الوسطى العنقودية لكل فئة ، ثم نختار الكلمات عالية التردد في النقط الوسطى كميزات نصية للتصنيف.

هل يعمل k-mean مع البيانات الفئوية؟

خوارزمية k-Means لا تنطبق على البيانات الفئوية، حيث أن المتغيرات الفئوية منفصلة وليس لها أي أصل طبيعي. لذا فإن حساب المسافة الإقليدية مثل الفضاء ليس له معنى.

هل يمكن استخدام الوسائل k لتجميع النص؟

K- يعني التجميع هو نوع من أسلوب التعلم غير الخاضع للإشراف، والذي يتم استخدامه عندما لا يكون لدينا بيانات مصنفة كما في حالتنا ، لدينا بيانات غير مسماة (يعني ، بدون فئات أو مجموعات محددة).الهدف من هذه الخوارزمية هو إيجاد مجموعات في البيانات ، بينما لا. من المجموعات يمثلها المتغير K.

هل يمكننا استخدام الوسائل k للتصنيف؟

KMeansهي خوارزمية تجميع تقسم الملاحظات إلى مجموعات k. نظرًا لأنه يمكننا إملاء كمية المجموعات ، فيمكن استخدامها بسهولة في التصنيف حيث نقسم البيانات إلى مجموعات يمكن أن تكون مساوية لعدد الفئات أو أكثر.

ما هي خوارزمية التجميع الأفضل للبيانات النصية؟

لتجميع متجهات النص ، يمكنك استخدام خوارزميات التجميع الهرمي مثل HDBSCANوالتي تأخذ أيضًا في الاعتبار الكثافة. في HDBSCAN ، لا تحتاج إلى تعيين عدد المجموعات كما هو الحال في k-mean وهو أكثر قوة في الغالب في البيانات الصاخبة.

موصى به: