روش تازه دانشمند جهان اسلام برای تحلیل بهتر داده ها

روش تازه دانشمند جهان اسلام برای تحلیل بهتر داده ها به گزارش نیو وبلاگ، محققان برجسته جهان اسلام از توسعه الگوریتم داده های پرت و معرفی فاصله بیضوی برای خوشه بندی دقیق تر داده ها خبر دادند.



به گزارش نیو وبلاگ به نقل از مهر، نشست های «استپ» (STEP) در رویداد جایزه مصطفی (ص) با هدف اشتراک گذاری دانش میان دانشمندان مسلمان برگزار می گردد. استپ دهم، میزبان چهره های بین المللی برجسته ای بود که دستاوردهایشان در مرزهای دانش حرکت می کند. همچون این چهره ها، «علی اس. هادی» (Ali S. Hadi)، دانشمند مصری، استاد ممتاز دانشگاه آمریکایی قاهره بود.
دکتر علی اس. هادی از محققان برجسته حوزه آمار با سابقه تدریس و پژوهش در دانشگاه های معتبر بین المللی، همچون دانشگاه آمریکایی بیروت، استاد بازنشسته افتخاری دانشگاه کرنل و دانشگاه آمریکایی قاهره به حساب می آید.
حوزه فعالیت علمی وی شامل آمار پیشرفته، تحلیل داده و شیوه های آماری کاربردی است و تا حالا آثار علمی مختلفی در این مورد منتشر نموده است. یکی از حوزه هایی که این دانشمند بر آن مسلط است، داده های پرت (داده ای است که در فاصله ی غیرعادی از بقیه مقادیر داده در یک نمونه ی تصادفی از یک جمعیت مشاهده می شود) است.
این دانشمند جهان اسلام در گفتگو با گزارشگر مهر، در جواب این پرسش که چرا اتکا بر یک آستانه مشخص (crisp cutoff) برای تشخیص داده های پرت همیشه قابل اعتماد نیست، اظهار داشت: داده های پرت یکی از چالش های اصلی در پروسه جمع آوری و تحلیل داده ها هستند، چونکه به طور معمول در هر مجموعه داده، مقادیری وجود دارند که به صورت محسوسی با اکثریت داده ها متفاوت اند.
وی برای توضیح این مساله مثال زد و اظهار داشت: اگر داده های در ارتباط با درآمد افراد را جمع آوری کنید، امکان دارد ناگهان با فردی مانند بیل گیتس مواجه شوید؛ در چنین شرایطی، او یک داده پرت شمرده می شود، چونکه فاصله معناداری با سایر داده ها دارد.
هادی ضمن اشاره به تمرکز پژوهش های خود بر داده های چندمتغیره اظهار داشت: در این نوع داده ها، برعکس تحلیل تک متغیره، با مجموعه ای از متغیرها سروکار داریم و همین مسئله شناسایی داده های پرت را پیچیده تر می کند. داده ها را می توان در یک، دو یا سه بعد ترسیم کرد، اما در ابعاد بالاتر، این کار در عمل دشوار می شود و ناچاریم به شیوه های عددی تکیه نماییم.
این دانشمند جهان اسلام اضافه کرد: برخی داده های پرت در مرز میان داده های عادی و غیرعادی قرار دارند؛ ازاین رو اگر بخواهیم با یک نقطه آستانه مشخص درباره ی آنها تصمیم بگیریم، احتمال خطا افزایش خواهد یافت. به این علت از منطق فازی (Fuzzy Logic) استفاده می نماییم تا میزان پرت بودن داده ها را بصورت تدریجی و در بازه ای بین صفر تا یک تعیین نماییم. هرچه این مقدار به یک نزدیک تر باشد، احتمال پرت بودن داده بیشتر است.
هادی درباره ی مزیت شیوه های فازی نسبت به الگوریتم کلاسیک BACON توضیح داد: الگوریتم BACON در نسخه اصلی خود مبتنی بر منطق قطعی (crisp) است، اما ما آنرا به نسخه توسعه یافته ای با عنوان Fuzzy BACON ارتقا دادیم. در این مدل، داده ها فقط به دو دسته پرت و غیرپرت تقسیم نمی شوند، بلکه داده هایی که در ناحیه مرزی قرار دارند، در یک محدوده فازی ارزیابی می شوند.
وی با اعلان اینکه مدلهای قطعی در حقیقت حالت خاصی از مدلهای فازی هستند، اظهار داشت: اگر پارامتر فازی فقط صفر یا یک باشد، در عمل همان مدل قطعی را داریم، اما زمانیکه این پارامتر در بازه بین صفر و یک قرار می گیرد، مدل فازی شکل می گیرد و امکان تحلیل دقیق تر داده های مرزی فراهم می شود.
این استاد آمار در تشریح تفاوت تجربی میان Fuzzy BACON و نسخه کلاسیک آن اظهار داشت: در مدل کلاسیک، یک آستانه ثابت وجود دارد و داده ها یا پرت هستند یا نیستند؛ اما در مدل فازی، یک محدوده تعریف می شود که در آن، میزان اطمینان نسبت به پرت بودن داده ها بصورت تدریجی سنجیده می شود.
هادی همین طور به کاربرد این تکنیک در انواع مختلف داده ها اشاره نمود و اظهار داشت: نسخه اولیه BACON عمدتا برای داده های عددی طراحی شده بود، اما شیوه های جدید امکان تحلیل همزمان داده های عددی و دسته ای (categorical) را هم فراهم آورده اند و این مساله دامنه کاربرد آنرا گسترده تر کرده است.
استاد ممتاز دانشگاه آمریکایی قاهره در بخش دیگری از این گفتگو، به جدیدترین پژوهش های خود در عرصه خوشه بندی (Clustering) اشاره نمود و اظهار داشت: یکی از پروژه های اخیرم بر اندازه گیری فاصله میان خوشه های داده متمرکز است. در تحلیل خوشه ای، پرسش اصلی این است که چطور میتوان فاصله میان خوشه ها را به گونه ای دقیق اندازه گیری نمود.
او اضافه کرد: تا حالا شیوه های مختلفی برای سنجش فاصله پیشنهاد شده، اما جدید ترین رویکرد، استفاده از «فاصله بیضوی» (Elliptical Distance) است. برعکس فاصله اقلیدسی که بر فرض برابری واریانس ها و استقلال متغیرها استوار است، فاصله بیضوی این محدودیت ها را درنظر نمی گیرد و شرایط واقعی تر داده ها را منعکس می کند.
هادی در انتها با تشریح مزیت روش پیشنهادی خود اظهار داشت: این تکنیک دو مسئله مهم را پوشش می دهد؛ نخست تفاوت واحدهای اندازه گیری و واریانس متغیرها، و دوم وابستگی میان متغیرها. در شیوه های کلاسیک، متغیرهایی با واریانس بالا می توانند بر تحلیل غلبه کنند و همین طور وابستگی میان متغیرها نادیده گرفته می شود، اما روش پیشنهادی ما این محدودیت ها را برطرف کرده و دقت تحلیل خوشه ای را به صورت محسوسی بالا می برد.


منبع:

0.0 / 5
31
1405/02/16
13:49:12
تگهای مطلب: پروژه , پژوهش , پژوهشگر , جهان
این مطلب را می پسندید؟
(0)
(0)
X
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
نظر شما در مورد این مطلب
نام:
ایمیل:
نظر:
سوال:
= ۱ بعلاوه ۱
پربیننده ترین ها

پربحث ترین ها

جدیدترین ها

Sr127_DBConnectionString - حقوق مالکیت معنوی سایت نیو وبلاگ محفوظ است

نیو وبلاگ

وبلاگ عمومی

نیو وبلاگ، صدای خودرا به گوش دیگران برسانید : وبلاگ شما، هویت شما