تحلیل خوشه ای
خوشه بندی (تحلیل خوشه ای) برای حل مسئله ای طرح می شود که در آن با در دست داشتن نمونه ای از n مشاهده و اندازه گیری P متغیر بر روی هر مشاهده، می توان مشاهدات (افراد) را در کلاس هایی(خوشه هایی) گروه بندی نمود که افراد مشابه در داخل یک کلاس قرار گیرند. این روش باید کاملاً عددی باشد و کلاس های آن از قبل مشخص نباشد
چرا تحلیل خوشه ای ارزشمند است ؟
1. خوشه بندی می تواند در یافتن گروه های واقعی کمک ساز باشد (مانندگروه بندی بیماران افسرده که در مورد آنها اختلاف نظر زیاد است)،
2. برای کاهش داده ها می تواند مفید باشد (مانند انتخاب یک شهر از میان شهرهای مشابه برای بازاریابی)
اما ممکن است:
گروه های غیرقابل انتظاری ایجاد کند که احتمالاً بیانگر روابط جدیدی خواهد بود و باید مورد بررسی دقیق تری قرار گیرند.
انواع تحلیل خوشه ای
1. تحلیل خوشه ای دو مرحله ای
T-SCA
Two-Step Cluster Analysis))
2. تحلیل خوشه ای -Kمیانگین
K-MCA
K-Means Cluster Analysis))
3. تحلیل خوشه ای سلسله مراتبی
HCA
( HYPERLINK “http://moshaveramari.com/site/detail.asp?page=11&id=7” \o “Click to Continue > by GiantSavings” Hierarchical Cluster Analysis)
تحلیل خوشه ای دو مرحله ای (T-SCA)
این رویه ( HYPERLINK “http://moshaveramari.com/site/detail.asp?page=11&id=7” \o “Click to Continue > by GiantSavings” Procedure)، ابزاری اکتشافی است که برای آشکار نمودن گروه ها (خوشه ها)ی ذاتی و طبیعی موجود در مجموعه داده که به طور معمول دیده نمی شوند، طراحی شده است.
وجه تمایز الگوریتم موجود در این رویه با فنون سنتی خوشه بندی :
 قابلیت خوشه بندی بر اساس متغیرهای گسسته (رسته ای) و پیوسته
 انتخاب خودکار تعداد خوشه ها
 قابلیت تحلیل کارآمد فایل داده های بسیار بزرگ
رویه T-SCA برای پیدا کردن گروه های واقعی موجود در مشاهدات یا متغیرها بسیار مفید است. همزمان با متغیرهای پیوسته وگسسته به خوبی کار می کند. همچنین،می تواند فایل داده های بسیار بزرگ را تحلیل نماید.
رویه K-MCA) محدود به متغیرهای قابل اندازه گیری (Scale) است؛ اما برای کار با داد ه های بزرگ مناسب است و امکان ذخیره سازی فاصله ها از مرکز خوشه را فراهم می نماید.
اگر تعداد مشاهدات کم باشد، و انتخاب بین چندین روش مختلف سازماندهی خوشه ها، تبدیل متغیرها و اندازه گیری عدم شباهت بین خوشه ها مطرح باشد، رویه HCA پیشنهاد می شود.
روشهاي خوشه‌بندي سلسله مراتبي
همان گونه که بيان شد، در روش خوشه بندي سلسله مراتبي، به خوشه‌هاي نهايي بر اساس ميزان عموميت آنها ساختاري سلسله‌ مراتبي، معمولا به صورت درختي نسبت داده مي‌شود. به ا ين درخت سلسله مراتبي دندوگرام (dendogram) مي‌گويند. روشهاي خوشه‌بندي بر اساس ساختار سلسله مراتبي توليدي توسط آنها معمولا به دو دستة زير تقسيم مي‌شوند:
بالا به پايين (Top-Down) يا تقسيم کننده (Divisive): در اين روش ابتدا تمام داده‌ها به عنوان يک خوشه در نظر گرفته مي‌شوند و سپس در طي يک فرايند تکراري در هر مرحله داده‌هايي شباهت کمتري به هم دارند به خوشه‌هاي مجزايي شکسته مي‌شوند و اين روال تا رسيدن به خوشه‌هايي که داراي يک عضو هستند ادامه پيدا مي‌کند.
پايين به بالا (Bottom-Up) يا متراکم شونده (Agglomerative): در اين روش ابتدا هر داده‌ها به عنوان خوشه‌اي مجزا در نظر گرفته مي‌شود و در طي فرايندي تکراري در هر مرحله خوشه‌هايي که شباهت بيشتري با يکديگر با يکديگر ترکيب مي‌شوند تا در نهايت يک خوشه و يا تعداد مشخصي خوشه حاصل شود. از انواع الگوريتمهاي خوشه‌بندي سلسله مراتبي متراکم شونده رايج مي‌توان از الگوريتمهاي Single-Link، Average-Link و Complete-Link نام برد. تفاوت اصلي در بين تمام اين روشها به نحوة محاسبة شباهت بين خوشه‌ها مربوط مي‌شود.
تحلیل عاملی
در برخی تحقیقات به دلایل مختلف با حجم زیادی از متغیرها روبرو هستیم. برای تحلیل دقیق تر و رسیدن به نتایج علمی تر و در عین حال عملیاتی تر، پژوهشگر به دنبال کاهش حجم متغیرها و تشکیل ساختار جدیدی برای آنها است و به این منظور از روش تحلیل عاملی استفاده می کند.
نخستين كار درباره تحليل عاملي توسط چارلز اسپيرمن (1904) صورت گرفت، به گونه ای كه وی را « پدر» اين روش شناخته اند. بعد از او كارل پيرسن (1910)، روش «محورهاي اصلي» را پيشنهاد كرد و هُتلينگ (1933) آن را به گونه كاملتري توسعه داد
در حقیقت، هدف تشخيص اين عامل هاي مشاهده ناپذير بر پايه مجموعه اي از متغيرهاي مشاهده پذير است. عامل، متغير جديدي است كه از طريق تركيب خطي نمره هاي اصلي متغيرهاي مشاهده شده بر پايه فرمول زير برآورد مي شود:
Fj=∑WjiXi=Wj1X1+Wj2X2+…+WjpXp
كه در آن W ها بيانگر ضرايب نمره عاملي و P معرف تعداد متغيرها است.
امید این است که با تعداد کمی از این عاملها (یعنی ترکیبهای خطی نمره های اصلی متغیرهای مشاهده شده)، بتوان تقریباً همه اطلاعاتی را که توسط مجموعه بزرگتری از متغیرها به دست می آید، در برگرفته و در نتیجه توصیف ویژگی های هر مشاهده را ساده ساخت.
انواع تحلیل عاملی
1) تحلیل عاملی اکتشافی (Exploratory Factor Analysis) :
محقق درصدد کشف ساختار زیربنایی مجموعه نسبتاً بزرگی از متغیرها است بدون وجود هیچ تئوری اولیه ای. هر متغیری ممکن است با هر عاملی ارتباط داشته باشد.
کاربردها: کاهش داده ها (Data Reduction) یا شناسایی ساختارها (Structure Detection)
2) تحلیل عامل تأییدی (Confirmatory Factor Analysis):
پیش فرض اساسی محقق، آن است که هر عاملی با زیرمجموعه خاصی از متغیرها ارتباط دارد. حداقل شرط لازم این است که محقق در مورد تعداد عاملهای مدل قبل از انجام تحقیق، پیش فرض معینی داشته باشد.
در هر روش استخراجی که مد نظر باشد، یک راه حل مناسب و خوب باید پاسخ مناسبی به این دو سئوال ارائه کند:
1- چه تعداد عامل برای معرفی متغیرها لازم است؟ و
2- عاملها چه معنا و مفهومی دارند؟
مراحل انجام تحلیل عاملی
1. تشکیل ماتریسی از ضرایب همبستگی متغیرها،
2. استخراج عاملها از ماتریس ضریب همبستگی،
3. چرخش عاملها به منظور به حداکثر رساندن رابطه بین متغیرها و عاملها
4. محاسبه بار عاملی (نمره عاملها) برای تعیین عاملهای مورد نظر
نکته 1: معمولاً عاملهایی انتخاب می شوند که بار عاملی آنها بیشتر از 4/0 باشد.
نکته 2: برخی از صاحبنظران معتقدند در تحلیل عاملی، تعداد مشاهدات (Cases) حداقل باید 10 برابر تعداد متغیرها باشد. برخی حتی اعتقاد به حداقل 20 برابر تعداد متغیرها دارند.
آمار پارامتریک و ناپارامتریک
یکی دیگر از تقسیم بندی های رایج آمار ، تقسیم بندی آن به آمار پارامتریک و آمار ناپارامتریک است. برای اینکه بیشتر با این معانی آشنا شویم ابتدا به بیان تفاوت آمار پارامتریک و ناپارامتریک می پردازیم:به ساده ترین بیان باید گفت که برای سنجش فرضیه هایی که متغیر آن ها کمی است از آمار پارامتریک استفاده می شود. متغیر های کمی به علت کمی بودن و واحد پذیر بودن از این ویژگی برخورد دارند که آنها را میانگین پذیر و انحراف معیار پذیر می کنند و به دلیل همین ویژگی معمولا برای استفاده از آزمون های پارامتریک، پیش فرض هایی لازم است که از آن جمله نرمال بودن توزیع جامعه است زیرا در حالتی که توضیع جامعه نرمال نباشد، میانگین و انحراف معیار، نمایی واقعی از داده ها را به تصویر نمی کشانند. به عنوان مثال فرض کنید، مدیری می خواهد میانگین موجودی حساب های قرض الحسنه یک بانک را محاسبه نماید. چنانچه از مجموع مشتریان بانک چند نفر وجود داشته باشند که موجودی های میلیونی داشته باشند، با این فرض میانگین کل به طور خودکار به سمت بالا میل خواهد کرد و از حالت عادی خود خارج می شود. این مسئله ساده خود را در نرمال بودن جامعه آشکار می کند. در چنین حالتی، چون مبنای تصمیم گیری عموما میانگین و سایر شاخصه های مرتبط با میانگین است با فرض انحراف از توزیع نرمال ، تصمیم گیری ها چهره ای منطقی و واقعی نخواهند داشت . بنابراین نرمال بودن توزیع جامعه یکی از اصلی ترین پیش فرض های استفاده از آمار پارامتریک است.برای سنجش فرضیه ها با متغیر های کیفی، آمار ناپارامتریک استفاده می شود. این آزمون ها، که از آن ها با عنوان “آزمون های بدون پیش فرض ” نیز یاد می شود، به هیچ پیش فرض خاصی نیاز ندارد. برای مثال قضاوت درباره جنیسیت افراد با میانگین و انحراف معیار مبتنی نیست، بلکه بیشتر فراوانی هر یک از ردههای آن (مونث / مذکر) مد نظر است.در خصوص تبدیل متغیر ها باید یادآور شد که می توان که متغیر های کمی را به کیفی تبدیل نمود و آنها را با آزمون های ناپارامتریک مورد ارزیابی قرار داد، ولی عکس این عمل امکان پذیر نمی باشدبرای مثال ، معدل افراد بر اساس نمره می تواند در آزمون های پارامتریک ارزیابی شود، ولی با تبدیل همین متغیر به مقوله های خوب، متوسط و ضعیف می توان آزمون های نا پارامتریک را هم در مورد آن ها به کار گرفت.شایان ذکر است که سطح دقت در آزمون های آماری پارامتریک از آزمون های آماری ناپارامتریک بیشتر است و معمولا پیشنهاد می شود که در صورتی که استفاده از آزمون های پارامتریک امکان پذیر باشد از آزمون های ناپارامتریک استفاده نشود، باید توجه داشت که بیشتر متغیر ها در علوم رفتار ی به کمک آزمون های نا پارامتریک مورد قضاوت قرار می گیرند.
یک آزمون آماری پارامتریک آزمونی است که مدل آماری آن برخی شرایط معین را درباره پارامترهای جامعهای که نمونه ما از آن گرفته شده است، وضع میکند. از آنجا که برای تحقق این شرایط به طور معمول آزمونی به عمل نمیآید، فرض میشود که این شرایط رعایت شدهاند. معنیدار بودن نتایج یک آزمون پارامتریک بستگی به اعتبار این مفروضات و شرایط دارد. آزمون‌های پارامتریک علاوه بر آن، تنها در مواردی میتوانند به کار روند که اطلاعات و مقادیر بدست آمده، حداقل در سطح مقیاس فاصلهای باشند.
یک آزمون آماری غیر پارامتریک آزمونی است که مدل آماری آن شرایط خاصی را در مورد پارامترهای جامعهای که نمونه ما از آن استخراج شده است وضع نکرده است. البته برخی مفروضات در مورد بیشتر آزمون‌های غیر پارامتری وجود دارد مثلا اینکه مشاهدات ما از یکدیگر مستقلاند و اینکه پیوستگی داشتن در متغیر تحت مطالعه ما مستتر است، اما این مفروضات به مراتب کمتر و ضعیفتر از مفروضات مربوط به آزمون‌های پارامتریک هستند. علاوه بر آن لزومی ندارد که در آزمون‌های آماری غیر پارامتریک سطح اندازهگیری به نیرومندی آزمونهای پارامتریک باشد. بیشتر آزمون‌های غیر پارامتریک را میتوان در رابطه با اطلاعاتی که در سطح مقیاس ترتیبی باشند به کار برد و بعضی از این آزمون‌ها نیز قابل کاربرد به اطلاعاتی در سطح مقیاس نامی هستند.
نگرش ناپارامتریک به آمار، رویههایی استنباطی را فراهم میآورد که بر اساس فرضیات نسبتا ضعیفی بنا نهاده شدهاند در حالی که رویههای آمار پارامتریک برای مسائل مشابه اینگونه نیستند. دسته خاصی از آمار ناپارامتریک که بدون توزیع میباشند، از آزمونهای فرضی تشکیل شدهاند که تنها به مشاهدات رتبهای برای یک یا چند نمونه وابستهاند. یکی از مثالهای بارز در این مورد آزمون کندال است که از ضریب همبستگی رتبهای استفاده میکند. وقتی که ما K مجموعه رتبهای داشته باشیم می‌توانیم با به کار بردن ضریب توافق کندال (W) همبستگی رتبهای میان آنها را پیدا کنیم. در مقابل، آزمون ویلکاکسون برای مقایسه دو توزیع به کار گرفته میشود. رویههای ناپارامتریک برای موقعیتهایی مورد استفاده قرار میگیرند که توزیع جامعه مورد مطالعه ناشناخته بوده و یا حجم جامعه بسیار کوچک باشد.
در سال‌های اخیر، محدود کردن دیدگاه قطعی نسبت به فرضیات، در مشاهدات آماری و تحلیل دادهها توجه زیادی را به خود جلب نموده است. آمار توصیفی همانند آمار استنباطی برای مواردی از قبیل برآورد نقطهای، برآورد فاصله اطمینان و آزمون فرضیات به سمت استفاده از دادههای فازی متمایل شده است. با این وجود، تلاش‌های اندکی برای کاربرد تکنیک‌های ناپارامتریک به دادههای فازی صورت گرفته است. در ذیل مهمترین مزایای کاربرد منطق فازی در برابر منطق قطعی از دیدگاه صاحب‌نظران این حوزه بیان گردیده است:
منطق فاز ی از دیدگاه مفهومی بسهولت قابل درک است. مفاهیم ریاضی استدلال فازی خیلی سادهاند.
منطق فازی انعطاف پذیر است. برای هر سیستم مفروضی اضافه نمودن قابلیت بیشتر بدون شروع مجدد از صفر آسان است.
منطق فازی می تواند توابع غیر خطی با هر درجه از پیچیدگی را مدل کند. شما میتوانید یک سیستم فازی برای تطبیق هر مجموعهای از دادههای ورودی-خروجی ایجاد کنید. این فرآیند مخصوصا بواسطه تکنیکهای وفقی نظیر سیستمهای استنتاج فازی-عصبی وفقی (ANFIS) به سهولت قابل پیاده سازی است.
منطق فازی را میتوان با تکنیکهای کنترل مرسوم ترکیب و تلفیق نمود. سیستمهای فازی ضرورتاً جایگزین روش‌های کنترل مرسوم نمیشوند. در بسیاری موارد سیستمهای فازی آنها را تکمیل و تقویت نموده و پیاده سازی آنها را ساده میکنند.
منطق فازی براساس زبان فطری (طبیعی) است. بنیان منطق فازی برگرفته از ارتباط بشری است. این مشاهده بیشتر اظهارات دیگر درباره منطق فازی را پی ریزی میکند.



قیمت: تومان


دیدگاهتان را بنویسید