همبستگی کاذب و خاصیت بسته بودن دادههای ترکیبی در علوم زمین
محورهای موضوعی :
1 - دانشگاه کاشان
کلید واژه: دادههای ترکیبی و خاصیت بسته بودن آنها, تبدیلهای لگاریتم نسبتی, روشهای آماری استوار , همبستگی کاذب ,
چکیده مقاله :
دادههای ترکیبی که معمولا نتیجه اندازهگیریها در علوم زمین هستند، خاصیت مهمی به نام بسته بودن دارند. پژوهشگرانی که بدون توجه به این خاصیت، از روشهای متداول آماری با اعمال تبدیل لگاریتمی برای تعدیل چولگی و یا نرمالکردن دادهها استفاده میکنند در واقع وجود همبستگی کاذب در دادههای ترکیبی را نادیده میگیرند که این باعث نتایج آماری نادرست میشود. در این مقاله بعد از معرفی دادههای ترکیبی و خاصیت بسته بودن آنها، تبدیلهایی برای باز کردن سیستم بسته دادهها معرفی شدهاند. این تبدیلها عبارتاند از تبدیل نسبت لگاریتمی جمعی، تبدیل نسبت لگاریتمی مرکزی شده و تبدیل نسبت لگاریتمی ایزومتریک که همگی برحسب لگاریتم نسبتها تعریف میشوند. بعد از معرفی و برشمردن مزایا و معایب این تبدیلها نسبت به همدیگر، یکی از آنها به نام تبدیل clr روی یک مجموعه داده مربوط به آنالیز شیمیایی خاک اعمال شده است. بعلاوه نتایج اعمال تحلیل خوشهای بر دادههای تبدیل شده با استفاده از ماتریس ضرایب همبستگی اسپیرمن به عنوان ماتریس فاصله مورد بررسی قرار گرفته است. همچنین تأثیر اعمال تبدیل clr بر حذف همبستگی کاذب، تعدیل چولگی و نقاط پرت در دادهها با کمک برخی نمودارهای آماری و با استفاده از نرمافزار آماری R بررسی شده است.
In the field of earth sciences, measurements typically yield compositional data that has a property known as closedness. The application of common statistical methods to compositional data results in the exclusion of spurious correlations, which in turn yields findings that are not representative of the underlying data. This article presents a set of transformations for the opening of closed systems of compositional data. These transformations include the additive logarithmic ratio (alr), the centered logarithmic ratio (clr), and the isometric logarithmic ratio (ilr). All of the aforementioned transformations are defined in terms of logarithms of ratios. The clr transformation was then applied to a soil chemical data set. The results of applying cluster analysis on the clr-transformed data were also analyzed using Spearman's correlation coefficient matrix as distance. Furthermore, the impact of the clr transformation on spurious correlations, skewness, and outliers in the data was evaluated using R statistical software.