Wydaje się, że kanał RSS ze strony http://dialogbulletin.eu/pl/blog/feed został uszkodzony w wyniku błędu "junk after document element%" w linii 163.

Ogłoszenie

Uwaga: Portal jest przygotowywany do generalnego remontu. W związku z tym nie da się obecnie zakładać nowych kont. Prosimy o cierpliwość.

Rozkłady potęgowe i diagram Pareto

Rozkłady potęgowe odgrywają coraz większą rolę w strategiach biznesu. Rozkład Pareto to jedna z klasycznych odmian rozkładu potęgowego o wielorakich zastosowaniach.

Prawa potęgowe

W wielu dziedzinach praktycznych obserwuje się, że zależność pomiędzy dwiema wielkościami empirycznymi spełnia tzw. prawo potęgowe, tzn. że przyjmuje postać:

Y=x w

Prostym "szkolnym" przykładem tej zależności jest funkcja kwadratowa (w=2), ale w ekonomii i zarządzaniu szczególne znaczenie mają prawa potęgowe z wykładnikiem ujemnym (funkcje malejące), dotyczące wielkości opisujących rozmiar bądź skalę zjawisk.

Rys. 1

Funkcje potęgowe z wykładnikiem ujemnym

Wykres funkcji potęgowej w zastosowaniu do praw potęgowych z wykładnikiem ujemnym

Na Rys. 1 pokazany jest wykres funkcji potęgowej o różnych wykładnikach ujemnych. Jeśli taka funkcja opisuje (w przybliżeniu) rozkład wielkości empirycznych (obserwowanych), to wiadomo, że istotne własności tego rozkładu zależą od wartości wykładnika. Na przykład:

  • rozkład odpowiadający w przybliżeniu wykresowi narysowanemu białą linią posiada wartość oczekiwaną i wariancję,
  • rozkład odpowiadający w przybliżeniu wykresowi narysowanemu niebieską linią posiada wariancję, ale jego wartość oczekiwana jest nieskończona,
  • dla rozkładu odpowiadającego w przybliżeniu wykresowi narysowanemu różową linią zarówno wartość oczekiwana, jak i wariancja są nieskończone.

Dwa najbardziej znane — można powiedzieć historyczne — przykłady praw potęgowych to prawo Zipfa i rozkład Pareto.

Prawo Zipfa odnosi się do rankingów. Najczęściej chodzi o obiekty uporządkowane w szereg, zaczynając od obiektu posiadającego badaną cechę w najwyższym stopniu a kończąc na obiekcie posiadającym ją w stopniu najniższym. Taki szereg spełnia prawo Zipfa, jeśli

Y[R=r] ∼ (r/rmin)-a,

gdzie r jest pozycją obiektu w rankingu, a rmin jest minimalną obserwowaną pozycją w rankingu (na osi X).

Przykład 1
Jeszcze kilkanaście lat temu można było zaobserwować prawie idealne spełnianie prawa Zipfa przez przedsiębiorstwa o różnych przychodach. Na przykład jeśli pierwsze w rankingu przedsiębiorstwo na danym terenie miało przychody roczne 1 mln jednostek pieniężnych, a drugie w rankingu 0,4 mln, to czwarte miało 0,16 mln, ósme 0,064 mln itd.
Przykład 2
Umówmy się, że różowa linia na Rys. 1 ilustruje liczbę wizyt na witrynach internetowych w określonym obszarze Internetu w określonym czasie. Wykres ten zaczyna się od X=5 (czego nie widać z powodu dużej rozpiętości skali), więc można go odczytać następująco: piąta w rankingu witryna odnotowuje — powiedzmy — 100.000 wizyt w rozpatrywanym okresie, dwusetna ok. 40.000 wizyt, sześćsetna ok 30.000 wizyt itd.

Prawa potęgowe odnoszą się m. in. do sieci takich jak Internet oraz do ich podzbiorów (np. tzw. blogsfera), sieci społecznych (np. kliki, sieci organizacji terrorystycznych), sieci energetycznych i wielu innych. Sieci odgrywają coraz większą rolę w biznesie (np. e-commerce, sieci reasekuracji w sektorze ubezpieczeń) i w dziedzinie bezpieczeństwa. Dlatego rośnie znaczenie technik analitycznych wykorzystujących prawa potęgowe.

REGUŁA 1: Analiza danych z zastosowaniem prawa potęgowego nie może pomijać ŻADNEGO obiektu z wybranego stratum w sposób arbitralny.
Reguła ta wynika z własności rozkładu potęgowego – jeśli pominiemy jakieś obiekty w sposób arbitralny, pozostałe nie spełnią prawa potęgowego mimo, że dla kompletnego zbioru ono zachodzi.

Jeśli obiektów jest bardzo dużo, a interesuje nas tylko wykładnik potęgi, można użyć części danych, ale nie wolno wybierać ich w sposób arbitralny, lecz losowo (np. losując 10% próby). Można także pominąć obiekty z "ogona" rozkładu, ale należy przy tym uważać, aby uwzględnione zostały wszystkie obiekty do granicy takiego obcięcia.

Często można spotkać analizy błędne dlatego, że pominięto obiekty o największym nasileniu rozpatrywanej cechy (ulegając złudzeniu, że są one "inne", "wyjątkowe"). W Przykładzie 2 nie uwzględniono pierwszych 4 obiektów w sposób jawny, lecz nie jest to błąd, ponieważ uwzględniono je w sposób pośredni odnotowując, że pierwszym obiektem w szeregu jest obiekt o rankingu 5. W sposób formalny zostało to ujęte w zapisie funkcji (X/5). W przypadku ogólnym zapis rozkładu potęgowego przyjmuje analogiczną postać:

P[X=x] ∼ (x/xmin)-b,

gdzie xmin jest minimalną obserwowaną wartością (na osi X). Uzyskujemy przy okazji "zaczepienie" rozkładów z różnymi wykładnikami w jednym punkcie (Y=1 na Rys. 1), które ułatwia wizualne porównywanie kształtu rozkładów.

Rozkład Pareto jest rozkładem statystycznym (rozkładem zmiennej losowej) w ścisłym znaczeniu. Można go zapisać powyższą formułą. W pełnym formalnym ujęciu postawienie znaku równości prawej i lewej strony wymaga ustalenia dodatkowych parametrów, w praktyce trudnych do interpretacji, więc dla uproszczenia poniższego wykresu przyjęto, że razem dają one współczynnik = 1.

Rys. 2

Wykres rozkładu Pareto

Wykres rozkładu Pareto

Przykład 3
Dla zagadnienia podobnego do tego opisanego w przykładzie 1 rozkład Pareto różni się od prawa Zipfa tylko tym, że zmienne są zamienione miejscami. Zatem powyższy wykres można czytać jak następuje: Na danym terenie 100 tys. gospodarstw domowych mieści się w najniższej, pierwszej kategorii dochodów, ok. 10 tys. gospodarstw mieści się w kategorii dochodów 7 razy wyższych, a 5 tys. gospodarstw osiąga dochody 11-12 razy wyższe.

Diagram Pareto

UWAGA: w zastosowaniu do zagadnień menedżerskich (gł. zarządzania przez jakość) nazwa diagram Pareto (wykres Pareto) jest używana zarówno w przypadkach podpadających pod prawo Zipfa, jak i w przypadkach podpadających pod rozkład Pareto.

Diagram Pareto przedstawia dwa wykresy zbudowane na tym samym zbiorze kategorii. Jeden wykres to uszeregowane w porządku malejącym liczebności WSZYSTKICH odnotowanych przypadków, a drugi wykres to te same liczebności, lecz skumulowane.

W zastosowaniu do zagadnień zarządzania przez jakość będą to najczęściej kategorie przyczyn powodujących defekty zaliczone do jednego "programu" (patrz Stratyfikacja danych w sterowaniu przez jakość - przykłady ).

Rys. 3

Diagram Pareto - przykład

Diagram Pareto - przykład

Zazwyczaj na diagramie Pareto umieszcza się drugą, pomocniczą oś Y ze skalą procentową, przydatną do dalszych analiz. Na Rys. 3 ta dodatkowa oś, narysowana kolorem brązowym, mieści się po prawej stronie wykresu.

Sporządzanie wykresu Pareto

Nazwa techniki: Diagram Pareto, wykres Pareto, metoda Pareto

Opis postępowania

  1. Zebrać dane o WSZYTSKICH obserwowanych przypadkach. Zsumować liczebności przypadków zaliczonych do poszczególnych kategorii. Przypadki nie dające się zakwalifikować do żadnej z proponowanych kategorii należy zakwalifikować do kategorii "inne" ("pozostałe")
  2. Uporządkować dane od największej do najmniejszej liczebności.
  3. Umieścić dane w tabeli, podobnej do poniższego przykładu. W trzeciej kolumnie zamieścić obliczone liczebności skumulowane.
    Nr Kategoria defektu Liczba defektów Kumulowana
    1 Obrócenie 22 22
    2 Hałas 10 32
    3 Pęknięcie 4 36
    4 Nacisk 2 38
    5 Resztki 1 39
    6 Obudowa 1 40
    7 Inne 4 44
  4. Z trzech ostatnich kolumn tabeli utworzyć wykres: słupkowy z danych w drugiej kolumnie i liniowy z danych w trzeciej kolumnie (odpowiednie opcje są dostępne w każdym popularnym arkuszu kalkulacyjnym).

UWAGI

  1. Jeśli danych i kategorii jest zbyt dużo, może się zdarzyć, że słupki nie ułożą się regularnie w sposób podobny, jak na wykresie rozkładu Pareto, lecz wystąpią "schodki" (uskoki). Zazwyczaj wskazuje to, że nie dokonano uprzednio właściwej stratyfikacji (UWAGA - stratyfikacja nie pokrywa się z owymi uskokami!).
  2. Jeśli kategorii jest zbyt mało, trudno będzie wyciągać właściwie wnioski co do priorytetów w działaniach usprawniających bądź korygujących. Ponadto na wykresie słupek dla kategorii "inne" może być zbyt wysoki.
  3. Jeśli danych jest zbyt mało, słupki będą miały podobną wysokość i trudno będzie wyciągać właściwie wnioski co do priorytetów w działaniach usprawniających bądź korygujących.

Przykład niewłaściwie zastosowanego wykresu Pareto: W artykule Arkusz zbiorczy - stratyfikacja danych do analizy danych zastosowano arkusz zbiorczy. Wykres Pareto jest nieprzydatny do analizy tych danych, co ilustruje poniższy rysunek.

Rys. 3

Niewłaściwe diagramy Pareto

Niewłaściwe wykresy Pareto

Zastosowania: 
Wykres rozkładu Pareto
Niewłaściwe diagramy Pareto
Funkcje potęgowe z wykładnikiem ujemnym
Diagram Pareto - przykład