Forum:Niszowe i krótkie strony – pseudoanaliza statystyczna

Z Nonsensopedii, polskiej encyklopedii humoru
Ten wątek nie był edytowany od 1746 dni. Nie baw się w archeologa i nie odkopuj go. Zamiast tego możesz wrócić na stronę główną forum i założyć nowy temat.

Parę dni temu z Expertem miałem hm… dyskusję między innymi na temat tego, czy artykuły niepopularne zasługują na nieco inne traktowanie. Sprowadziło się to do tego, że nie mając żadnych danych możemy jedynie przerzucać się zdaniami typu "a ja myślę tak" i "a ja myślę że nie", więc postanowiłem sprawdzić parę ciekawych statystyk i się nimi z wami podzielić.

Spodziewałem się zobaczyć jakieś ledwo zarysowane linie trendu i z początku chciałem wytaczać ciężkie działa (testy istotności współczynnika korelacji i inne równie mądrze brzmiące rzeczy), ale wyniki nieco mnie zaskoczyły i wydaje mi się, że wszystko widać gołym okiem. Dość wstępu.

Eksperyment 1[edytuj kod]

Żeby nie było – to nie jest formalnie eksperyment statystyczny, ale lubię to słowo i trochę pasuje.

Pierwsze co chciałem sprawdzić, to to jak zależy zachowanie czytelnika na stronie w zależności od tego jak popularne strony odwiedza.

Metodologia[edytuj kod]

Dane pochodzą z okresu od 1 kwietnia do 7 lipca i dotyczą zarejestrowanych przez Google sesji. Sesje zostały przefiltrowane tak, aby uwzględniały tylko nowych użytkowników, nie powracających. Nie jest to filtr idealny, ale odsiewa stałych edytorów dość skutecznie i pozostawia głównie samych czytelników. Stali edytorzy mają zupełnie inne wzorce zachowań i nas tutaj zupełnie nie obchodzą.

Sesja to jedna wizyta jednego czytelnika na Nonsensopedii, od momentu wejścia do momentu wyjścia.

Z danych zostały usunięte strony główne przestrzeni, cała Gra (ona ma też zupełnie inne wzorce, chodzi nam tu o klasyczne treści a nie Grę) i inne bezużyteczne pierdoły. W skrócie: została sama treść.

Dla każdej strony spełniającej powyższe kryteria odwiedzonej choć raz w tym okresie czasu posiadamy następujące dane:

  • Sesje – ilość unikalnych sesji (czyli wizyt użytkownika na Nonsensopedii) które zahaczyły gdzieś po drodze o daną stronę.
  • Strony/sesja – ilość stron odwiedzonych w czasie całej sesji. Im więcej tym lepiej.
  • Śr. czas trwania sesji – …no długość sesji. Im więcej tym lepiej.

Zauważcie, że zebrane tu dane dotyczyły całych sesji, czyli ciągów przechodzenia przez strony Nonsensopedii od wejścia aż do wyjścia. Tak więc mamy informacje o zachowaniu użytkowników podczas całego przeglądania Nonsy, to bardzo ważne.

Strony następnie zostały pogrupowane według ilości sesji jakie o nie zahaczyły. To znaczy strony odwiedzone od 1 do 2 razy wpadły do pierwszego kubełka, strony odwiedzone od 3 do 4 razy do drugiego i tak dalej.

Wyniki[edytuj kod]

Przyjrzyjmy się temu jak zależy długość sesji (zarówno ilość stron jak i całkowity czas) od popularności strony. Zwracam uwagę na logarytmiczną oś poziomą, inaczej wykres byłby nieczytelny. Kliknij se w obrazek i powiększ jak nie widzisz.

Popularność strony a długość sesji.png

Linie trendu są dość oczywiste. Na razie wstrzymajmy się z wnioskami, przyjrzyjmy się kolejnym eksperymentom.

Eksperyment 2[edytuj kod]

To eksperyment powiązany z numerkiem 3, tylko inaczej pogrupowany.

Metodologia[edytuj kod]

Tym razem zostały zebrane dane o pojedynczych odsłonach każdej ze stron, nie całych sesji, również od 1 kwietnia do 7 lipca.

Celem było sprawdzenie jak popularność strony wpływa na prawdopodobieństwo opuszczenia przez użytkownika Nonsensopedii (przerwania sesji). Jest od tego specjalna metryka, % wyjść, czyli odsetek użytkowników, którzy po trafieniu na daną stronę opuścili Nonsę.

Dane zostały pogrupowane podobnie co ostatnio, tylko że według ilości odsłon danej strony, a nie ilości sesji.

Wyniki[edytuj kod]

Ponownie na osi poziomej skala logarytmiczna, ostatni zakres też wydłużyłem by obejmował dwa zakresy, bo było za mało danych żeby je oddzielnie wypełnić.

Popularność strony a wyjścia.png

Ponownie, trend jest dość oczywisty. Na końcu drobna anomalia wynikająca głównie z małej ilości danych w tym przedziale. Dane tu są gładsze i ładniejsze bo gugiel dał mi ich po prostu więcej (o sesjach jest nieco mniej zebranych danych).

Eksperyment 3[edytuj kod]

Czyli ostatni, powiązany z dwójką, tylko skupiający się na długości stron a nie ich popularności.

Metodologia[edytuj kod]

Zostały zebrane dane o średnim czasie przebywania użytkownika na stronie oraz odsetku wyjść z Nonsensopedii dla danej strony, po czym zostało to pogrupowane według długości artykułu w bajtach.

Ktoś może zapytać A co ze Słownikiem? Czyż nie zawiera on rozlicznych krótkich haseł, które wypaczałyby dane statystyczne? Dobre pytanie. Odpowiedź brzmi: po usunięciu ze statystyk Słownika wyniki różnią się najwyżej na poziomie ~1%, więc… Ciężko nawet powiedzieć w którą stroną stronę zakrzywia to dane. Ale na wszelki wypadek w tym eksperymencie Słownik nie był brany pod uwagę, skupmy się na klasycznych treściach.

Wyniki[edytuj kod]

Zwracam uwagę, że tym razem arty zostały pogrupowane metodą na oko, tzn. kategorie nie są ani logarytmiczne, ani liniowe, ale intuicyjnie odpowiadają przedziałom długości artów. Z tego powodu to wykresy kolumnowe, a nie liniowe, nie chcę sugerować równomiernego rozłożenia wyników.

Na początek średni czas spędzony na stronie w zależności od jej długości w bajtach:

Długość strony a czas spędzony.png

Wykres wygląda w sumie logicznie, im dłuższy artykuł, tym więcej czasu użytkownik spędzi czytając go. No, na pierwszy rzut oka, bo jak się przyjrzeć to ta zależność jest bardzo nieliniowa i artykuły dwa razy dłuższe wcale nie są czytane dwa razy dłużej, not even close. Polecam sobie samemu porównać słupki i policzyć na spokojnie.

Z czego to wynika? To będziemy zaraz omawiać, we wnioskach, ale zanim, to jeszcze jeden wykres, który być może rozjaśni nieco sprawę. Na tym wykresie odsetek osób opuszczających Nonsensopedię w zależności od długości artykułu:

Długość strony a wyjścia.png

Zależność jest chyba oczywista.

WNIOSKI[edytuj kod]

To już będzie mniej ścisłe, w większości oparte na powyższych danych, ale też na innych obserwacjach. Też trochę spekulacji.

  • Popularne artykuły sprowadzają czytelników na krótko. Czytelnik wejdzie, przeczyta o tym Pawle Jumperze, dendrofilii czy jakimś tymczasowym memie, parsknie i se pójdzie. W większości wypadków nawet nie kliknie w żaden link.
  • Osoby które czytają mniej popularne artykuły (niszowe) są dużo bardziej zaangażowane. Chętniej klikają w kolejne artykuły i spędzają dużo więcej czasu na Nonsensopedii. To też czyni z nich dużo lepszy materiał na edytorów. Trochę spekulacji:
    • Może to wynikać z tego, że czytelnik który odnajdzie swoją niszę (np. kategorię o szynobusach), która go serio interesuje, to będzie czytać te arty z wypiekami na twarzy, nawet jeśli nie są idealne.
    • Czytelnik który znajdzie coś interesującego z jego wąskiej dziedziny wiedzy będzie bardziej zadowolony, że ktoś napisał o tym jego ulubionym czymś. Tym czymś może być na przykład wiocha w której czytelnik mieszka. Zadowolony i wesoły czytelnik, to czytelnik z endorfinami, a taki będzie klikał dalej.
  • Im mniej popularny artykuł, tym mniejsza szansa, że czytelnik się nim zniechęci i sobie pójdzie w cholerę, to jest fakt (eksperyment 2). Jakie mogą być powody?
    • Na mało popularne artykuły nie trafiają ludzie spoza tematu, po prostu. Do wielu z nich linkujących nie ma w ogóle lub występują szczątkowo (patrz: zespoły muzyczne), więc nawet nie ma za bardzo jak się nadziać. Poza tym kto klika w artykuł na temat który go zupełnie nie obchodzi? Jeśli ktoś wpisuje w szukajkę Swołoczyce Dolne, to dlatego że faktycznie chce o tych Swołoczycach przeczytać i jak trafi już na miejsce, to czyta z upodobaniem.
    • Sporo popularnych artykułów jest linkowanych w wielu miejscach (Rydzyk, Polska, inne takie). Jako że dotykają spraw zrozumiałych dla każdego, to trafia na nie każdy, niezależnie od tego czy jest faktycznie zainteresowany tematem czy nie.
    • Najbardziej popularne arty zdobywają sporą część swojego ruchu przez posty na fejsie. Ruch z fejsa ma to do siebie, że sesje trwają krótko i użytkownicy bardzo szybko wracają do FB (do statów o pozyskiwaniu czytelników wrócimy, ale później). To wyjaśnia prawy koniec wykresu z eksperymentu 2, ale nie wyjaśnia całego trendu.
  • Im dłuższy art tym wcale nie lepiej, w większości przypadków gorzej. Powyżej granicy ~2000 bajtów współczynnik wyjść eksploduje w górę. Zwracam uwagę, że 2000 bajtów to okolice granicy stuba, a zdarzali się tacy, którzy z uporem maniaka eksterminowali stuby za to, że są krótkie.
    • Dłuższe arty często są dopełniane najzwyczajnym w świecie wodolejstwem. Mniej zabawnej treści, więcej gówno wartych list, suchych faktów, przedrzeźniania Wikipedii i innych grzechów głównych. W krótkim artykule po prostu nie ma na to miejsca.
    • Czytelnik widzący długi art stwierdza a to nie, nie chce mi się, TL;DR, zamyka kartę przeglądarki i wraca do czytania memów, z których każdy wymaga od niego najwyżej 20 sekund skupienia. 5 minut to zdecydowanie za długo. No chyba że art jest naprawdę boski, a napisać 5 kB śmiesznego tekstu jest BARDZO trudno.
  • Długie arty nie są czytane w całości. To wynika z obu wykresów w eksperymencie 3, a prawdopodobne powody są takie same, co w punkcie powyżej.

Marudzenie[edytuj kod]

Macie rzecz do przemyślenia, również w kontekście poprzednich i następnych spotkań. Proszę o przetrawienie sobie tego na spokojnie. Do tematu na pewno wrócimy, będę rzucał tymi statystykami do skutku i porzygu. Anegdotą o Rumii też. Ostrzyciel | Dyskusja 17:10, 9 lip 2019 (CEST)