Forum:Linkujące ZDEMASKOWANE (zobacz wykresy)

Z Nonsensopedii, polskiej encyklopedii humoru
Przejdź do nawigacji Przejdź do wyszukiwania

Kolejne porum o statystykach, jej! *powszechna radość na sali*

O co chodzi[edytuj]

Tym razem wiedziony pewnymi obserwacjami i podejrzeniami postanowiłem się bliżej przyjrzeć temu, jak strony w przestrzeni głównej są linkowane. MediaWiki posiada coś takiego jak raport osieroconych stron i przydatność tego… Jest umiarkowana, mówiąc delikatnie. Są dwa problemy:

  1. Jeśli podejrzycie linkujące dowolnej strony, to zauważycie, że znajdują się tam też strony, które wcale w tekście tutaj nie linkują, ale posiadają np. navbox linkujący do tej strony. Tylko przypomnę, że navboksy nie działają na mobilnej.
  2. W linkujące wpadają wszystkie przestrzenie, także Nonsensopedia: i Szablon:, więc wystarczy wstawić artykuł do {{Najnowsze artykuły}} i MediaWiki jest zaspokojone, nie będzie krzyczeć że strona jest osierocona. Oczywiście link z tego jak ze mnie baletnica.

Chciałem się przekonać jak naprawdę sprawa wygląda biorąc pod uwagę te dwie rzeczy, więc siadłem do dziabania bazy danych i poczyniłem trzy eksperymenty. Po pierwsze, wszystkie próby dotyczyły linkujących do stron w przestrzeni głównej, tylko głównej. Bez poradników, bez źródeł i całej tam reszty. Z nimi jest trochę inna sprawa i do tego trzeba osobno. Stron w przestrzeni głównej mamy około 9500. Przekierowania potraktowałem jako aliasy stron, tj. link do przekierowania liczy się jako link do strony do której prowadzi przekierowanie. Przekierowań do artów w przestrzeni głównej jest jakieś 7000 sztuk.

Najpierw sprawdziłem ile według MediaWiki jest stron linkujących do każdej z nich, wliczając w to linki w szablonach (navboksach) i linki spoza przestrzeni głównej (na przykład z szablonów lub starych głosowań). To odpowiada temu, co widać w Specjalna:Linkujące. Druga próba była identyczna z pierwszą, nadal zostały wliczone linki w szablonach zamieszczonych na stronach, ale tym razem liczyłem tylko linkujące z przestrzeni głównej. To odsiewa problem który wspomniałem w punkcie 2. Trzecia i ostatnia próba została wykonana przez przemielenie botem wszystkich stron w przestrzeni głównej i wyszukanie w nich linków w wikitekście. Liczyły się wszelkie zwykłe linki w podwójnych nawiasach kwadratowych oraz linki przez szablon {{Kl}} (kolorowy link). To odsiewa oba problemy, o których pisałem wcześniej.

Wyniki[edytuj]

Strony zostały pogrupowane według ilości linków do nich prowadzących. To znaczy, że na wykresie punkt (0, 7) oznacza, że 7 stron ma 0 linkujących. Dla pierwszych elementów dodałem etykiety, żeby łatwiej było się połapać. Wykresy zostały obcięte przy 100 linkujących, dalej dane się robią coraz rzadsze i ogólnie nie dzieje się z nimi nic ciekawego (szorują po dnie), a zmniejszają czytelność wykresu.

Wykresy linkujące.png

Te wykresy nie są szczególnie czytelne, dlatego w ramach bonusu przygotowałem taką tabelkę:

Wszystkie linkujące Linkujące z głównej Linki w tekście z głównej
Nielinkowane 7 427 1391
1 link 186 817 1444
2–3 linki 925 972 1909
4–10 linków 1668 1144 2376
11–50 linków 2647 2355 1889
51–100 linków 1599 1488 315
>100 linków 2466 2293 170

Tak, tu brakuje czterech artykułów, gdzieś się zgubiły. Nie wiem gdzie, możliwe że to dlatego że te statystyki były generowane w pewnym odstępie czasu. Nie chce mi się dochodzić dokładnie, bo błąd jest na poziomie 0,04%.

Po co mi rzyć zawracasz i co z tego[edytuj]

Jeśli artykuły to mięśnie i narządy Nonsensopedii, to linki są jej krwią. To one pozwalają czytelnikom nawigować między artykułami i znajdywać kolejne. Kategorie są organizacyjne, nie służą czytelnikom. Navboksów nie ma na mobilce, więc większość czytelników ich nawet nie widzi. Powiązane strony na mobilce są generowane automatycznie i w dużej mierze polegają na linkach, których… nie ma. To są tylko dodatki, które nie zastąpią najzwyklejszych linków w tekście.

Jak widać z powyższych wysoce mądrych tabelek i wykresów w rzeczywistości z linkowaniem do artów jest dramat, powtarzam dramat, jakieś 14% artów w praktyce nie jest linkowana nigdzie, a kolejnych 15% ma ledwie jeden link. Z drugiej strony mamy masę artów linkowanych niemal wszędzie. Prowadzi to do tego, że znane i linkowane arty stają się coraz bardziej znane i linkowane, a te mało popularne dalej sobie gniją w spokoju.

Nie będzie tutaj planu działania, to się mi nadal klaruje (już trochę o tym gadaliśmy zdaje się na kanale), a do dłubania w tym potrzebowalibyśmy zwolnienia części mocy przerobowych, które mamy teraz zajęte (przypominam o robocie do zrobienia!). Pewnie będzie trzeba nieco pozmieniać przyzwyczajenia ludzi moderujących arty i zrobić coś z tymi nieszczęsnymi navboksami (do nich na pewno wrócimy, oj wrócimy). No ale to na później, na razie macie nad czym się zastanowić. Akurat mnie natchnęło na klepanie statystyk. Ostrzyciel | Dyskusja 21:49, 22 lip 2019 (CEST)

  1. Czy ujednoznacznienia są też odliczone? Dziwi mnie ta liczba 9k artów, jak kiedyś samemu liczyłem, to mi chyba jakieś 6,5k wyszło, ale bez ujednoznacznień. To może roszkę zmienić statystykę.
  2. Navboksy do całkowitej anihilacji, so einfach ist das. 60% userów i tak ich nie widzi, co więcej, zrobienie na odwal sterty linków na końca artu nie przynosi żadnej korzyści poza fałszywym poczuciem dobrze wykonanej roboty przez edytorów.
  3. Każdy niestubowy art powinien być wyposażony w 2-5 linków Zobacz też.
  4. Dodać dodawanie linkowań w standard redakcji nowych artów.
  5. Ciekawe, jaki jest współczynnik zamkniętych kółek, w których np. dwa arty linkują do siebie nawzajem i nic poza tym.
  6. Na kolejny biuletyn statystyczny poprosiłbym dane, jak kreuje się udział konkretnych kategorii we całkowitej liczbie artów. Tzn. ile jest artów w kategorii i podkategoriach ze: Sportu, Muzyki, Geografii, Gier komputerowych, Kinematografii, Jedzenia, Oświaty, Transportu i Czystego nonsensu. Po prostu jestem ciekawe, na co te 6-9k artów się składa. Amoniak (dyskusja) 21:26, 25 lip 2019 (CEST)
Hm, faktycznie disambigi zostały doliczone... Po urlopie (czyli za tydzień) mogę to na nowo przeliczyć.
A co do reszty to mniej-więcej takie mam pomysły, tylko to w sierpniu czy tam wrześniu się weźmiemy do tego na poważnie, na razie chcę pokończyć trochę. Zlecenie na staty przyjęte. Ostrzyciel | Dyskusja 21:47, 25 lip 2019 (CEST)
Szybki ekspres apdejt co do disambigów: ich jest jakieś 600, tak pi razy oko. Faktycznie dość żeby nieco zachwiać staty, także później mogę to poprzeliczać. Ale nie aż tak dużo jak pisałeś :P Ostrzyciel | Dyskusja 21:49, 25 lip 2019 (CEST)
Skoro już wywołałem wilka z lasu, to sam troszeczkę pobawiłem się w staty. Nie będę tworzył nowego tematu, więc zaprezentuję je tutaj. Co zrobiłem? 100 razy kliknąłem losuj stronę w przestrzeni głównej i oto wyniki. Przyporządkowanie do superkategorii jest kompletnie moje i nie zależało od tego, jaką kategorię obecnie ma ten artykuł. Każdemu artykułowi przyporządkowałem tylko jedną superkategorię. Wyniki są... ciekawe:
  • 21% Muzyka – absolutny hegemon tematyczny Nonsensopedii. Dużo artów o albumach (sprawiają wrażenie hermetów i pisanych na jedno kopyto) i zespołach, o których w życiu nie słyszałem. Kategoria kobyła, ale dość spójna tematycznie.
  • 8% Film i telewizja – arty o serialach, anime, filmach, programach rozrywkowych, biografie aktorów. Arty są masywne, niektóre sprawiają wrażenie przestarzałych.
  • 8% Nauki przyrodnicze (bio, chem, fiz, astr, inż) – duża niejednorodność, od artów dość ogólnych (bakteria, mięśnie) po raczej hermetyczne (holm, io). Duża ilość stubów.
  • 6% Matematyka i informatyka – raaaczej hermetyczne artykuły dla ludzi w temacie. Co ciekawe, gdyby połączyć tę kategorię z naukami przyrodniczymi, to kategoria nauka stanowiłaby 14% artów, co daje jej drugie miejsce. Dla mnie to trochę zaskoczenie.
  • 6% Gry komputerowe – spodziewałem się wyższego wyniku. Raczej hermety, które dawno redaktora nie widziały. Chyba jedna z cięższych kategorii do ogarnięcia, artykuły dość masywne.
  • 5% Polityka – głównie arty o polskich politykach, trochę ideologii. Arty niezbyt rozbudowane, dużo staroci.
  • 5% Sport – absolutna dominacja piłki nożnej i skoków narciarskich. Arty całkiem zadbane, ale od dawna nieodświeżane.
To razem prawie 60% (dokładnie 59%). Progu nie przekroczyły:
  • 4% Miejscowości – czyli wszystkich ulubione arty o wiochach. Nie jest ich tak dużo, jak oczekiwałem. Oczywiście prawie wszystkie to lokalne hermety.
  • 4% Geografia – czyli opisy miejsc spoza Polski, głównie innych krajów. Tematyka dość ogólna, specyfika dość inna od miejscowości.
  • 3% Literatura i językoznawstwo – przyzwoite arty z dawnych lat.
  • 2% Jedzenie i alkohole – spodziewałem się lepszego wyniku.
  • 2% Czysty nonsens – wbrew pozorom CzN to nie taki głęboko ukryty easter egg, to aż 2% artów.
  • 1% Komunikacja miejsca – i to jeden art, którym był PKS. Dla mnie zaskoczenie, może mi po prostu próba nie siadła.
  • 25% Inne – arty nie pasujące do którejś z wyższych kategorii, np. pentagram, spisek prochowy, gay bear, Fiat Grande Punto, Wilhelm Tell, PKB czy łyżka wojskowa. Pewno dałoby się je pogrupować w coś rozsądnego, ale na razie nie mam pomysłu.
Wyniki do przemyślenia na przyszłość. Swoją drogą, dziwię się, że ani razu nie natrafiłem na arty z kartki z kalendarza czy dotyczące roku. Same arty dni roku to ok. 3%. Mamy jakieś zabezpeczenie przed wylosowaniem tych artów czy jak? Amoniak (dyskusja) 12:00, 27 lip 2019 (CEST)
Nie mamy żadnego takiego zabezpieczenia, a przynajmniej nic mi o tym nie wiadomo. Może jestem szczęściarzem, nie wiem, ale przy piątym strzale z losujki trafiłem na Październik 2009, więc chyba da się w to wstrzelić. Może faktycznie próba była za mała… No ale dobra, najlepiej chyba poczekać na pełne statystyki od Ostrzyciela. Ewentualnie mogę się pobawić ze zrzutem bazy, niczego nie obiecuję, ale może coś mi z tego wyjdzie. Się zobaczy. 5.173.225.238 (dyskusja) 12:16, 27 lip 2019 (CEST)