R-kwadraat (R ^ 2) - definitie, formule, berekening R-kwadraat

Wat is R-kwadraat (R2) in regressie?

R-kwadraat (R 2 ) is een belangrijke statistische maat die een regressiemodel is dat de proportie van het verschil of de variantie in statistische termen voor een afhankelijke variabele weergeeft, wat kan worden verklaard door een of meer onafhankelijke variabelen. Kortom, het bepaalt hoe goed de gegevens in het regressiemodel passen.

R Kwadraatformule

Voor de berekening van R in het kwadraat, moet u de correlatiecoëfficiënt bepalen en vervolgens moet u het resultaat kwadrateren.

R Kwadraatformule = r 2

Waar r de correlatiecoëfficiënt kan worden berekend zoals hieronder:

r = n (∑xy) - ∑x ∑y / √ (n * (∑x 2 - (∑x) 2 )) * (n * (∑y 2 - (∑y) 2 ))

Waar,

  • r = de correlatiecoëfficiënt
  • n = nummer in de gegeven dataset
  • x = eerste variabele in de context
  • y = tweede variabele

Uitleg

Als er een relatie of correlatie is die lineair of niet-lineair kan zijn tussen die twee variabelen, dan zal dit aangeven of er een verandering in de waarde van de onafhankelijke variabele is, dan zal de andere afhankelijke variabele waarschijnlijk in waarde veranderen, zeg lineair of niet-lineair.

Het tellergedeelte van de formule voert een test uit of ze samen bewegen en verwijdert hun individuele bewegingen en relatieve kracht van beiden die samen bewegen, en het noemergedeelte van de formule schaalt de teller door de vierkantswortel te nemen van het product van de verschillen van de variabelen van hun gekwadrateerde variabelen. En als je dit resultaat kwadrateert, krijgen we R in het kwadraat, wat niets anders is dan de determinatiecoëfficiënt.

Voorbeelden

Voorbeeld 1

Beschouw de volgende twee variabelen x en y, u moet de R-kwadraat in regressie berekenen.

Oplossing:

Met behulp van de bovengenoemde formule moeten we eerst de correlatiecoëfficiënt berekenen.

We hebben alle waarden in de bovenstaande tabel met n = 4.

Laten we nu de waarden in de formule invoeren om tot de figuur te komen.

r = (4 * 26.046,25) - (265,18 * 326,89) / √ ((4 * 21.274,94) - (326,89) 2 ) * ((4 * 31.901,89) - (326,89) 2 )

r = 17.501,06 / 17.512,88

De correlatiecoëfficiënt wordt

r = 0,99932480

Dus de berekening zal als volgt zijn,

r 2 = (0,99932480) 2

R Kwadraatformule in regressie

r 2 = 0,998650052

Voorbeeld 2

India, een ontwikkelingsland, wil een onafhankelijke analyse maken van de vraag of veranderingen in de prijzen van ruwe olie de roepiewaarde hebben beïnvloed. Hieronder volgt de geschiedenis van de prijs van ruwe Brent-olie en de waardering van de roepie, beide ten opzichte van de dollars die in die jaren gemiddeld de overhand hadden.

RBI, de centrale bank van India, heeft u benaderd om in de volgende vergadering hierover een presentatie te geven. Bepalen of de bewegingen in ruwe olie de bewegingen in roepie per dollar beïnvloeden?

Oplossing:

Met behulp van de formule voor de bovenstaande correlatie kunnen we eerst de correlatiecoëfficiënt berekenen. De gemiddelde prijs van ruwe olie behandelen als één variabele, bijvoorbeeld x, en de roepie per dollar als een andere variabele behandelen als y.

We hebben alle waarden in de bovenstaande tabel met n = 6.

Laten we nu de waarden in de formule invoeren om tot de figuur te komen.

r = (6 * 23592,83) - (356,70 * 398,59) / √ ((6 * 22829,36) - (356,70) 2 ) * ((6 * 26529,38) - (398,59) 2 )

r = -620,06 / 1.715,95

De correlatiecoëfficiënt wordt

r = -0,3614

Dus de berekening zal als volgt zijn,

r 2 = (-0,3614) 2

R Kwadraatformule in regressie

r 2 = 0,1306

Analyse: Het lijkt erop dat er een klein verband bestaat tussen veranderingen in de prijzen van ruwe olie en veranderingen in de prijs van de Indiase roepie. Naarmate de prijs van ruwe olie stijgt, hebben ook de veranderingen in de Indiase roepie invloed. Maar aangezien R-kwadraat slechts 13% is, verklaren de veranderingen in de prijs van ruwe olie veel minder over de veranderingen in de Indiase roepie, en de Indiase roepie is ook onderhevig aan veranderingen in andere variabelen, waarmee rekening moet worden gehouden.

Voorbeeld # 3

XYZ-laboratorium doet onderzoek naar lengte en gewicht en is geïnteresseerd in het weten of er een verband bestaat tussen deze variabelen. Na het verzamelen van een steekproef van 5000 mensen voor elke categorie en kwam tot een gemiddeld gewicht en gemiddelde lengte in die specifieke groep.

Hieronder staan ​​de details die ze hebben verzameld.

U moet R Kwadraat berekenen en concluderen of dit model verklaart dat de lengteverschillen de verschillen in gewicht beïnvloeden.

Oplossing:

Met behulp van de formule voor de bovenstaande correlatie kunnen we eerst de correlatiecoëfficiënt berekenen. Hoogte behandelen als één variabele, zeg x, en gewicht behandelen als een andere variabele als y.

We hebben alle waarden in de bovenstaande tabel met n = 6.

Laten we nu de waarden in de formule invoeren om tot de figuur te komen.

r = (7 * 74.058,67) - (1031 * 496,44) / √ ((7 * 153595 - (1031) 2 ) * ((7 * 35793,59) - (496,44) 2 )

r = 6.581,05 / 7.075,77

De correlatiecoëfficiënt wordt

Correlatiecoëfficiënt (r) = 0,9301

Dus de berekening zal als volgt zijn,

r 2 = 0,8651

Analyse: de correlatie is positief en het lijkt erop dat er een verband bestaat tussen lengte en gewicht. Naarmate de lengte toeneemt, lijkt het gewicht van de persoon ook toe te nemen. Terwijl R2 suggereert dat 86% van de veranderingen in lengte toe te schrijven is aan veranderingen in gewicht, en 14% onverklaard is.

Relevantie en toepassingen

De relevantie van R-kwadraat in regressie is het vermogen om de waarschijnlijkheid te vinden dat toekomstige gebeurtenissen plaatsvinden binnen de gegeven voorspelde resultaten of de uitkomsten. Als er meer steekproeven aan het model worden toegevoegd, zou de coëfficiënt de waarschijnlijkheid of waarschijnlijkheid aangeven dat een nieuw punt of de nieuwe dataset op de lijn valt. Zelfs als beide variabelen een sterk verband hebben, bewijst de bepaling geen causaliteit.

Sommige van de ruimtes waar R-kwadraat meestal wordt gebruikt, zijn voor het volgen van de prestaties van beleggingsfondsen, voor het volgen van risico's in hedgefondsen, om te bepalen hoe goed de aandelen evolueren met de markt, waarbij R2 zou suggereren hoeveel van de bewegingen in de aandelen kunnen worden verklaard door de bewegingen in de markt.

Interessante artikelen...