Lineaire regressie (definitie, voorbeelden) - Hoe te interpreteren?

Inhoudsopgave

Wat is een lineaire regressie?

Wat is een lineaire regressie?

Lineaire regressie is in feite een statistische modelleringstechniek die werd gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te tonen. Het is een van de meest voorkomende soorten voorspellende analyse. Dit type distributie vormt zich in een lijn en daarom wordt dit lineaire regressie genoemd. In dit artikel nemen we de voorbeelden van lineaire regressieanalyse in Excel.

Om eerst een lineaire regressieanalyse uit te voeren, moeten we Excel-invoegtoepassingen toevoegen door de volgende stappen te volgen.

Klik op Bestand - Opties (hierdoor wordt de Excel-optiespop-up voor u geopend).

Klik op Invoegtoepassingen - Selecteer Excel-invoegtoepassingen in de vervolgkeuzelijst Beheer in Excel en klik vervolgens op Ga.

Dit opent Add-ins Pop-up. Selecteer Analysis ToolPak en klik op Ok.

De invoegtoepassing voor gegevensanalyse wordt weergegeven onder het tabblad Invoegen.

Laten we het begrijpen door de onderstaande voorbeelden van lineaire regressieanalyse in Excel.

Voorbeelden van lineaire regressieanalyse

Voorbeeld 1

Stel dat we vorig jaar een maandelijkse omzet hebben en aan marketing hebben uitgegeven, en nu moeten we toekomstige verkopen voorspellen op basis van de bestede verkoop en marketing van vorig jaar.

Maand	Adverteren	verkoop
Jan	40937	502729
Feb	42376	507553
Mrt	43355	516885
Apr	44126	528347
mei	45060	537298
Jun	49546	544066
Jul	56105	553664
Aug	59322	563201
Sep	59877	568657
Okt	60481	569384
Nov	62356	573764
Dec	63246	582746

Klik op Data Analysis onder Data Tab, en dit zal Data Analysis Pop-up voor je openen.

Selecteer nu Regressie in de lijst en klik op Ok.

De regressie-pop-up wordt geopend.

Selecteer Verkoopbereik $ C $ 1: $ C $ 13 in het vak Y-as omdat dit de afhankelijke variabele is en $ B $ 1: $ B $ 14 in de X-as, aangezien de uitgegeven advertentie de onafhankelijke variabele is.

Vink het vakje Labels aan als u kopteksten in gegevens hebt geselecteerd, anders krijgt u de foutmelding.

Selecteer Uitvoerbereik als u de waarde voor het specifieke bereik op het werkblad wilt, anders selecteert u Nieuw werkbladlaag: en dit zal een nieuw werkblad toevoegen en u het resultaat geven.

Vink vervolgens het vak Residuals aan en klik op Ok.

Hiermee worden werkbladen toegevoegd en krijgt u het volgende resultaat.

Laten we de output begrijpen.

Samenvattende uitvoer

Meerdere R: dit vertegenwoordigt de correlatiecoëfficiënt. De waarde 1 toont een positieve relatie en waarde 0 geeft geen relatie aan.

R Square: R Square vertegenwoordigt de determinatiecoëfficiënt. Dit vertelt u het percentage punten dat op de regressielijn valt. 0,49 betekent dat 49% van de waarden in het model passen

Aangepast R-vierkant : dit is aangepast R-vierkant, wat vereist is als je meer dan één X-variabele hebt.

Standaardfout: dit vertegenwoordigt een schatting van de standaarddeviatie van de fout. Dit is de precisie waarmee de regressiecoëfficiënt wordt gemeten.

Observaties: Dit is het aantal observaties dat u in een steekproef heeft gedaan.

ANOVA - Df: Vrijheidsgraden

SS: Som van vierkanten.

MS: we hebben twee MS

Regressie MS is Regressie SS / Regressie Df.
Resterende MS is de gemiddelde kwadratische fout (rest SS / rest Df).

F: F-test voor de nulhypothese.

Significance F: P-waarden geassocieerd met significantie

Coëfficiënt: Coëfficiënt geeft u de schatting van de kleinste kwadraten.

T Statistiek: T Statistiek voor nulhypothese versus de alternatieve hypothese.

P-waarde: dit is de p-waarde voor de hypothesetest.

Onderste 95% en Boven 95%: dit zijn de ondergrens en de bovengrens voor het betrouwbaarheidsinterval

Residuen Output .: We hebben 12 waarnemingen op basis van de gegevens. 2 ^e kolom staat voor Voorspelde verkoop en 3 ^e kolom Residuals. Residuen zijn in feite het verschil in voorspelde verkoop van de werkelijke.

Voorbeeld 2

Selecteer de voorspelde verkoop- en marketingkolom

Ga naar de diagramgroep onder het tabblad Invoegen. Selecteer het spreidingsdiagrampictogram

Hiermee wordt de scatterplot in Excel ingevoegd. Zie onderstaande afbeelding

Klik met de rechtermuisknop op een willekeurig punt en selecteer vervolgens Trendlijn toevoegen in Excel. Dit voegt een trendlijn toe aan uw diagram.

U kunt de trendlijn opmaken door met de rechtermuisknop ergens op de trendlijn te klikken en vervolgens opmaaktrendlijn te selecteren.
U kunt meer verbeteringen aanbrengen in de grafiek. dwz de trendlijn, kleur en titel wijzigen, enz
U kunt de formule ook in de grafiek weergeven door de Formule weergeven in de grafiek in te checken en de R-kwadraatwaarde op de grafiek weer te geven.

Nog enkele voorbeelden van lineaire regressieanalyse:

Voorspelling van de verkochte paraplu op basis van de regen gebeurde in het gebied.
Voorspelling van verkochte AC op basis van de temperatuur in de zomer.
Tijdens het examenseizoen steeg de verkoop van stationair in feite, de verkoop van examengidsen.
Voorspelling van de verkoop wanneer er reclame is gemaakt op basis van een hoge TRP-serie waar een advertentie wordt geplaatst, populariteit van merkambassadeur en de voetstappen op de plaats waar een advertentie wordt gepubliceerd.
Verkoop van een huis op basis van de plaats, oppervlakte en prijs.

Voorbeeld # 3

Stel dat we negen studenten hebben met hun IQ-niveau en het aantal dat ze op Test hebben gescoord.

Leerling	Test score	IQ
RAM	100	145
Shyam	97	140
Kul	93	130
Kappu	91	125
Raju	89	115
Vishal	86	110
Vivek	82	100
Vinay	78	95
Kumar	75	90

Stap 1: Zoek eerst de afhankelijke en onafhankelijke variabelen. Hier is de testscore de afhankelijke variabele en is IQ de onafhankelijke variabele, aangezien de testscore varieert naarmate het IQ verandert.

Stap 2: Ga naar het gegevenstabblad - klik op gegevensanalyse - selecteer regressie - klik op OK.

Dit opent het regressievenster voor u.

Stap 3. Voer het testscorebereik in in het vak Input Y Range en IQ in het vak Input X Range. (Controleer op Labels als u kopteksten in uw gegevensbereik heeft. Selecteer uitvoeropties en vink vervolgens de gewenste Residuen aan. Klik op Ok.

U krijgt de samenvattende uitvoer weergegeven in de onderstaande afbeelding.

Stap 4: Analyse van de regressie door samenvattende uitvoer

Samenvattende uitvoer

Meerdere R: hier is de correlatiecoëfficiënt 0,99, wat heel dicht bij 1 ligt, wat betekent dat de lineaire relatie zeer positief is.

R Square: R Square-waarde is 0,983, wat betekent dat 98,3% van de waarden in het model passen.

P-waarde: hier is de P-waarde 1,86881E-07, wat erg lager is dan 0,1, wat betekent dat IQ significante voorspellende waarden heeft.

Zie onderstaande tabel.

U kunt zien dat bijna alle punten inline vallen of een nabije trendlijn.

Voorbeeld # 4

We moeten de verkoop van wisselstroom voorspellen op basis van de verkoop en temperatuur voor een andere maand.

Maand	Temp	verkoop
Jan	25	38893
Feb	28	42254
Mrt	31	42845
Apr	33	47917
mei	37	51243
Jun	40	69588
Jul	38	56570
Aug	37	50000

Volg de onderstaande stappen om het regressieresultaat te krijgen.

Stap 1: Zoek eerst de afhankelijke en onafhankelijke variabelen. Hier is Sales de afhankelijke variabele, en Temperature is een onafhankelijke variabele, aangezien Sales varieert naarmate Temp verandert.

Stap 2: Ga naar het gegevenstabblad - klik op gegevensanalyse - selecteer regressie - klik op OK.

Dit opent het regressievenster voor u.

Stap 3. Voer de omzet in het vak Input Y Range in en de Temp in het vak Input X Range. (Controleer op Labels als u kopteksten in uw gegevensbereik heeft. Selecteer uitvoeropties en vink vervolgens de gewenste Residuen aan. Klik op Ok.

Dit geeft u een samenvatting zoals hieronder.

Stap 4: Analyseer het resultaat.

Meerdere R: hier is de correlatiecoëfficiënt 0,877, wat bijna 1 is, wat betekent dat de lineaire relatie positief is.

R Square: R Square-waarde is 0,770, wat betekent dat 77% van de waarden in het model passen

P-waarde: hier is de P-waarde 1,86881E-07, wat erg lager is dan 0,1, wat betekent dat IQ significante voorspellende waarden heeft.

Voorbeeld # 5

Laten we nu een regressieanalyse uitvoeren voor meerdere onafhankelijke variabelen:

U moet de verkoop van een mobiele telefoon die volgend jaar wordt gelanceerd, voorspellen. U hebt de prijs en het aantal inwoners van de landen die de verkoop van mobiele telefoons beïnvloeden.

Mobiele versie	verkoop	Hoeveelheid	Bevolking
ONS	63860	858	823
UK	61841	877	660
KZ	60876	873	631
CH	58188	726	842
HN	52728	864	573
AU	52388	680	809
NZ	51075	728	661
RU	49019	689	778

Volg de onderstaande stappen om het regressieresultaat te krijgen.

Stap 1. Zoek eerst de afhankelijke en onafhankelijke variabelen. Hier is de verkoop afhankelijke variabele en hoeveelheid en populatie. Beide zijn onafhankelijke variabelen, aangezien de verkoop varieert met de hoeveelheid en de populatie van het land.

Stap 2. Ga naar het gegevenstabblad - klik op gegevensanalyse - selecteer regressie - klik op OK.

Dit opent het regressievenster voor u.

Stap 3. Voer de verkoop in het vak Input Y Range in en selecteer het aantal en de populatie in het vak Input X Range. (Controleer op Labels als u kopteksten in uw gegevensbereik heeft. Selecteer uitvoeropties en vink vervolgens de gewenste Residuen aan. Klik op Ok.

Voer nu de regressie uit met behulp van gegevensanalyse onder het tabblad Gegevens. Dit geeft u het onderstaande resultaat.

Samenvattende uitvoer

Meerdere R: hier is de correlatiecoëfficiënt 0,93, wat heel dicht bij 1 ligt, wat betekent dat de lineaire relatie zeer positief is.

R Square: R Square-waarde is 0,866, wat betekent dat 86,7% van de waarden in het model passen.

Significantie F: Significantie F is kleiner dan 0,1, wat betekent dat de regressievergelijking een significante voorspellende waarde heeft.

P-waarde : als u naar de P-waarde voor hoeveelheid en populatie kijkt, kunt u zien dat de waarden kleiner zijn dan 0,1, wat betekent dat hoeveelheid en populatie een significante voorspellende waarde hebben. Hoe minder P-waarden betekenen dat een variabele significantere voorspellende waarden heeft.

Zowel hoeveelheid als populatie hebben echter een significante voorspellende waarde, maar als je kijkt naar P-waarde voor hoeveelheid en populatie, dan kun je zien dat die hoeveelheid een lagere P-waarde heeft in Excel dan Populatie. Dit betekent dat hoeveelheid een significantere voorspellende waarde heeft dan bevolking.

Dingen om te onthouden

Controleer altijd de afhankelijke en onafhankelijke variabelen wanneer u gegevens selecteert.
Lineaire regressieanalyse houdt rekening met de relatie tussen het gemiddelde van de variabelen.
Dit modelleert alleen de relatie tussen de variabelen die lineair zijn
Soms past het niet het beste bij een reëel probleem. Bijvoorbeeld: (leeftijd en het loon). Meestal stijgt het loon naarmate de leeftijd toeneemt. Na pensionering neemt de leeftijd echter toe, maar de lonen dalen.