Lineaire regressie (definitie, voorbeelden) - Hoe te interpreteren?

Wat is een lineaire regressie?

Lineaire regressie is in feite een statistische modelleringstechniek die werd gebruikt om de relatie tussen een afhankelijke variabele en een of meer onafhankelijke variabelen te tonen. Het is een van de meest voorkomende soorten voorspellende analyse. Dit type distributie vormt zich in een lijn en daarom wordt dit lineaire regressie genoemd. In dit artikel nemen we de voorbeelden van lineaire regressieanalyse in Excel.

Om eerst een lineaire regressieanalyse uit te voeren, moeten we Excel-invoegtoepassingen toevoegen door de volgende stappen te volgen.

Klik op Bestand - Opties (hierdoor wordt de Excel-optiespop-up voor u geopend).

Klik op Invoegtoepassingen - Selecteer Excel-invoegtoepassingen in de vervolgkeuzelijst Beheer in Excel en klik vervolgens op Ga.

Dit opent Add-ins Pop-up. Selecteer Analysis ToolPak en klik op Ok.

De invoegtoepassing voor gegevensanalyse wordt weergegeven onder het tabblad Invoegen.

Laten we het begrijpen door de onderstaande voorbeelden van lineaire regressieanalyse in Excel.

Voorbeelden van lineaire regressieanalyse

Voorbeeld 1

Stel dat we vorig jaar een maandelijkse omzet hebben en aan marketing hebben uitgegeven, en nu moeten we toekomstige verkopen voorspellen op basis van de bestede verkoop en marketing van vorig jaar.

Maand Adverteren verkoop
Jan 40937 502729
Feb 42376 507553
Mrt 43355 516885
Apr 44126 528347
mei 45060 537298
Jun 49546 544066
Jul 56105 553664
Aug 59322 563201
Sep 59877 568657
Okt 60481 569384
Nov 62356 573764
Dec 63246 582746

Klik op Data Analysis onder Data Tab, en dit zal Data Analysis Pop-up voor je openen.

Selecteer nu Regressie in de lijst en klik op Ok.

De regressie-pop-up wordt geopend.

Selecteer Verkoopbereik $ C $ 1: $ C $ 13 in het vak Y-as omdat dit de afhankelijke variabele is en $ B $ 1: $ B $ 14 in de X-as, aangezien de uitgegeven advertentie de onafhankelijke variabele is.

Vink het vakje Labels aan als u kopteksten in gegevens hebt geselecteerd, anders krijgt u de foutmelding.

Selecteer Uitvoerbereik als u de waarde voor het specifieke bereik op het werkblad wilt, anders selecteert u Nieuw werkbladlaag: en dit zal een nieuw werkblad toevoegen en u het resultaat geven.

Vink vervolgens het vak Residuals aan en klik op Ok.

Hiermee worden werkbladen toegevoegd en krijgt u het volgende resultaat.

Laten we de output begrijpen.

Samenvattende uitvoer

Meerdere R: dit vertegenwoordigt de correlatiecoëfficiënt. De waarde 1 toont een positieve relatie en waarde 0 geeft geen relatie aan.

R Square: R Square vertegenwoordigt de determinatiecoëfficiënt. Dit vertelt u het percentage punten dat op de regressielijn valt. 0,49 betekent dat 49% van de waarden in het model passen

Aangepast R-vierkant : dit is aangepast R-vierkant, wat vereist is als je meer dan één X-variabele hebt.

Standaardfout: dit vertegenwoordigt een schatting van de standaarddeviatie van de fout. Dit is de precisie waarmee de regressiecoëfficiënt wordt gemeten.

Observaties: Dit is het aantal observaties dat u in een steekproef heeft gedaan.

ANOVA - Df: Vrijheidsgraden

SS: Som van vierkanten.

MS: we hebben twee MS

  • Regressie MS is Regressie SS / Regressie Df.
  • Resterende MS is de gemiddelde kwadratische fout (rest SS / rest Df).

F: F-test voor de nulhypothese.

Significance F: P-waarden geassocieerd met significantie

Coëfficiënt: Coëfficiënt geeft u de schatting van de kleinste kwadraten.

T Statistiek: T Statistiek voor nulhypothese versus de alternatieve hypothese.

P-waarde: dit is de p-waarde voor de hypothesetest.

Onderste 95% en Boven 95%: dit zijn de ondergrens en de bovengrens voor het betrouwbaarheidsinterval

Residuen Output .: We hebben 12 waarnemingen op basis van de gegevens. 2 e kolom staat voor Voorspelde verkoop en 3 e kolom Residuals. Residuen zijn in feite het verschil in voorspelde verkoop van de werkelijke.

Voorbeeld 2

Selecteer de voorspelde verkoop- en marketingkolom

Ga naar de diagramgroep onder het tabblad Invoegen. Selecteer het spreidingsdiagrampictogram

Hiermee wordt de scatterplot in Excel ingevoegd. Zie onderstaande afbeelding

Klik met de rechtermuisknop op een willekeurig punt en selecteer vervolgens Trendlijn toevoegen in Excel. Dit voegt een trendlijn toe aan uw diagram.

  • U kunt de trendlijn opmaken door met de rechtermuisknop ergens op de trendlijn te klikken en vervolgens opmaaktrendlijn te selecteren.
  • U kunt meer verbeteringen aanbrengen in de grafiek. dwz de trendlijn, kleur en titel wijzigen, enz
  • U kunt de formule ook in de grafiek weergeven door de Formule weergeven in de grafiek in te checken en de R-kwadraatwaarde op de grafiek weer te geven.

Nog enkele voorbeelden van lineaire regressieanalyse:

  1. Voorspelling van de verkochte paraplu op basis van de regen gebeurde in het gebied.
  2. Voorspelling van verkochte AC op basis van de temperatuur in de zomer.
  3. Tijdens het examenseizoen steeg de verkoop van stationair in feite, de verkoop van examengidsen.
  4. Voorspelling van de verkoop wanneer er reclame is gemaakt op basis van een hoge TRP-serie waar een advertentie wordt geplaatst, populariteit van merkambassadeur en de voetstappen op de plaats waar een advertentie wordt gepubliceerd.
  5. Verkoop van een huis op basis van de plaats, oppervlakte en prijs.

Voorbeeld # 3

Stel dat we negen studenten hebben met hun IQ-niveau en het aantal dat ze op Test hebben gescoord.

Leerling Test score IQ
RAM 100 145
Shyam 97 140
Kul 93 130
Kappu 91 125
Raju 89 115
Vishal 86 110
Vivek 82 100
Vinay 78 95
Kumar 75 90

Stap 1: Zoek eerst de afhankelijke en onafhankelijke variabelen. Hier is de testscore de afhankelijke variabele en is IQ de onafhankelijke variabele, aangezien de testscore varieert naarmate het IQ verandert.

Stap 2: Ga naar het gegevenstabblad - klik op gegevensanalyse - selecteer regressie - klik op OK.

Dit opent het regressievenster voor u.

Stap 3. Voer het testscorebereik in in het vak Input Y Range en IQ in het vak Input X Range. (Controleer op Labels als u kopteksten in uw gegevensbereik heeft. Selecteer uitvoeropties en vink vervolgens de gewenste Residuen aan. Klik op Ok.

U krijgt de samenvattende uitvoer weergegeven in de onderstaande afbeelding.

Stap 4: Analyse van de regressie door samenvattende uitvoer

Samenvattende uitvoer

Meerdere R: hier is de correlatiecoëfficiënt 0,99, wat heel dicht bij 1 ligt, wat betekent dat de lineaire relatie zeer positief is.

R Square: R Square-waarde is 0,983, wat betekent dat 98,3% van de waarden in het model passen.

P-waarde: hier is de P-waarde 1,86881E-07, wat erg lager is dan 0,1, wat betekent dat IQ significante voorspellende waarden heeft.

Zie onderstaande tabel.

U kunt zien dat bijna alle punten inline vallen of een nabije trendlijn.

Voorbeeld # 4

We moeten de verkoop van wisselstroom voorspellen op basis van de verkoop en temperatuur voor een andere maand.

Maand Temp verkoop
Jan 25 38893
Feb 28 42254
Mrt 31 42845
Apr 33 47917
mei 37 51243
Jun 40 69588
Jul 38 56570
Aug 37 50000

Volg de onderstaande stappen om het regressieresultaat te krijgen.

Stap 1: Zoek eerst de afhankelijke en onafhankelijke variabelen. Hier is Sales de afhankelijke variabele, en Temperature is een onafhankelijke variabele, aangezien Sales varieert naarmate Temp verandert.

Stap 2: Ga naar het gegevenstabblad - klik op gegevensanalyse - selecteer regressie - klik op OK.

Dit opent het regressievenster voor u.

Stap 3. Voer de omzet in het vak Input Y Range in en de Temp in het vak Input X Range. (Controleer op Labels als u kopteksten in uw gegevensbereik heeft. Selecteer uitvoeropties en vink vervolgens de gewenste Residuen aan. Klik op Ok.

Dit geeft u een samenvatting zoals hieronder.

Stap 4: Analyseer het resultaat.

Meerdere R: hier is de correlatiecoëfficiënt 0,877, wat bijna 1 is, wat betekent dat de lineaire relatie positief is.

R Square: R Square-waarde is 0,770, wat betekent dat 77% van de waarden in het model passen

P-waarde: hier is de P-waarde 1,86881E-07, wat erg lager is dan 0,1, wat betekent dat IQ significante voorspellende waarden heeft.

Voorbeeld # 5

Laten we nu een regressieanalyse uitvoeren voor meerdere onafhankelijke variabelen:

U moet de verkoop van een mobiele telefoon die volgend jaar wordt gelanceerd, voorspellen. U hebt de prijs en het aantal inwoners van de landen die de verkoop van mobiele telefoons beïnvloeden.

Mobiele versie verkoop Hoeveelheid Bevolking
ONS 63860 858 823
UK 61841 877 660
KZ 60876 873 631
CH 58188 726 842
HN 52728 864 573
AU 52388 680 809
NZ 51075 728 661
RU 49019 689 778

Volg de onderstaande stappen om het regressieresultaat te krijgen.

Stap 1. Zoek eerst de afhankelijke en onafhankelijke variabelen. Hier is de verkoop afhankelijke variabele en hoeveelheid en populatie. Beide zijn onafhankelijke variabelen, aangezien de verkoop varieert met de hoeveelheid en de populatie van het land.

Stap 2. Ga naar het gegevenstabblad - klik op gegevensanalyse - selecteer regressie - klik op OK.

Dit opent het regressievenster voor u.

Stap 3. Voer de verkoop in het vak Input Y Range in en selecteer het aantal en de populatie in het vak Input X Range. (Controleer op Labels als u kopteksten in uw gegevensbereik heeft. Selecteer uitvoeropties en vink vervolgens de gewenste Residuen aan. Klik op Ok.

Voer nu de regressie uit met behulp van gegevensanalyse onder het tabblad Gegevens. Dit geeft u het onderstaande resultaat.

Samenvattende uitvoer

Meerdere R: hier is de correlatiecoëfficiënt 0,93, wat heel dicht bij 1 ligt, wat betekent dat de lineaire relatie zeer positief is.

R Square: R Square-waarde is 0,866, wat betekent dat 86,7% van de waarden in het model passen.

Significantie F: Significantie F is kleiner dan 0,1, wat betekent dat de regressievergelijking een significante voorspellende waarde heeft.

P-waarde : als u naar de P-waarde voor hoeveelheid en populatie kijkt, kunt u zien dat de waarden kleiner zijn dan 0,1, wat betekent dat hoeveelheid en populatie een significante voorspellende waarde hebben. Hoe minder P-waarden betekenen dat een variabele significantere voorspellende waarden heeft.

Zowel hoeveelheid als populatie hebben echter een significante voorspellende waarde, maar als je kijkt naar P-waarde voor hoeveelheid en populatie, dan kun je zien dat die hoeveelheid een lagere P-waarde heeft in Excel dan Populatie. Dit betekent dat hoeveelheid een significantere voorspellende waarde heeft dan bevolking.

Dingen om te onthouden

  • Controleer altijd de afhankelijke en onafhankelijke variabelen wanneer u gegevens selecteert.
  • Lineaire regressieanalyse houdt rekening met de relatie tussen het gemiddelde van de variabelen.
  • Dit modelleert alleen de relatie tussen de variabelen die lineair zijn
  • Soms past het niet het beste bij een reëel probleem. Bijvoorbeeld: (leeftijd en het loon). Meestal stijgt het loon naarmate de leeftijd toeneemt. Na pensionering neemt de leeftijd echter toe, maar de lonen dalen.

Interessante artikelen...