Lineer regresyon veri biliminde sıkça kullanılan istatistiksel bir tekniktir. Bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki doğrusal ilişkiyi modellemek için kullanılır. Değişkenler arasındaki ilişkiyi en uygun çizgi veya eğri ile açıklama amacını taşır ve genellikle bağımsız değişkenlerin değerlerine dayalı olarak bağımlı değişkenin tahmin edilmesinde kullanılır. Lojistik regresyondan farklıdır.
Lineer Regresyon Nedir
Lineer regresyon, bir bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki doğrusal ilişkiyi ifade eden istatistiksel bir yöntemdir. Bu yaklaşım, bağımsız değişkenlerin değerlerinde meydana gelen değişikliklerin, bağımlı değişkenin değerinde sabit bir değişikliğe yol açtığı varsayımına dayanır. Bu ilişki düz bir çizgi ile temsil edilir, bu nedenle "lineer" terimi kullanılır.Lineer regresyon modelleri, genellikle bağımlı değişkenin tahmin edilen ve gerçek değerleri arasındaki kare farklarının toplamını en aza indiren optimizasyon algoritmaları ile oluşturulur. Elde edilen model, değişkenler arasındaki ilişkiyi matematiksel bir denklemle açıklar ve bağımsız değişkenlerin değerlerine dayalı olarak bağımlı değişkenin tahminlerinin yapılmasında kullanılabilir.Lineer regresyon, veri biliminde bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki doğrusal ilişkiyi modellemek için kullanılan istatistiksel bir yaklaşımdır. Bağımsız değişkenlerin değerlerine dayalı olarak bağımlı değişkenin tahmin edilmesi amacıyla kullanılır ve bağımlı değişkenin tahmin edilen ve gerçek değerleri arasındaki kare farklarının toplamını en aza indirmek amacıyla optimizasyon algoritmaları kullanılabilir.
Lineer Regresyonun Genel Formülü
Bir lineer regresyon modelinin matematiksel ifadesi olarak genel formülü aşağıdaki gibi ifade edilir:y = b0 + b1 * x1 + b2 * x2 + ... + bn * xnBurada:
- y, bağımlı değişkenin tahmin edilen veya açıklanan değeridir.
- b0, tüm bağımsız değişkenlerin (x1, x2, ..., xn) değerlerinin sıfır olduğu durumda y'nin alacağı başlangıç noktasıdır.
- b1, b2, ..., bn, bağımsız değişkenlerin katsayıları veya ağırlıklarıdır ve değişkenler arasındaki ilişkinin gücünü ve yönünü belirler.
- x1, x2, ..., xn, bağımlı değişkenin tahmin edilmesi veya açıklanması için kullanılan bağımsız değişkenlerdir.
Bu denklem bağımlı ve bağımsız değişkenler arasındaki doğrusal ilişkiyi ifade eder. Bir bağımsız değişkenin değerindeki değişiklik, bağımlı değişkenin değerinde sabit bir değişikliğe neden olur. Katsayılar (b1, b2, ..., bn), bu ilişkinin gücünü ve yönünü belirler ve en küçük kareler regresyonu gibi yöntemlerle tahmin edilir.Lineer regresyon modelinin genel formülü, bağımlı ve bağımsız değişkenler arasındaki ilişkiyi açıklar. Bu denklem, bağımsız değişkenlerin değerlerine dayalı olarak bağımlı değişkenin tahmin edilmesi amacıyla kullanılabilir.
Lineer Regresyonun Farklı Türleri
Lineer regresyon farklı şekillerde uygulanabilir ve bazı önemli türleri şunlardır:
- Basit Doğrusal Regresyon: Tek bir bağımsız değişken içeren bu regresyon türü, bağımlı değişken ile bağımsız değişken arasındaki doğrusal ilişkiyi modellemek için kullanılır. Denklem: y = b0 + b1 * x, burada y bağımlı değişken, x bağımsız değişkendir, b0 kesişme noktası, b1 katsayıdır.
- Çoklu Doğrusal Regresyon: Birden fazla bağımsız değişken içeren bu regresyon türü, bağımlı değişken ile birden fazla bağımsız değişken arasındaki doğrusal ilişkiyi modellemek için kullanılır. Denklem: y = b0 + b1 * x1 + b2 * x2 + ... + bn * xn, burada y bağımlı değişken, x1, x2, ..., xn bağımsız değişkenler, b0 kesişme noktası, b1, b2, ..., bn katsayılardır.
- Polinom Regresyon: Düz bir çizgi yerine eğrileri modellemek için kullanılır. Bağımlı değişken ile bağımsız değişken arasındaki ilişkiyi ifade eden polinomlar kullanılır. Denklem: y = b0 + b1 * x + b2 * x^2 + ... + bn * x^n, burada y bağımlı değişken, x bağımsız değişken, b0 kesişme noktası, b1, b2, ..., bn katsayılardır.
- Lojistik Regresyon: Lojistik regresyon İkili sonuçları veya olayların olasılığını modellemek için kullanılır. Sigmoid fonksiyonuna dayalıdır ve sonuçları 0 ile 1 arasında sınırlar. Bu tür regresyon özellikle sınıflandırma problemlerinde kullanılır.
Bu farklı regresyon türleri farklı veri tipleri ve analiz hedefleri için uygundur. Basit doğrusal regresyon, tek bağımsız değişkenli ilişkileri modellemek için kullanılırken, çoklu doğrusal regresyon birden fazla bağımsız değişkeni içeren ilişkileri modellemek için kullanılır. Polinom regresyon karmaşık ilişkileri modellemek için uygunken, lojistik regresyon ikili sonuçları tahmin etmek için kullanılır.
Doğrusal Regresyon Türleri
Aşağıdakiler dahil olmak üzere birkaç farklı doğrusal regresyon türü vardır:
- Basit doğrusal regresyon: Bu tür doğrusal regresyon, tek bir bağımsız değişken içerir ve bağımlı değişken ile bağımsız değişken arasındaki doğrusal ilişkiyi modellemek için kullanılır. Denklemle temsil edilir: y = b0 + b1 * x, burada y bağımlı değişkendir, x bağımsız değişkendir, b0 kesişme noktasıdır ve b1 katsayıdır.
- Çoklu doğrusal regresyon: Bu tür doğrusal regresyon birden fazla bağımsız değişken içerir ve bağımlı değişken ile bağımsız değişkenler arasındaki doğrusal ilişkiyi modellemek için kullanılır. Aşağıdaki denklemle temsil edilir: y = b0 + b1 * x1 + b2 * x2 + ... + bn * xn, burada y bağımlı değişkendir, x1, x2, ..., xn bağımsız değişkenlerdir, b0 kesişme noktası ve b1, b2, ..., bn katsayılardır.
- Polinom regresyon: Bu tür doğrusal regresyon, verilere düz bir çizgi yerine bir eğri uydurmayı içerir ve basit bir doğrusal ilişkiden daha karmaşık olan ilişkileri modellemek için kullanılır. Şu denklemle temsil edilir: y = b0 + b1 * x + b2 * x^2 + ... + bn * x^n, burada y bağımlı değişkendir, x bağımsız değişkendir, b0 kesişme noktasıdır ve b1, b2, ..., bn katsayılardır.
- Lojistik regresyon: Bu tür doğrusal regresyon, bir olayın meydana gelme olasılığı veya iki kategoriden birine sınıflandırma gibi ikili sonuçları modellemek için kullanılır. Öngörülen olasılığı 0 ile 1 arasında bir değere eşleyen bir sigmoid eğrisi olan lojistik fonksiyona dayanır.
Her biri farklı veri türleri ve modelleme hedefleri için uygun olan birkaç farklı doğrusal regresyon türü vardır. Bağımlı ve bağımsız bir değişken arasındaki doğrusal ilişkileri modellemek için basit doğrusal regresyon ve çoklu doğrusal regresyon kullanılırken, sırasıyla daha karmaşık ilişkileri ve ikili sonuçları modellemek için polinom regresyon ve lojistik regresyon kullanılır.
Doğru Doğrusal Regresyon Türünü Nasıl Seçersiniz?
Belirli bir problem için doğru doğrusal regresyon tipini seçerken dikkate alınması gereken birkaç faktör vardır:
- Verilerin doğası: Dikkate alınması gereken ilk faktör, birlikte çalıştığınız verilerin doğasıdır. Tek bağımsız değişkenli veriler için basit doğrusal regresyon, birden çok bağımsız değişkenli veriler için çoklu doğrusal regresyon uygundur. Polinom regresyon, düz bir çizgiden daha karmaşık bir ilişkiyi izleyen veriler için uygundur ve lojistik regresyon, ikili sonucu olan veriler için uygundur.
- İlişkinin gücü: Dikkate alınması gereken bir diğer faktör, bağımlı ve bağımsız değişkenler arasındaki ilişkinin gücüdür. İlişki güçlü ve doğrusal ise, basit veya çoklu doğrusal regresyon uygun olabilir. İlişki daha karmaşıksa, polinom regresyon daha iyi bir seçim olabilir.
- Analizin amacı: Dikkate alınması gereken son faktör, analizin amacıdır. Amaç, bağımsız değişkenlerin değerlerine dayalı olarak bağımlı değişkenin değeri hakkında tahmin yapmaksa, basit veya çoklu doğrusal regresyon uygun olabilir. Amaç, gözlemleri iki kategoriden birine sınıflandırmaksa, lojistik regresyon daha iyi bir seçim olabilir.
Doğru doğrusal regresyon türünü seçmek, verilerin doğasına, bağımlı ve bağımsız değişkenler arasındaki ilişkinin gücüne ve analizin amacına bağlıdır. Basit veya çoklu doğrusal regresyon, güçlü, doğrusal bir ilişkiye ve sürekli bir bağımlı değişkene sahip veriler için uygun olabilirken, polinom regresyon ve lojistik regresyon, sırasıyla daha karmaşık ilişkiler ve ikili sonuçlara daha uygun olabilir.
Lineer Regresyon Dağılıma Bağlı Mı?
Doğrusal regresyon mutlaka dağıtıma bağlı değildir, ancak doğrusal regresyon modelinin varsayımları, verilerin dağılımına bağlı olarak az çok makul olabilir.Doğrusal regresyon modelleri, bağımlı değişkenin tahmin edilen ve gözlenen değerleri arasındaki hataların veya artıkların normal dağıldığını varsayar. Bu, hataların dağılımının çan şeklinde olması gerektiği ve hataların çoğunun ortalamanın birkaç standart sapması içinde kalması gerektiği anlamına gelir. Hatalar normal dağılmazsa, doğrusal regresyon modelinin varsayımları karşılanmayabilir ve modelin sonuçları güvenilir olmayabilir.Doğrusal regresyon modelleri, örneklem büyüklüğü büyük olduğunda normallik varsayımının ihlallerine karşı daha sağlam olma eğilimindedir, ancak örneklem boyutu küçük olduğunda normallik varsayımı daha önemli olabilir.Doğrusal regresyon mutlaka dağıtıma bağlı olmamakla birlikte, modelin varsayımları verilerin dağılımına bağlı olarak az çok makul olabileceğinden, bir doğrusal regresyon modeli uydururken hataların dağılımını dikkate almak önemlidir.
Lineer Regresyon Ve Veri Bilimi
Doğrusal regresyon modelleri, bağımlı değişkenin tahmin edilen ve gözlenen değerleri arasındaki kare farklarının toplamını en aza indiren bir optimizasyon algoritması kullanılarak uydurulur. Ortaya çıkan model, değişkenler arasındaki ilişkiyi açıklayan matematiksel bir denklemdir ve bağımsız değişkenlerin değerlerine dayalı olarak bağımlı değişkenin değeri hakkında tahminlerde bulunmak için kullanılabilir.Bu regresyon veri biliminde yararlı bir araçtır çünkü analistlerin farklı değişkenler arasındaki ilişkiyi anlamalarına ve bağımsız değişkenlerin değerlerine dayalı olarak bağımlı değişkenin değeri hakkında tahminlerde bulunmalarına olanak tanır. Genellikle satış tahmini, müşteri davranışı tahmini ve bir olayın meydana gelme olasılığının tahmini dahil olmak üzere çok çeşitli uygulamalarda kullanılır.Lineer regresyon, bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki doğrusal ilişkiyi modellemek için kullanılan veri biliminde önemli bir araçtır ve genellikle aşağıdaki değerlere dayalı olarak bağımlı değişkenin değeri hakkında tahminler yapmak için kullanılır: bağımsız değişkenler.KaynakA Review on Linear Regression Comprehensive in Machine Learning