import classification.logistic_regression as lr
import data_reader as dr
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from helper_methods import *


main_data = dr.DataTable("data/loan_train.csv")


main_data.head

['',
 'Unnamed: 0',
 'loan_status',
 'Principal',
 'terms',
 'effective_date',
 'due_date',
 'age',
 'education',
 'Gender']


target_name = "loan_status"
main_data.select_target(target_name)
main_data.target[target_name].data[0:5]

Target loan_status was added

[1, 1, 1, 1, 1]


main_data.class_dict[target_name]  # to check which number represent which word

[{'_count': 2, 'COLLECTION': 0, 'PAIDOFF': 1}, {0: 'COLLECTION', 1: 'PAIDOFF'}]


main_data.plot(parameter1='age', parameter2='Gender', classifier=target_name)


main_data.plot(parameter1='age', parameter2='education', classifier=target_name)


main_data.plot(parameter1='Principal', parameter2='terms', classifier=target_name)


main_data.activate_features(['Principal',
 'terms',
 'effective_date',
 'age',
 'education',
 'Gender'])

Feature Principal was added
Feature terms was added
Feature effective_date was added
Feature age was added
Feature education was added
Feature Gender was added


main_data.add_new_feature(['education', 'age'])

New created feature education*age was added
This education*age feature is added to the list of training set


main_data.add_new_feature(['Gender', 'age'])

New created feature Gender*age was added
This Gender*age feature is added to the list of training set


main_data.max_scaling()

Column  was scaled
Column Unnamed: 0 was scaled
Column loan_status was scaled
Column Principal was scaled
Column terms was scaled
Column effective_date was scaled
Column due_date was scaled
Column age was scaled
Column education was scaled
Column Gender was scaled
Column education*age was scaled
Column Gender*age was scaled


main_data.split_data(0.6, shuffle=True)

Shuffle was done
Data was split as follows: 0.6 training set and 0.4 testing set


training_data = main_data.get_training_data()  # returns (features data, target data)
# cv_data = main_data.get_cv_data()
testing_data = main_data.get_testing_data()


model_1 = lr.LogisticRegression()


model_1.set_training_data(training_data[0], training_data[1])
model_1.set_testing_data(testing_data[0], testing_data[1])

True


model_1.RANDOM_WEIGHT_INITIALIZATION = 10


model_1.epoch = 2000
model_1.alpha = 0.3
model_1.regularization = 0.1


model_1.fit(scaled_coefficients=True)

Initiated coefficients are [-0.6, -0.8, -0.4, -0.4, -0.3, -0.3, 1.0, 0.8, -0.9]
Iteration 501 done
Iteration 1001 done
Iteration 1501 done
Training is completed with 2000 iterations

[0.22, -0.07, 0.12, -0.17, 0.13, -0.14, 0.29, 1.22, -0.46]


predicted = []
test_features, test_target = testing_data
for idx in range(len(test_features)):
    feature_line = test_features[idx]
    predicted.append(model_1.predict(feature_line, raw_output=True))
    

# plt.scatter(axis1, testing_target, label="Target")
plt.scatter(test_target, predicted)
# plt.legend(loc=loc_place)
plt.xlabel("target")
plt.ylabel("predicted")
plt.show()


model_1.logistic_threshold = 0.27
cm, precision, recall = model_1.evaluation(testing_data, metric="confusion_matrix")
accuracy = (cm[0][0] + cm[1][1]) / (cm[0][0] + cm[1][1] + cm[0][1] + cm[1][0])


print("Confusion matrix {}".format(matrix))
print("Precision is {} and recall is {}".format(precision, recall))
print("Accuracy is", accuracy)

Confusion matrix [[0.71, 0.25], [0.04, 0.0]]
Precision is 0.7368421052631579 and recall is 0.9514563106796117
Accuracy is 0.71


def f1_score(precision, recall):
    return round((2 * precision * recall / (precision + recall)), 2)

start = 0.27
step = 0.05
end = 0.38

axis_x = []
axis_y = []

while end > start:
    model_1.logistic_threshold = start
    matrix, precision, recall = model_1.evaluation(testing_data, metric="confusion_matrix")
    axis_x.append(start)
    start += step
    axis_y.append(f1_score(precision, recall))
    
plt.scatter(axis_x, axis_y)
plt.show()

AI: Logistic Regression¶

Classification problem with LR: should we give a loan or no?¶

Introduction¶

Section 1 - preparation ¶

Section 2 - model building ¶

Section 3 - training ¶

Section 4 - evaluation ¶

Section 5 - results ¶

AI: Logistic Regression¶

Classification problem with LR: should we give a loan or no?¶

Introduction¶

Section 1 - preparation¶

Section 2 - model building¶

Section 3 - training¶

Section 4 - evaluation¶

Section 5 - results¶

Section 1 - preparation ¶

Section 2 - model building ¶

Section 3 - training ¶

Section 4 - evaluation ¶

Section 5 - results ¶