import data_reader as dr
import regression.regression as regression
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D


from helper_methods import *


main_data_table = dr.DataTable("data/FuelConsumption.csv")


main_data_table.head  # returns labels of each column

['MODELYEAR',
 'MAKE',
 'MODEL',
 'VEHICLECLASS',
 'ENGINESIZE',
 'CYLINDERS',
 'TRANSMISSION',
 'FUELTYPE',
 'FUELCONSUMPTION_CITY',
 'FUELCONSUMPTION_HWY',
 'FUELCONSUMPTION_COMB',
 'FUELCONSUMPTION_COMB_MPG',
 'CO2EMISSIONS']


len(main_data_table)  # shows how many rows of data we have

1067


# To define feature/s and target:
main_data_table.activate_features(["FUELCONSUMPTION_COMB_MPG", "ENGINESIZE"])
main_data_table.select_target("CO2EMISSIONS")

Feature FUELCONSUMPTION_COMB_MPG was added
Feature ENGINESIZE was added
Target CO2EMISSIONS was added


main_data_table.plot(features2target=True)


main_data_table.features

{'FUELCONSUMPTION_COMB_MPG': <data_reader.DataTable._DataColumn at 0x1061c30a0>,
 'ENGINESIZE': <data_reader.DataTable._DataColumn at 0x1061c3220>}


main_data_table.deactivate_feature("ENGINESIZE")

Feature ENGINESIZE was disabled from the training set


main_data_table.features

{'FUELCONSUMPTION_COMB_MPG': <data_reader.DataTable._DataColumn at 0x1061c30a0>}


main_data_table.split_data(0.6, 0.2, shuffle=True)

Shuffle was done
Data was split as follows: 0.6 training set, 0.2 cross-validation set and 0.2 test set


# to fetch brand new data for AI purpose
training_data = main_data_table.get_training_data()  # returns (features data, target data)
cv_data = main_data_table.get_cv_data()
testing_data = main_data_table.get_testing_data()


training_data[0][0:5] # feature data

[[27.0], [17.0], [39.0], [30.0], [23.0]]


training_data[1][0:5] # target data

[242.0, 259.0, 166.0, 216.0, 283.0]


data_labels = main_data_table.get_labels()  # to get labels of training/cv/testing data arrays


data_labels

(['FUELCONSUMPTION_COMB_MPG'], 'CO2EMISSIONS')


regression_model = regression.Regression()  # create model as an entity
regression_model.set_labels(data_labels)  # set labels of our data into the model
regression_model.set_training_data(training_data[0], training_data[1])  # and point this model to our data
regression_model.set_testing_data(cv_data[0], cv_data[1])  #

True


regression_model

<regression.Regression at 0x12313cfa0>


regression_model.ROUND_AFTER_COMA = 4  # simplify computation by rounding all results to 4 digits after coma


# do first weight coefficients' initialization in range -10...10
regression_model.RANDOM_WEIGHT_INITIALIZATION = 10

# number of iteration 100
regression_model.epoch = 100

# learning rate 0.5
regression_model.alpha = 0.5

# regularization coefficient is 0
regression_model.regularization = 0


coeffs = regression_model.fit()  # provide model training using defined training data set

Initiated coefficients are [5, -5]
Iteration 26 done
Iteration 51 done
Iteration 76 done
Training is completed with 100 iterations


coeffs  # model's trained coefficients

[-9.212008495791602e+256, -2.62457033381171e+258]


cv_features, cv_target = cv_data
training_features, training_target = training_data
plot2d_target2predict(regression_model, cv_features, cv_target,
                      feature_name="FUELCONSUMPTION_COMB_MPG", 
                      target_name="CO2EMISSIONS",
                      feature_idx = 0, loc_place="upper left")


regression_model.alpha = 0.01


coeffs = regression_model.fit()

Initiated coefficients are [-5, -8]
Iteration 26 done
Iteration 51 done
Iteration 76 done
Training is completed with 100 iterations


coeffs

[-1.1685903244157878e+81, -3.3294015080883016e+82]


regression_model.alpha = 0.001
regression_model.regularization = 0.2


coeffs = regression_model.fit()
coeffs

Initiated coefficients are [2, 2]
Iteration 26 done
Iteration 51 done
Iteration 76 done
Training is completed with 100 iterations

[5.7349, 8.2525]


plot2d_target2predict(regression_model, cv_features, cv_target,
                      feature_name="FUELCONSUMPTION_COMB_MPG", 
                      target_name="CO2EMISSIONS",
                      feature_idx = 0, loc_place="upper right")


regression_model.alpha = 0.002
regression_model.epoch = 500


coeffs = regression_model.fit()
coeffs

Initiated coefficients are [-7, -9]
Iteration 126 done
Iteration 251 done
Iteration 376 done
Training is completed with 500 iterations

[28.1806, 7.4646]


coeffs = regression_model.fit(scaled_coefficients=True)
coeffs

Initiated coefficients are [-0.4, 0.5]
Iteration 126 done
Iteration 251 done
Iteration 376 done
Training is completed with 500 iterations

[33.9735, 7.2613]


plot2d_target2predict(regression_model, cv_features, cv_target,
                      feature_name="FUELCONSUMPTION_COMB_MPG", 
                      target_name="CO2EMISSIONS",
                      feature_idx = 0, loc_place="upper right")


main_data_table.max_scaling()

Column MODELYEAR was scaled
Column MAKE was scaled
Column MODEL was scaled
Column VEHICLECLASS was scaled
Column ENGINESIZE was scaled
Column CYLINDERS was scaled
Column TRANSMISSION was scaled
Column FUELTYPE was scaled
Column FUELCONSUMPTION_CITY was scaled
Column FUELCONSUMPTION_HWY was scaled
Column FUELCONSUMPTION_COMB was scaled
Column FUELCONSUMPTION_COMB_MPG was scaled
Column CO2EMISSIONS was scaled


main_data_table.plot(features2target=True)


# regenerate training/cv/testing scaled data
scaled_training_data = main_data_table.get_training_data()
scaled_cv_data = main_data_table.get_cv_data()
scaled_testing_data = main_data_table.get_testing_data()


regression_model.set_training_data(scaled_training_data[0], scaled_training_data[1])
regression_model.set_testing_data(scaled_cv_data[0], scaled_cv_data[1])

True


regression_model.log_mode(True)

Log mode is enable


regression_model.epoch = 100
regression_model.alpha = 0.5
regression_model.regularization = 0


regression_model.fit()

Initiated coefficients are [-6, -3]
Iteration 26 done
Iteration 51 done
Iteration 76 done
Training is completed with 100 iterations

[0.7472, -0.5055]


cv_features, cv_target = scaled_cv_data
training_features, training_target = scaled_training_data
plot2d_target2predict(regression_model, cv_features, cv_target,
                      feature_name="FUELCONSUMPTION_COMB_MPG", 
                      target_name="CO2EMISSIONS",
                      feature_idx = 0, loc_place="upper right")


regression_model.evaluation(scaled_cv_data, metric="MAE")

0.0635


logs1 = regression_model.get_logs()


logs1

Logs of model settings alpha = 0.5, reg = 0


plt.title("Raw error")
iterations = [x for x in range(logs1.iterations)]
cost_function_training = logs1.training_cf
cost_function_cv = logs1.testing_cf
plt.scatter(iterations, cost_function_training, label="training loss")
plt.scatter(iterations, cost_function_cv, label="testing loss")
plt.legend(loc="upper right")
plt.xlabel("epoch")
plt.ylabel("Error")
plt.show()

plt.title("Scaled error")
plt.ylim([0, 0.01])
plt.scatter(iterations, cost_function_training, label="training loss")
plt.scatter(iterations, cost_function_cv, label="testing loss")
plt.legend(loc="upper right")
plt.ylabel("Error")
plt.show()


main_data_table.add_new_feature("FUELCONSUMPTION_COMB_MPG", power=2)

New created feature FUELCONSUMPTION_COMB_MPG^(2) was added
This FUELCONSUMPTION_COMB_MPG^(2) feature is added to the list of training set


main_data_table.features  # shows all enabled features

{'FUELCONSUMPTION_COMB_MPG': <data_reader.DataTable._DataColumn at 0x1061c30a0>,
 'FUELCONSUMPTION_COMB_MPG^(2)': <data_reader.DataTable._DataColumn at 0x12349c4c0>}


# regenerate training/cv/testing scaled data
scaled_training_data = main_data_table.get_training_data()
scaled_cv_data = main_data_table.get_cv_data()
scaled_testing_data = main_data_table.get_testing_data()

cv_features, cv_target = scaled_cv_data
training_features, training_target = scaled_training_data


regression_model.set_training_data(scaled_training_data[0], scaled_training_data[1])
regression_model.set_testing_data(scaled_cv_data[0], scaled_cv_data[1])

True


regression_model.epoch = 100
regression_model.alpha = 0.5
regression_model.regularization = 0
regression_model.fit()

Initiated coefficients are [1, 3, 2]
Iteration 26 done
Iteration 51 done
Iteration 76 done
Training is completed with 100 iterations

[0.313, 0.545, -0.1678]


regression_model.coefficients

[0.313, 0.545, -0.1678]


plot2d_target2predict(regression_model, cv_features, cv_target,
                      feature_name="FUELCONSUMPTION_COMB_MPG", 
                      target_name="CO2EMISSIONS",
                      feature_idx = 0, loc_place="upper right")


regression_model.evaluation(scaled_cv_data, metric="MAE")

0.1502


regression_model.epoch = 2000


regression_model.fit()

Initiated coefficients are [-1, -4, -5]
Iteration 501 done
Iteration 1001 done
Iteration 1501 done
Training is completed with 2000 iterations

[0.7873, -0.2674, -0.683]


plot2d_target2predict(regression_model, cv_features, cv_target,
                      feature_name="FUELCONSUMPTION_COMB_MPG", 
                      target_name="CO2EMISSIONS",
                      feature_idx = 0, loc_place="upper right")


regression_model.evaluation(scaled_cv_data, metric="MAE")

0.0468


logs_0alph5_0regul_2000epoch = regression_model.get_logs()
logs1 = logs_0alph5_0regul_2000epoch
plt.title("Raw error")
iterations = [x for x in range(logs1.iterations)]
cost_function_training = logs1.training_cf
cost_function_cv = logs1.testing_cf
plt.scatter(iterations, cost_function_training, label="training loss")
plt.scatter(iterations, cost_function_cv, label="testing loss")
plt.legend(loc="upper right")
plt.xlabel("epoch")
plt.ylabel("Error")
plt.show()

plt.title("Scaled error")
plt.ylim([0, 0.02])
plt.scatter(iterations, cost_function_training, label="training loss")
plt.scatter(iterations, cost_function_cv, label="testing loss")
plt.legend(loc="upper right")
plt.ylabel("Error")
plt.show()


regression_model.epoch = 1500
regression_model.alpha = 0.6
regression_model.regularization = 0.1
regression_model.fit()

Initiated coefficients are [9, -8, -6]
Iteration 376 done
Iteration 751 done
Iteration 1126 done
Training is completed with 1500 iterations

[1.1425, -1.8649, 0.979]


plot2d_target2predict(regression_model, cv_features, cv_target,
                      feature_name="FUELCONSUMPTION_COMB_MPG", 
                      target_name="CO2EMISSIONS",
                      feature_idx = 0, loc_place="upper right")


regression_model.evaluation(scaled_cv_data, metric="MAE")

0.0275


regression_model.evaluation(scaled_testing_data, metric="MAE")

0.032


model_1_1 = regression_model
model_1_1.coefficients

[1.1425, -1.8649, 0.979]


model_all = regression.Regression()


# current enabled features are:
main_data_table.features

{'FUELCONSUMPTION_COMB_MPG': <data_reader.DataTable._DataColumn at 0x1061c30a0>,
 'FUELCONSUMPTION_COMB_MPG^(2)': <data_reader.DataTable._DataColumn at 0x12349c4c0>}


main_data_table.head

['MODELYEAR',
 'MAKE',
 'MODEL',
 'VEHICLECLASS',
 'ENGINESIZE',
 'CYLINDERS',
 'TRANSMISSION',
 'FUELTYPE',
 'FUELCONSUMPTION_CITY',
 'FUELCONSUMPTION_HWY',
 'FUELCONSUMPTION_COMB',
 'FUELCONSUMPTION_COMB_MPG',
 'CO2EMISSIONS',
 'FUELCONSUMPTION_COMB_MPG^(2)']


main_data_table.plot(all2target=True)


main_data_table.activate_features(["ENGINESIZE", "CYLINDERS", "FUELCONSUMPTION_COMB"])

Feature ENGINESIZE was added
Feature CYLINDERS was added
Feature FUELCONSUMPTION_COMB was added


# list of enabled features are:
main_data_table.features

{'FUELCONSUMPTION_COMB_MPG': <data_reader.DataTable._DataColumn at 0x1061c30a0>,
 'FUELCONSUMPTION_COMB_MPG^(2)': <data_reader.DataTable._DataColumn at 0x12349c4c0>,
 'ENGINESIZE': <data_reader.DataTable._DataColumn at 0x1061c3220>,
 'CYLINDERS': <data_reader.DataTable._DataColumn at 0x1061c3160>,
 'FUELCONSUMPTION_COMB': <data_reader.DataTable._DataColumn at 0x1061c32b0>}


# Regenerate new data for training/testing
scaled_training_data = main_data_table.get_training_data()
scaled_cv_data = main_data_table.get_cv_data()
scaled_testing_data = main_data_table.get_testing_data()
data_labels = main_data_table.get_labels()


model_all.set_labels(data_labels)
model_all.set_training_data(scaled_training_data[0], scaled_training_data[1])
model_all.set_testing_data(scaled_cv_data[0], scaled_cv_data[1])
model_all.labels

(['FUELCONSUMPTION_COMB_MPG',
  'FUELCONSUMPTION_COMB_MPG^(2)',
  'ENGINESIZE',
  'CYLINDERS',
  'FUELCONSUMPTION_COMB'],
 'CO2EMISSIONS')


model_all.set_model_parameters(alpha=0.3, regularization=0.1, epoch=1500)
model_all.RANDOM_WEIGHT_INITIALIZATION = 10


model_all.fit()

Initiated coefficients are [1, 10, -2, -8, 10, 10]
Iteration 376 done
Iteration 751 done
Iteration 1126 done
Training is completed with 1500 iterations

[-5.09, 6.99, -3.54, -8.33, 7.47, 6.67]


cv_features, cv_target = scaled_cv_data[0], scaled_cv_data[1]
features, target = model_all.labels
for feature_idx in range(len(features)):
        plot2d_target2predict(model_all, cv_features, cv_target,
                              feature_name=features[feature_idx],
                              target_name=target, feature_idx=feature_idx, loc_place="upper right")


model_all.evaluation(scaled_testing_data)

0.36


model_all.set_model_parameters(alpha=0.7, regularization=0.1, epoch=1500)
model_all.fit(scaled_coefficients=True)

Initiated coefficients are [0.9, 0.4, -0.5, -0.2, 0.3, 0.7]
Iteration 376 done
Iteration 751 done
Iteration 1126 done
Training is completed with 1500 iterations

[0.37, 0.13, -0.61, -0.24, 0.18, 0.53]


for feature_idx in range(len(features)):
        plot2d_target2predict(model_all, cv_features, cv_target,
                              feature_name=features[feature_idx],
                              target_name=target, feature_idx=feature_idx, loc_place="upper right")


model_all.evaluation(scaled_testing_data)

0.05

AI: Regression¶

Regression usage on Fuel Consumption vs CO2 Emission data¶

Introduction¶

Section 1 - preparation ¶

Features and target selection¶

Training/CV/Testing data sets¶

Section 2 - model config ¶

Section 3 - first try ¶

Section 4 - real game ¶

Square feature¶

1 feature - 1 target model results¶

The best trained model is:¶

Section 5 - more features - more fun ¶

Section 6 - results ¶

AI: Regression¶

Regression usage on Fuel Consumption vs CO2 Emission data¶

Introduction¶

Section 1 - preparation¶

Features and target selection¶

Training/CV/Testing data sets¶

Section 2 - model config¶

Section 3 - first try¶

Section 4 - real game¶

Square feature¶

1 feature - 1 target model results¶

The best trained model is:¶

Section 5 - more features - more fun¶

Section 6 - results¶

Section 1 - preparation ¶

Section 2 - model config ¶

Section 3 - first try ¶

Section 4 - real game ¶

Section 5 - more features - more fun ¶

Section 6 - results ¶