{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "58fab4bb-231e-48cf-8ed4-fc15a1b22845",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<h4 style=\"font-variant-caps: small-caps;font-size:35pt;\">Databricks-ML-professional-S01b-Experiment-Tracking</h4>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {},
     "inputWidgets": {},
     "nuid": "5e02262c-d60e-40aa-a4e9-39b9743b00b5",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<div style='background-color:black;border-radius:5px;border-top:1px solid'></div>\n",
    "<br/>\n",
    "<p>This Notebook adds information related to the following requirements:</p><br/>\n",
    "<b>Experiment Tracking:</b>\n",
    "<ul>\n",
    "<li>Manually log parameters, models, and evaluation metrics using MLflow</li>\n",
    "<li>Programmatically access and use data, metadata, and models from MLflow experiments</li>\n",
    "</ul>\n",
    "<br/>\n",
    "<p><b>Download this notebook at format ipynb <a href=\"Databricks-ML-professional-S01b-Experiment-Tracking.ipynb\">here</a>.</b></p>\n",
    "<br/>\n",
    "<div style='background-color:black;border-radius:5px;border-top:1px solid'></div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "b5f6d0da-1d81-4fa0-9770-a9e4d6863534",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<div style='background-color:rgba(30, 144, 255, 0.1);border-radius:5px;padding:2px;'>\n",
    "<span style=\"font-variant-caps: small-caps;font-weight:700\">1. Import libraries</span></div>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "8a2d2e59-7426-4d5f-8d97-3dcff6e5151d",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [],
   "source": [
    "import pandas as pd\n",
    "import seaborn as sns\n",
    "#\n",
    "from pyspark.sql.functions import *\n",
    "#\n",
    "from pyspark.ml.feature import OneHotEncoder, StringIndexer, VectorAssembler\n",
    "from pyspark.ml.regression import GBTRegressor\n",
    "from pyspark.ml.evaluation import RegressionEvaluator\n",
    "from pyspark.ml import Pipeline\n",
    "#\n",
    "import mlflow\n",
    "#\n",
    "import logging"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "76e27ecd-7d1c-49ea-93bf-e6056ef8f623",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [],
   "source": [
    "logging.getLogger(\"mlflow\").setLevel(logging.FATAL)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "aa08db2c-a856-4c86-81fe-9a8b7322cd6a",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<div style='background-color:rgba(30, 144, 255, 0.1);border-radius:5px;padding:2px;'>\n",
    "<span style=\"font-variant-caps: small-caps;font-weight:700\">2. Load dataset, convert to Spark DataFrame</span></div>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "5b64ff08-1603-4d0c-bc4e-19c0094c3b9c",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style scoped>\n",
       "  .table-result-container {\n",
       "    max-height: 300px;\n",
       "    overflow: auto;\n",
       "  }\n",
       "  table, th, td {\n",
       "    border: 1px solid black;\n",
       "    border-collapse: collapse;\n",
       "  }\n",
       "  th, td {\n",
       "    padding: 5px;\n",
       "  }\n",
       "  th {\n",
       "    text-align: left;\n",
       "  }\n",
       "</style><div class='table-result-container'><table class='table-result'><thead style='background-color: white'><tr><th>total_bill</th><th>tip</th><th>sex</th><th>smoker</th><th>day</th><th>time</th><th>size</th></tr></thead><tbody><tr><td>16.99</td><td>1.01</td><td>Female</td><td>No</td><td>Sun</td><td>Dinner</td><td>2</td></tr><tr><td>10.34</td><td>1.66</td><td>Male</td><td>No</td><td>Sun</td><td>Dinner</td><td>3</td></tr><tr><td>21.01</td><td>3.5</td><td>Male</td><td>No</td><td>Sun</td><td>Dinner</td><td>3</td></tr><tr><td>23.68</td><td>3.31</td><td>Male</td><td>No</td><td>Sun</td><td>Dinner</td><td>2</td></tr><tr><td>24.59</td><td>3.61</td><td>Female</td><td>No</td><td>Sun</td><td>Dinner</td><td>4</td></tr></tbody></table></div>"
      ]
     },
     "metadata": {
      "application/vnd.databricks.v1+output": {
       "addedWidgets": {},
       "aggData": [],
       "aggError": "",
       "aggOverflow": false,
       "aggSchema": [],
       "aggSeriesLimitReached": false,
       "aggType": "",
       "arguments": {},
       "columnCustomDisplayInfos": {},
       "data": [
        [
         16.99,
         1.01,
         "Female",
         "No",
         "Sun",
         "Dinner",
         2
        ],
        [
         10.34,
         1.66,
         "Male",
         "No",
         "Sun",
         "Dinner",
         3
        ],
        [
         21.01,
         3.5,
         "Male",
         "No",
         "Sun",
         "Dinner",
         3
        ],
        [
         23.68,
         3.31,
         "Male",
         "No",
         "Sun",
         "Dinner",
         2
        ],
        [
         24.59,
         3.61,
         "Female",
         "No",
         "Sun",
         "Dinner",
         4
        ]
       ],
       "datasetInfos": [],
       "dbfsResultPath": null,
       "isJsonSchema": true,
       "metadata": {},
       "overflow": false,
       "plotOptions": {
        "customPlotOptions": {},
        "displayType": "table",
        "pivotAggregation": null,
        "pivotColumns": null,
        "xColumns": null,
        "yColumns": null
       },
       "removedWidgets": [],
       "schema": [
        {
         "metadata": "{}",
         "name": "total_bill",
         "type": "\"double\""
        },
        {
         "metadata": "{}",
         "name": "tip",
         "type": "\"double\""
        },
        {
         "metadata": "{}",
         "name": "sex",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "smoker",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "day",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "time",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "size",
         "type": "\"long\""
        }
       ],
       "type": "table"
      }
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "tips_df = sns.load_dataset(\"tips\")\n",
    "#\n",
    "tips_sdf = spark.createDataFrame(tips_df)\n",
    "#\n",
    "display(tips_sdf.limit(5))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "d2d00502-ebc9-47fd-8026-2f93efa06258",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style scoped>\n",
       "  .table-result-container {\n",
       "    max-height: 300px;\n",
       "    overflow: auto;\n",
       "  }\n",
       "  table, th, td {\n",
       "    border: 1px solid black;\n",
       "    border-collapse: collapse;\n",
       "  }\n",
       "  th, td {\n",
       "    padding: 5px;\n",
       "  }\n",
       "  th {\n",
       "    text-align: left;\n",
       "  }\n",
       "</style><div class='table-result-container'><table class='table-result'><thead style='background-color: white'><tr><th>total_bill</th><th>tip</th><th>sex</th><th>smoker</th><th>day</th><th>time</th><th>size</th></tr></thead><tbody></tbody></table></div>"
      ]
     },
     "metadata": {
      "application/vnd.databricks.v1+output": {
       "addedWidgets": {},
       "aggData": [],
       "aggError": "",
       "aggOverflow": false,
       "aggSchema": [],
       "aggSeriesLimitReached": false,
       "aggType": "",
       "arguments": {},
       "columnCustomDisplayInfos": {},
       "data": [],
       "datasetInfos": [],
       "dbfsResultPath": null,
       "isJsonSchema": true,
       "metadata": {},
       "overflow": false,
       "plotOptions": {
        "customPlotOptions": {},
        "displayType": "table",
        "pivotAggregation": null,
        "pivotColumns": null,
        "xColumns": null,
        "yColumns": null
       },
       "removedWidgets": [],
       "schema": [
        {
         "metadata": "{}",
         "name": "total_bill",
         "type": "\"double\""
        },
        {
         "metadata": "{}",
         "name": "tip",
         "type": "\"double\""
        },
        {
         "metadata": "{}",
         "name": "sex",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "smoker",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "day",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "time",
         "type": "\"string\""
        },
        {
         "metadata": "{}",
         "name": "size",
         "type": "\"long\""
        }
       ],
       "type": "table"
      }
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "display(tips_sdf.filter(\"size is null\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "2b595b34-0633-4f66-9ca0-6067f4cc0716",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<div style='background-color:rgba(30, 144, 255, 0.1);border-radius:5px;padding:2px;'>\n",
    "<span style=\"font-variant-caps: small-caps;font-weight:700\">3. Prepare data</span></div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "453316e6-0dc3-41b0-9730-27c39ed9bdf1",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<p>Some transformations are done to prepare dataset to be used in training a ML model.</p>\n",
    "<table border style='border-collapse: collapse;'>\n",
    "<tr style=\"background-color:#EDEDED\">\n",
    "    <th>column name</th>\n",
    "    <th>comment</th>\n",
    "</tr>\n",
    "<tr>\n",
    "    <td><code>tip</code></td>\n",
    "    <td><b style='color:orangered'>target</b> to predict. Contains numeric</td>\n",
    "</tr>\n",
    "<tr>\n",
    "    <td><code>total_bill</code></td>\n",
    "    <td>numeric column to keep as is</td>\n",
    "</tr>\n",
    "<tr>\n",
    "    <td><code>sex</code></td>\n",
    "    <td>Contains <code>Female</code> and <code>Male</code> converted to <code>0</code> and <code>1</code></td>\n",
    "</tr>\n",
    "<tr>\n",
    "    <td><code>smoker</code></td>\n",
    "    <td>Contains <code>yes</code> and <code>no</code> converted to <code>0</code> and <code>1</code></td>\n",
    "</tr>\n",
    "<tr>\n",
    "    <td><code>time</code></td>\n",
    "    <td>Contains <code>Dinner</code> and <code>Lunch</code> converted to <code>0</code> and <code>1</code></td>\n",
    "</tr>\n",
    "<tr>\n",
    "    <td><code>day</code></td>\n",
    "    <td>categorical column to <b>One Hot Encode</b></td>\n",
    "</tr>\n",
    "<tr>\n",
    "    <td><code>size</code></td>\n",
    "    <td>categorical column to <b>One Hot Encode</b></td>\n",
    "</tr>\n",
    "</table>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "92c6fbbf-0a08-4fee-8ad7-abdf5a0f9ea4",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [],
   "source": [
    "tips_sdf = tips_sdf.selectExpr(\"total_bill\",\n",
    "                               \"tip\",\n",
    "                               \"case when sex = 'Female' then 1 else 0 end as sex\",\n",
    "                               \"case when smoker = 'yes' then 1 else 0 end as smoker\",\n",
    "                               \"case when time = 'Dinner' then 1 else 0 end as time\",\n",
    "                               \"day\",\n",
    "                               \"size\")\n",
    "#\n",
    "train_df, test_df = tips_sdf.randomSplit([.8, .2])\n",
    "#\n",
    "ohe_cols = [\"size\", \"day\"]\n",
    "num_cols = [\"total_bill\", \"sex\", \"smoker\", \"time\"]\n",
    "target_col = \"tip\"\n",
    "#\n",
    "string_indexer = StringIndexer(inputCols=ohe_cols, outputCols=[c+\"_index\" for c in ohe_cols], handleInvalid=\"skip\")\n",
    "#\n",
    "ohe = OneHotEncoder()\n",
    "ohe.setInputCols([c+\"_index\" for c in ohe_cols])\n",
    "ohe.setOutputCols([c+\"_ohe\" for c in ohe_cols])\n",
    "#\n",
    "assembler_inputs = [c+\"_ohe\" for c in ohe_cols] + num_cols\n",
    "vec_assembler = VectorAssembler(inputCols=assembler_inputs, outputCol=\"features\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "910af898-da90-4e26-a856-cdb4b902e101",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<div style='background-color:rgba(30, 144, 255, 0.1);border-radius:5px;padding:2px;'>\n",
    "<span style=\"font-variant-caps: small-caps;font-weight:700\">4. Evaluator and model</span></div>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "06212c8c-e7bf-45e7-827f-fd3fcad64486",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [],
   "source": [
    "gbt =       GBTRegressor(featuresCol=\"features\", labelCol=target_col, maxIter=5)\n",
    "evaluator = RegressionEvaluator(labelCol=target_col, predictionCol=\"prediction\", metricName=\"rmse\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "cd1fc5a1-c77d-45e4-88b2-d2861900b3e5",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<a id=\"manuallylog\"></a>\n",
    "<div style='background-color:rgba(30, 144, 255, 0.1);border-radius:5px;padding:2px;'>\n",
    "<span style=\"font-variant-caps: small-caps;font-weight:700\">5. Manually log parameters, models, and evaluation metrics using MLflow</span></div>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "c0a1d573-d054-48bb-864a-fb9eab2efaa3",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [],
   "source": [
    "model_name = \"GBT-Regressor\"\n",
    "#\n",
    "with mlflow.start_run(run_name=\"Tip-run\") as run:\n",
    "    #\n",
    "    # define pipeline stages according to model\n",
    "    stages = [string_indexer, ohe, vec_assembler, gbt]\n",
    "    #\n",
    "    # set pipeline\n",
    "    pipeline = Pipeline(stages=stages)\n",
    "    #\n",
    "    # fit pipeline to train set\n",
    "    model = pipeline.fit(train_df)\n",
    "    #\n",
    "    # manually log model to mlflow\n",
    "    mlflow.spark.log_model(model, model_name)\n",
    "    #\n",
    "    # manually log parameter to mlflow\n",
    "    mlflow.log_param(\"maxIter\", 5)\n",
    "    #\n",
    "    # predict test set\n",
    "    pred_df = model.transform(test_df)\n",
    "    #\n",
    "    # evaluate prediction\n",
    "    rmse = evaluator.evaluate(pred_df)\n",
    "    #\n",
    "    # manually log metric to mlflow\n",
    "    mlflow.log_metric(\"rmse\", rmse)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {},
     "inputWidgets": {},
     "nuid": "b7c1ad7c-c381-4758-bb59-5114ba6f0ba3",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<a id=\"programmaticallyaccess\"></a>\n",
    "<div style='background-color:rgba(30, 144, 255, 0.1);border-radius:5px;padding:2px;'>\n",
    "<span style=\"font-variant-caps: small-caps;font-weight:700\">6. Programmatically access and use data, metadata, and models from MLflow experiments</span></div>"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {},
     "inputWidgets": {},
     "nuid": "89edcb39-0b90-44ca-b6fd-5af69c3115a3",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<p>This can be done in different ways. One of them is to access it programmaticaly with the function <code>mlflow.search_runs</code> which results in a Pandas dataframe containing all useful information for all runs in the current experiment <i>(by default, the current experiment has the name of the current notebook)</i>:</p>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "e5839d28-4117-400d-9a8c-d7fa5fbd0665",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>run_id</th>\n",
       "      <th>experiment_id</th>\n",
       "      <th>status</th>\n",
       "      <th>artifact_uri</th>\n",
       "      <th>start_time</th>\n",
       "      <th>end_time</th>\n",
       "      <th>metrics.rmse</th>\n",
       "      <th>params.maxIter</th>\n",
       "      <th>tags.mlflow.databricks.cluster.libraries.error</th>\n",
       "      <th>tags.mlflow.databricks.notebookRevisionID</th>\n",
       "      <th>tags.mlflow.databricks.workspaceID</th>\n",
       "      <th>tags.mlflow.databricks.notebookID</th>\n",
       "      <th>tags.sparkDatasourceInfo</th>\n",
       "      <th>tags.mlflow.log-model.history</th>\n",
       "      <th>tags.mlflow.databricks.notebook.commandID</th>\n",
       "      <th>tags.mlflow.source.type</th>\n",
       "      <th>tags.mlflow.databricks.webappURL</th>\n",
       "      <th>tags.mlflow.runName</th>\n",
       "      <th>tags.mlflow.databricks.cluster.info</th>\n",
       "      <th>tags.mlflow.databricks.cluster.id</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>3b461072c96e4ce492250c86e5d4b04a</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>FINISHED</td>\n",
       "      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n",
       "      <td>2023-11-22 16:47:43.155000+00:00</td>\n",
       "      <td>2023-11-22 16:48:13.660000+00:00</td>\n",
       "      <td>1.685712</td>\n",
       "      <td>5</td>\n",
       "      <td>This message class grpc_shaded.com.databricks....</td>\n",
       "      <td>1700671694065</td>\n",
       "      <td>3607579860940718</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>path=mlflowdbfs:/artifacts?run_id=05c39cdd803d...</td>\n",
       "      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n",
       "      <td>4723686315041778941_5042614833210616149_6f6f9d...</td>\n",
       "      <td>NOTEBOOK</td>\n",
       "      <td>https://eastus-c3.azuredatabricks.net</td>\n",
       "      <td>Tip-run</td>\n",
       "      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n",
       "      <td>1027-081006-5cgi5kuh</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>05c39cdd803d41aaaf1d95e938bccb3c</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>FINISHED</td>\n",
       "      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n",
       "      <td>2023-11-22 16:43:02.360000+00:00</td>\n",
       "      <td>2023-11-22 16:43:32.223000+00:00</td>\n",
       "      <td>1.071217</td>\n",
       "      <td>5</td>\n",
       "      <td>This message class grpc_shaded.com.databricks....</td>\n",
       "      <td>1700671412555</td>\n",
       "      <td>3607579860940718</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>None</td>\n",
       "      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n",
       "      <td>4723686315041778941_8003943757913343583_2f0694...</td>\n",
       "      <td>NOTEBOOK</td>\n",
       "      <td>https://eastus-c3.azuredatabricks.net</td>\n",
       "      <td>Tip-run</td>\n",
       "      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n",
       "      <td>1027-081006-5cgi5kuh</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>197b10148baf4c55a9cfd55cb716a45f</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>FINISHED</td>\n",
       "      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n",
       "      <td>2023-11-22 16:42:20.492000+00:00</td>\n",
       "      <td>2023-11-22 16:42:50.008000+00:00</td>\n",
       "      <td>1.568573</td>\n",
       "      <td>5</td>\n",
       "      <td>This message class grpc_shaded.com.databricks....</td>\n",
       "      <td>1700671370330</td>\n",
       "      <td>3607579860940718</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>None</td>\n",
       "      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n",
       "      <td>4723686315041778941_8672488673836230069_a44c4b...</td>\n",
       "      <td>NOTEBOOK</td>\n",
       "      <td>https://eastus-c3.azuredatabricks.net</td>\n",
       "      <td>Tip-run</td>\n",
       "      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n",
       "      <td>1027-081006-5cgi5kuh</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>0f53885013194fdab9bc8ad6383e7bdf</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>FINISHED</td>\n",
       "      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n",
       "      <td>2023-11-22 16:37:23.545000+00:00</td>\n",
       "      <td>2023-11-22 16:37:53.810000+00:00</td>\n",
       "      <td>1.581776</td>\n",
       "      <td>5</td>\n",
       "      <td>This message class grpc_shaded.com.databricks....</td>\n",
       "      <td>1700671074137</td>\n",
       "      <td>3607579860940718</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>None</td>\n",
       "      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n",
       "      <td>4723686315041778941_6064693358274921191_17ebf6...</td>\n",
       "      <td>NOTEBOOK</td>\n",
       "      <td>https://eastus-c3.azuredatabricks.net</td>\n",
       "      <td>Tip-run</td>\n",
       "      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n",
       "      <td>1027-081006-5cgi5kuh</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>15ba91e309d548c2a85c1f01c006e39b</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>FINISHED</td>\n",
       "      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n",
       "      <td>2023-11-22 16:35:48.939000+00:00</td>\n",
       "      <td>2023-11-22 16:36:25.395000+00:00</td>\n",
       "      <td>1.498592</td>\n",
       "      <td>5</td>\n",
       "      <td>This message class grpc_shaded.com.databricks....</td>\n",
       "      <td>1700670985719</td>\n",
       "      <td>3607579860940718</td>\n",
       "      <td>4106912166953874</td>\n",
       "      <td>None</td>\n",
       "      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n",
       "      <td>4723686315041778941_8549608798050021702_4078e9...</td>\n",
       "      <td>NOTEBOOK</td>\n",
       "      <td>https://eastus-c3.azuredatabricks.net</td>\n",
       "      <td>Tip-run</td>\n",
       "      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n",
       "      <td>1027-081006-5cgi5kuh</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ]
     },
     "metadata": {
      "application/vnd.databricks.v1+output": {
       "addedWidgets": {},
       "arguments": {},
       "data": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>run_id</th>\n      <th>experiment_id</th>\n      <th>status</th>\n      <th>artifact_uri</th>\n      <th>start_time</th>\n      <th>end_time</th>\n      <th>metrics.rmse</th>\n      <th>params.maxIter</th>\n      <th>tags.mlflow.databricks.cluster.libraries.error</th>\n      <th>tags.mlflow.databricks.notebookRevisionID</th>\n      <th>tags.mlflow.databricks.workspaceID</th>\n      <th>tags.mlflow.databricks.notebookID</th>\n      <th>tags.sparkDatasourceInfo</th>\n      <th>tags.mlflow.log-model.history</th>\n      <th>tags.mlflow.databricks.notebook.commandID</th>\n      <th>tags.mlflow.source.type</th>\n      <th>tags.mlflow.databricks.webappURL</th>\n      <th>tags.mlflow.runName</th>\n      <th>tags.mlflow.databricks.cluster.info</th>\n      <th>tags.mlflow.databricks.cluster.id</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>3b461072c96e4ce492250c86e5d4b04a</td>\n      <td>4106912166953874</td>\n      <td>FINISHED</td>\n      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n      <td>2023-11-22 16:47:43.155000+00:00</td>\n      <td>2023-11-22 16:48:13.660000+00:00</td>\n      <td>1.685712</td>\n      <td>5</td>\n      <td>This message class grpc_shaded.com.databricks....</td>\n      <td>1700671694065</td>\n      <td>3607579860940718</td>\n      <td>4106912166953874</td>\n      <td>path=mlflowdbfs:/artifacts?run_id=05c39cdd803d...</td>\n      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n      <td>4723686315041778941_5042614833210616149_6f6f9d...</td>\n      <td>NOTEBOOK</td>\n      <td>https://eastus-c3.azuredatabricks.net</td>\n      <td>Tip-run</td>\n      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n      <td>1027-081006-5cgi5kuh</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>05c39cdd803d41aaaf1d95e938bccb3c</td>\n      <td>4106912166953874</td>\n      <td>FINISHED</td>\n      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n      <td>2023-11-22 16:43:02.360000+00:00</td>\n      <td>2023-11-22 16:43:32.223000+00:00</td>\n      <td>1.071217</td>\n      <td>5</td>\n      <td>This message class grpc_shaded.com.databricks....</td>\n      <td>1700671412555</td>\n      <td>3607579860940718</td>\n      <td>4106912166953874</td>\n      <td>None</td>\n      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n      <td>4723686315041778941_8003943757913343583_2f0694...</td>\n      <td>NOTEBOOK</td>\n      <td>https://eastus-c3.azuredatabricks.net</td>\n      <td>Tip-run</td>\n      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n      <td>1027-081006-5cgi5kuh</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>197b10148baf4c55a9cfd55cb716a45f</td>\n      <td>4106912166953874</td>\n      <td>FINISHED</td>\n      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n      <td>2023-11-22 16:42:20.492000+00:00</td>\n      <td>2023-11-22 16:42:50.008000+00:00</td>\n      <td>1.568573</td>\n      <td>5</td>\n      <td>This message class grpc_shaded.com.databricks....</td>\n      <td>1700671370330</td>\n      <td>3607579860940718</td>\n      <td>4106912166953874</td>\n      <td>None</td>\n      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n      <td>4723686315041778941_8672488673836230069_a44c4b...</td>\n      <td>NOTEBOOK</td>\n      <td>https://eastus-c3.azuredatabricks.net</td>\n      <td>Tip-run</td>\n      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n      <td>1027-081006-5cgi5kuh</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>0f53885013194fdab9bc8ad6383e7bdf</td>\n      <td>4106912166953874</td>\n      <td>FINISHED</td>\n      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n      <td>2023-11-22 16:37:23.545000+00:00</td>\n      <td>2023-11-22 16:37:53.810000+00:00</td>\n      <td>1.581776</td>\n      <td>5</td>\n      <td>This message class grpc_shaded.com.databricks....</td>\n      <td>1700671074137</td>\n      <td>3607579860940718</td>\n      <td>4106912166953874</td>\n      <td>None</td>\n      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n      <td>4723686315041778941_6064693358274921191_17ebf6...</td>\n      <td>NOTEBOOK</td>\n      <td>https://eastus-c3.azuredatabricks.net</td>\n      <td>Tip-run</td>\n      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n      <td>1027-081006-5cgi5kuh</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>15ba91e309d548c2a85c1f01c006e39b</td>\n      <td>4106912166953874</td>\n      <td>FINISHED</td>\n      <td>dbfs:/databricks/mlflow-tracking/4106912166953...</td>\n      <td>2023-11-22 16:35:48.939000+00:00</td>\n      <td>2023-11-22 16:36:25.395000+00:00</td>\n      <td>1.498592</td>\n      <td>5</td>\n      <td>This message class grpc_shaded.com.databricks....</td>\n      <td>1700670985719</td>\n      <td>3607579860940718</td>\n      <td>4106912166953874</td>\n      <td>None</td>\n      <td>[{\"artifact_path\":\"GBT-Regressor\",\"flavors\":{\"...</td>\n      <td>4723686315041778941_8549608798050021702_4078e9...</td>\n      <td>NOTEBOOK</td>\n      <td>https://eastus-c3.azuredatabricks.net</td>\n      <td>Tip-run</td>\n      <td>{\"cluster_name\":\"Victor Bonnet's Cluster\",\"spa...</td>\n      <td>1027-081006-5cgi5kuh</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
       "datasetInfos": [],
       "metadata": {},
       "removedWidgets": [],
       "textData": null,
       "type": "htmlSandbox"
      }
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "mlflow.search_runs().drop(['tags.mlflow.databricks.workspaceURL',\n",
    "                           'tags.mlflow.databricks.notebookPath',\n",
    "                           'tags.mlflow.source.name',\n",
    "                           'tags.mlflow.user'], axis=1)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {},
     "inputWidgets": {},
     "nuid": "f04a8cf6-a501-4e11-a7af-66b9b9bd6744",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<p>Using Pandas syntax information can be filtered on what is needed:</p>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "29d945c5-a93c-4f84-a01b-341d71e9f980",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>tags.mlflow.runName</th>\n",
       "      <th>run_id</th>\n",
       "      <th>params.maxIter</th>\n",
       "      <th>metrics.rmse</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Tip-run</td>\n",
       "      <td>05c39cdd803d41aaaf1d95e938bccb3c</td>\n",
       "      <td>5</td>\n",
       "      <td>1.071217</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>Tip-run</td>\n",
       "      <td>15ba91e309d548c2a85c1f01c006e39b</td>\n",
       "      <td>5</td>\n",
       "      <td>1.498592</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>Tip-run</td>\n",
       "      <td>197b10148baf4c55a9cfd55cb716a45f</td>\n",
       "      <td>5</td>\n",
       "      <td>1.568573</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>Tip-run</td>\n",
       "      <td>0f53885013194fdab9bc8ad6383e7bdf</td>\n",
       "      <td>5</td>\n",
       "      <td>1.581776</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Tip-run</td>\n",
       "      <td>3b461072c96e4ce492250c86e5d4b04a</td>\n",
       "      <td>5</td>\n",
       "      <td>1.685712</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ]
     },
     "metadata": {
      "application/vnd.databricks.v1+output": {
       "addedWidgets": {},
       "arguments": {},
       "data": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>tags.mlflow.runName</th>\n      <th>run_id</th>\n      <th>params.maxIter</th>\n      <th>metrics.rmse</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>1</th>\n      <td>Tip-run</td>\n      <td>05c39cdd803d41aaaf1d95e938bccb3c</td>\n      <td>5</td>\n      <td>1.071217</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>Tip-run</td>\n      <td>15ba91e309d548c2a85c1f01c006e39b</td>\n      <td>5</td>\n      <td>1.498592</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>Tip-run</td>\n      <td>197b10148baf4c55a9cfd55cb716a45f</td>\n      <td>5</td>\n      <td>1.568573</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>Tip-run</td>\n      <td>0f53885013194fdab9bc8ad6383e7bdf</td>\n      <td>5</td>\n      <td>1.581776</td>\n    </tr>\n    <tr>\n      <th>0</th>\n      <td>Tip-run</td>\n      <td>3b461072c96e4ce492250c86e5d4b04a</td>\n      <td>5</td>\n      <td>1.685712</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
       "datasetInfos": [],
       "metadata": {},
       "removedWidgets": [],
       "textData": null,
       "type": "htmlSandbox"
      }
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "mlflow.search_runs()[[\"tags.mlflow.runName\", \"run_id\", \"params.maxIter\", \"metrics.rmse\"]].sort_values(by=['metrics.rmse'], ascending=True)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {},
     "inputWidgets": {},
     "nuid": "3ea640ea-2ab2-46f6-b53f-a440ef888681",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<p>A <b>SQL filter</b> can also be applied directly in the <code>mlflow.search_run()</code> function by using its <code>filter_string</code> parameter. This is particularly useful when there are many runs:</p>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "9844f927-34d9-4ffc-a1f7-c8c17bafc6bb",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>tags.mlflow.runName</th>\n",
       "      <th>run_id</th>\n",
       "      <th>params.maxIter</th>\n",
       "      <th>metrics.rmse</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>Tip-run</td>\n",
       "      <td>05c39cdd803d41aaaf1d95e938bccb3c</td>\n",
       "      <td>5</td>\n",
       "      <td>1.071217</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>Tip-run</td>\n",
       "      <td>15ba91e309d548c2a85c1f01c006e39b</td>\n",
       "      <td>5</td>\n",
       "      <td>1.498592</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ]
     },
     "metadata": {
      "application/vnd.databricks.v1+output": {
       "addedWidgets": {},
       "arguments": {},
       "data": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>tags.mlflow.runName</th>\n      <th>run_id</th>\n      <th>params.maxIter</th>\n      <th>metrics.rmse</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>Tip-run</td>\n      <td>05c39cdd803d41aaaf1d95e938bccb3c</td>\n      <td>5</td>\n      <td>1.071217</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>Tip-run</td>\n      <td>15ba91e309d548c2a85c1f01c006e39b</td>\n      <td>5</td>\n      <td>1.498592</td>\n    </tr>\n  </tbody>\n</table>\n</div>",
       "datasetInfos": [],
       "metadata": {},
       "removedWidgets": [],
       "textData": null,
       "type": "htmlSandbox"
      }
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "mlflow.search_runs(filter_string=\"tags.mlflow.runName like '%Tip%' and metrics.rmse<=1.5\")[[\"tags.mlflow.runName\", \"run_id\", \"params.maxIter\", \"metrics.rmse\"]]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {},
     "inputWidgets": {},
     "nuid": "de6aca3d-c7f8-4d16-881b-df28551dc63e",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<p>With this, let's load the best model:</p>"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "d37c9d5a-6eb0-4eee-891f-d547ff1b08b8",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Best model path is: runs:/05c39cdd803d41aaaf1d95e938bccb3c/GBT-Regressor\n"
     ]
    }
   ],
   "source": [
    "bestModelRunId = mlflow.search_runs().sort_values(by=['metrics.rmse'], ascending=True).head(1)[\"run_id\"].values[0]\n",
    "#\n",
    "best_model_path = f\"runs:/{bestModelRunId}/{model_name}\"\n",
    "print(f\"Best model path is: {best_model_path}\")\n",
    "#\n",
    "loaded_model = mlflow.spark.load_model(best_model_path)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {
      "byteLimit": 2048000,
      "rowLimit": 10000
     },
     "inputWidgets": {},
     "nuid": "75cd5545-72e8-4678-b590-48a52a6e19c7",
     "showTitle": false,
     "title": ""
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<style scoped>\n",
       "  .table-result-container {\n",
       "    max-height: 300px;\n",
       "    overflow: auto;\n",
       "  }\n",
       "  table, th, td {\n",
       "    border: 1px solid black;\n",
       "    border-collapse: collapse;\n",
       "  }\n",
       "  th, td {\n",
       "    padding: 5px;\n",
       "  }\n",
       "  th {\n",
       "    text-align: left;\n",
       "  }\n",
       "</style><div class='table-result-container'><table class='table-result'><thead style='background-color: white'><tr><th>tip</th><th>prediction</th></tr></thead><tbody><tr><td>1.32</td><td>2.2600362250689874</td></tr><tr><td>1.56</td><td>2.2600362250689874</td></tr><tr><td>1.57</td><td>2.270591780624543</td></tr><tr><td>2.0</td><td>2.4706720284816104</td></tr><tr><td>1.01</td><td>2.621464796497559</td></tr><tr><td>3.0</td><td>3.2463005089207058</td></tr><tr><td>2.5</td><td>3.1992041196791403</td></tr><tr><td>3.31</td><td>2.9060591599135535</td></tr><tr><td>3.12</td><td>4.0487121332066645</td></tr><tr><td>7.58</td><td>4.6646880493827165</td></tr><tr><td>1.0</td><td>1.3015395831199872</td></tr><tr><td>1.8</td><td>1.9777634977962606</td></tr><tr><td>2.0</td><td>1.9777634977962606</td></tr><tr><td>1.68</td><td>2.270591780624543</td></tr><tr><td>2.09</td><td>2.564973300067474</td></tr><tr><td>2.47</td><td>2.6026518714960454</td></tr><tr><td>4.06</td><td>3.227487583919192</td></tr><tr><td>4.0</td><td>4.361694589718562</td></tr><tr><td>4.73</td><td>4.687208975308642</td></tr><tr><td>2.5</td><td>6.218021382716049</td></tr><tr><td>1.5</td><td>1.5428140028467654</td></tr><tr><td>1.61</td><td>1.5533466844466506</td></tr><tr><td>2.0</td><td>1.5533466844466506</td></tr><tr><td>3.55</td><td>3.456976</td></tr><tr><td>2.0</td><td>1.5428140028467654</td></tr><tr><td>2.2</td><td>1.9777634977962606</td></tr><tr><td>2.01</td><td>1.9777634977962606</td></tr><tr><td>2.23</td><td>1.9882961793961458</td></tr><tr><td>2.0</td><td>1.9777634977962606</td></tr><tr><td>1.58</td><td>2.270591780624543</td></tr><tr><td>3.48</td><td>2.270591780624543</td></tr><tr><td>2.0</td><td>2.270591780624543</td></tr><tr><td>2.02</td><td>2.270591780624543</td></tr><tr><td>3.0</td><td>2.564973300067474</td></tr><tr><td>1.5</td><td>2.270591780624543</td></tr><tr><td>2.5</td><td>3.192036225068987</td></tr><tr><td>4.19</td><td>3.131679615987459</td></tr><tr><td>5.0</td><td>5.054009020863314</td></tr><tr><td>5.16</td><td>4.408080999391555</td></tr><tr><td>6.5</td><td>5.169339707135286</td></tr><tr><td>2.0</td><td>3.0488064</td></tr><tr><td>2.0</td><td>3.427246104519053</td></tr><tr><td>1.17</td><td>1.6696819697747305</td></tr><tr><td>5.0</td><td>4.990542308641975</td></tr></tbody></table></div>"
      ]
     },
     "metadata": {
      "application/vnd.databricks.v1+output": {
       "addedWidgets": {},
       "aggData": [],
       "aggError": "",
       "aggOverflow": false,
       "aggSchema": [],
       "aggSeriesLimitReached": false,
       "aggType": "",
       "arguments": {},
       "columnCustomDisplayInfos": {},
       "data": [
        [
         1.32,
         2.2600362250689874
        ],
        [
         1.56,
         2.2600362250689874
        ],
        [
         1.57,
         2.270591780624543
        ],
        [
         2,
         2.4706720284816104
        ],
        [
         1.01,
         2.621464796497559
        ],
        [
         3,
         3.2463005089207058
        ],
        [
         2.5,
         3.1992041196791403
        ],
        [
         3.31,
         2.9060591599135535
        ],
        [
         3.12,
         4.0487121332066645
        ],
        [
         7.58,
         4.6646880493827165
        ],
        [
         1,
         1.3015395831199872
        ],
        [
         1.8,
         1.9777634977962606
        ],
        [
         2,
         1.9777634977962606
        ],
        [
         1.68,
         2.270591780624543
        ],
        [
         2.09,
         2.564973300067474
        ],
        [
         2.47,
         2.6026518714960454
        ],
        [
         4.06,
         3.227487583919192
        ],
        [
         4,
         4.361694589718562
        ],
        [
         4.73,
         4.687208975308642
        ],
        [
         2.5,
         6.218021382716049
        ],
        [
         1.5,
         1.5428140028467654
        ],
        [
         1.61,
         1.5533466844466506
        ],
        [
         2,
         1.5533466844466506
        ],
        [
         3.55,
         3.456976
        ],
        [
         2,
         1.5428140028467654
        ],
        [
         2.2,
         1.9777634977962606
        ],
        [
         2.01,
         1.9777634977962606
        ],
        [
         2.23,
         1.9882961793961458
        ],
        [
         2,
         1.9777634977962606
        ],
        [
         1.58,
         2.270591780624543
        ],
        [
         3.48,
         2.270591780624543
        ],
        [
         2,
         2.270591780624543
        ],
        [
         2.02,
         2.270591780624543
        ],
        [
         3,
         2.564973300067474
        ],
        [
         1.5,
         2.270591780624543
        ],
        [
         2.5,
         3.192036225068987
        ],
        [
         4.19,
         3.131679615987459
        ],
        [
         5,
         5.054009020863314
        ],
        [
         5.16,
         4.408080999391555
        ],
        [
         6.5,
         5.169339707135286
        ],
        [
         2,
         3.0488064
        ],
        [
         2,
         3.427246104519053
        ],
        [
         1.17,
         1.6696819697747305
        ],
        [
         5,
         4.990542308641975
        ]
       ],
       "datasetInfos": [],
       "dbfsResultPath": null,
       "isJsonSchema": true,
       "metadata": {},
       "overflow": false,
       "plotOptions": {
        "customPlotOptions": {},
        "displayType": "table",
        "pivotAggregation": null,
        "pivotColumns": null,
        "xColumns": null,
        "yColumns": null
       },
       "removedWidgets": [],
       "schema": [
        {
         "metadata": "{}",
         "name": "tip",
         "type": "\"double\""
        },
        {
         "metadata": "{\"ml_attr\":{\"attrs\":{\"numeric\":[{\"idx\":8,\"name\":\"total_bill\"},{\"idx\":9,\"name\":\"sex\"},{\"idx\":10,\"name\":\"smoker\"},{\"idx\":11,\"name\":\"time\"}],\"binary\":[{\"idx\":0,\"name\":\"size_ohe_2\"},{\"idx\":1,\"name\":\"size_ohe_3\"},{\"idx\":2,\"name\":\"size_ohe_4\"},{\"idx\":3,\"name\":\"size_ohe_5\"},{\"idx\":4,\"name\":\"size_ohe_6\"},{\"idx\":5,\"name\":\"day_ohe_Sat\"},{\"idx\":6,\"name\":\"day_ohe_Sun\"},{\"idx\":7,\"name\":\"day_ohe_Thur\"}]},\"num_attrs\":12}}",
         "name": "prediction",
         "type": "\"double\""
        }
       ],
       "type": "table"
      }
     },
     "output_type": "display_data"
    }
   ],
   "source": [
    "display(loaded_model.transform(test_df).select(\"tip\", \"prediction\"))"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {
    "application/vnd.databricks.v1+cell": {
     "cellMetadata": {},
     "inputWidgets": {},
     "nuid": "67f74bab-3bc1-46ec-a68e-de198cc7b1c7",
     "showTitle": false,
     "title": ""
    }
   },
   "source": [
    "<img src=\"https://i.ibb.co/xSdfvyD/mlflow3.png\"/>"
   ]
  }
 ],
 "metadata": {
  "application/vnd.databricks.v1+notebook": {
   "dashboards": [],
   "language": "python",
   "notebookMetadata": {
    "mostRecentlyExecutedCommandWithImplicitDF": {
     "commandId": 121806328486209,
     "dataframes": [
      "_sqldf"
     ]
    },
    "pythonIndentUnit": 2
   },
   "notebookName": "Databricks-ML-professional-S01b-Experiment-Tracking",
   "widgets": {}
  },
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.10"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}