save

truera · sfc-gh-dhuang · Dec 10, 2024 · Oct 29, 2024 · Oct 31, 2024 · Oct 31, 2024
commit 7968d5218afdf68605986367bdfc137c92855faf
diff --git a/src/benchmark/trulens/benchmark/benchmark_frameworks/experiments/competitive_analysis.ipynb b/src/benchmark/trulens/benchmark/benchmark_frameworks/experiments/competitive_analysis.ipynb
@@ -113,7 +113,7 @@
     "    1 if label >= 0.5 else 0 for label in qags_xsum_true_labels\n",
     "]\n",
     "combined_dataset = pd.concat(\n",
-    "    [qags_cnn_dm, qags_xsum, summeval], ignore_index=True\n",
+    "    [qags_cnn_dm, qags_xsum, summeval], ignore_index=False\n",
     ")\n",
     "combined_true_labels = (\n",
     "    qags_cnn_dm_true_labels + qags_xsum_true_labels + summeval_true_labels\n",
@@ -123,6 +123,15 @@
     "print(f\"Total number of samples: {len(combined_dataset)}\")"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "combined_dataset"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -158,6 +167,9 @@
     "from ragas.llms import llm_factory\n",
     "from ragas.metrics import faithfulness as faithfulness_ragas\n",
     "from trulens.apps.basic import TruBasicApp\n",
+    "from trulens.core import Feedback\n",
+    "from trulens.core import Select\n",
+    "from trulens.feedback import GroundTruthAgreement\n",
     "from trulens.providers.openai import OpenAI\n",
     "\n",
     "OPENAI_LLM_NAME = \"gpt-4o-mini\"\n",
@@ -233,8 +245,20 @@
     "    if len(dataset_df) != len(true_labels):\n",
     "        raise ValueError(\"dataset df must have the same length as labels\")\n",
     "\n",
+    "    ground_truth = GroundTruthAgreement(dataset_df, provider=gpt_4o_mini)\n",
+    "\n",
+    "    f_mae = (\n",
+    "        Feedback(ground_truth.absolute_error, name=\"Mean Absolute Error\")\n",
+    "        .on(Select.Record.calls[0].args.args[0])\n",
+    "        .on(Select.Record.calls[0].args.args[1])\n",
+    "        .on_output()\n",
+    "    )\n",
+    "\n",
     "    tru_wrapped_basic_app = TruBasicApp(\n",
-    "        evaluate_func_wrapper, app_name=app_name, app_version=app_version\n",
+    "        evaluate_func_wrapper,\n",
+    "        app_name=app_name,\n",
+    "        app_version=app_version,\n",
+    "        feedbacks=[f_mae],\n",
     "    )\n",
     "\n",
     "    for i in range(len(dataset_df)):\n",
@@ -261,26 +285,26 @@
     "run_experiment_and_record(\n",
     "    evaluate_func_wrapper=trulens_groundedness,\n",
     "    app_name=\"trulens-groundedness\",\n",
-    "    app_version=\"10302024\",\n",
-    "    dataset_df=combined_dataset,\n",
-    "    true_labels=combined_true_labels,\n",
-    ")\n",
-    "\n",
-    "run_experiment_and_record(\n",
-    "    evaluate_func_wrapper=ragas_faithfulness,\n",
-    "    app_name=\"ragas-faithfulness\",\n",
-    "    app_version=\"10302024\",\n",
-    "    dataset_df=combined_dataset,\n",
-    "    true_labels=combined_true_labels,\n",
+    "    app_version=\"10312024\",\n",
+    "    dataset_df=combined_dataset[:2],\n",
+    "    true_labels=combined_true_labels[:2],\n",
     ")\n",
     "\n",
-    "run_experiment_and_record(\n",
-    "    evaluate_func_wrapper=mlflow_faithfulness,\n",
-    "    app_name=\"mlflow-faithfulness\",\n",
-    "    app_version=\"10302024\",\n",
-    "    dataset_df=combined_dataset,\n",
-    "    true_labels=combined_true_labels,\n",
-    ")"
+    "# run_experiment_and_record(\n",
+    "#     evaluate_func_wrapper=ragas_faithfulness,\n",
+    "#     app_name=\"ragas-faithfulness\",\n",
+    "#     app_version=\"10312024\",\n",
+    "#     dataset_df=combined_dataset,\n",
+    "#     true_labels=combined_true_labels,\n",
+    "# )\n",
+    "\n",
+    "# run_experiment_and_record(\n",
+    "#     evaluate_func_wrapper=mlflow_faithfulness,\n",
+    "#     app_name=\"mlflow-faithfulness\",\n",
+    "#     app_version=\"1032024\",\n",
+    "#     dataset_df=combined_dataset,\n",
+    "#     true_labels=combined_true_labels,\n",
+    "# )"
    ]
   },
   {