Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Feature/custom changes #2095

Closed
wants to merge 7 commits into from
Closed
Show file tree
Hide file tree
Changes from 1 commit
Commits
File filter

Filter by extension

Filter by extension


Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Prev Previous commit
Next Next commit
[dev] add support for all image pages inside pdf
  • Loading branch information
zoazhyga committed Sep 5, 2024
commit cc6091961bac136b1d7eaff3730ad32407b76a07
239 changes: 235 additions & 4 deletions experiments/llama_index.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -2,15 +2,246 @@
"cells": [
{
"cell_type": "code",
"execution_count": null,
"id": "initial_id",
"metadata": {
"collapsed": true
"collapsed": true,
"ExecuteTime": {
"end_time": "2024-09-05T14:03:18.404518Z",
"start_time": "2024-09-05T14:03:18.401535Z"
}
},
"source": "# Read PDF",
"outputs": [],
"execution_count": 33
},
{
"metadata": {
"ExecuteTime": {
"end_time": "2024-09-05T14:39:16.282184Z",
"start_time": "2024-09-05T14:39:16.279186Z"
}
},
"cell_type": "code",
"source": [
"import pdf2image\n",
"import pytesseract\n",
"from pytesseract import Output, TesseractError"
],
"id": "ad1ffea2dcb7dcaf",
"outputs": [],
"execution_count": 74
},
{
"metadata": {
"ExecuteTime": {
"end_time": "2024-09-05T14:39:16.648563Z",
"start_time": "2024-09-05T14:39:16.646494Z"
}
},
"cell_type": "code",
"source": "file = \"../local_data/input_raw/test/26223.pdf\"",
"id": "f38556f4ef09d669",
"outputs": [],
"execution_count": 75
},
{
"metadata": {
"ExecuteTime": {
"end_time": "2024-09-05T14:39:23.492339Z",
"start_time": "2024-09-05T14:39:18.280277Z"
}
},
"cell_type": "code",
"source": "images = pdf2image.convert_from_path(file)",
"id": "67286a6f741debb0",
"outputs": [],
"execution_count": 76
},
{
"metadata": {
"ExecuteTime": {
"end_time": "2024-09-05T14:39:38.005863Z",
"start_time": "2024-09-05T14:39:36.119195Z"
}
},
"cell_type": "code",
"source": [
""
]
"pil_im = images[5] # assuming that we're interested in the first page only\n",
"\n",
"ocr_dict = pytesseract.image_to_string(pil_im, lang=\"rus\")"
],
"id": "ec339f7da13fc37f",
"outputs": [],
"execution_count": 79
},
{
"metadata": {
"ExecuteTime": {
"end_time": "2024-09-05T14:39:49.348914Z",
"start_time": "2024-09-05T14:39:49.344588Z"
}
},
"cell_type": "code",
"source": "print(ocr_dict)",
"id": "df86f1ed6f5f1b6e",
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"096 отдельный батальон материального обеспечения\n",
"\n",
"1099 мотострелковый полк\n",
"\n",
"| береговая ракетно-артиллерийская бригада\n",
"\n",
"военная автомобильная инспекция\n",
"\n",
"гвардейская отдельная десантно-штурмовая бригада\n",
"гвардейская отдельная инженерная бригада\n",
"отдельная вертолетная эскадрилья\n",
"отдельная танковая бригада\n",
"отдельный медицинский батальон\n",
"отдельный танковый полк\n",
"\n",
"полк радиационной, химической и биологической защиты\n",
"\n",
"смешанный авиационный полк\n",
"средняя общеобразовательная школа\n",
"\n",
"центральный узел контроля безопасности связи\n",
"\n",
"11 экипаж большой подводной лодки\n",
"\n",
"110 военная автомобильная инспекция\n",
"\n",
"110 военное представительство Министерства обороны Российской Федерации\n",
"\n",
"110 отдельная мотострелковая бригада\n",
"110 отдельный стрелковый полк\n",
"\n",
"1101 отдел государственного технического надзора\n",
"\n",
"1102 мотострелковый полк\n",
"1104 мотострелковый полк\n",
"\n",
"144\n",
"\n",
"1105 мотострелковый полк\n",
"\n",
"109 отдельный оптико-электронный узел\n",
"\n",
"11 военная автомобильная инспекция\n",
"\n",
"П главный государственный центр судеоно-медицинских и криминалистических экспертиз Министерства\n",
"\n",
"|| отдельный стрелковый полк\n",
"\n",
"11 центральная база резерва танков\n",
"\n",
"110 объединенное управление эксплуатации специальных объектов\n",
"\n",
"117 зенитный ракетный полк\n",
"\n",
"152|1118 военное представительство Министерства обороны Российской Федерации\n",
"153|1118 отдельный радиолокационный узел\n",
"\n",
"154|112 авиационный полигон\n",
"\n",
"155112 гвардейская ракетная бригада\n",
"\n",
"156| 112 отдельный вертолетный полк\n",
"\n",
"157|112 отдельный стрелковый полк\n",
"\n",
"158|1122 отдельный батальон материального обеспечения\n",
"159|1124 отдельный батальон материального обеспечения\n",
"160|1127 ремонтный завод ракетно-артиллерийского вооружения\n",
"161|113 военная автомобильная инспекция\n",
"\n",
"162|1139 отдельный батальон материального обеспечения\n",
"163|1139 отдельный измерительный пункт\n",
"\n",
"164| 114 бригада\n",
"\n",
"165| 114 военная автомобильная инспекция\n",
"\n",
"166|114 гвардейская отдельная мотострелковая бригада\n",
"\n",
"114 гвардейский мотострелковый полк\n",
"\n",
"168\n",
"\n",
"114 отделение территориальное\n",
"\n",
"169\n",
"\n",
"40 гвардейский артиллерийский полк\n",
"\n",
"170\n",
"\n",
"41 гвардейский артиллерийский полк\n",
"\n",
"171\n",
"\n",
"1142 военное представительство Министерства обороны Российской Федерации\n",
"\n",
"172\n",
"\n",
"1143 отдельный зенитный ракетный дивизион\n",
"\n",
"173\n",
"\n",
"115 военная автомобильная инспекция\n",
"\n",
"174\n",
"\n",
"5 государственный специальный химический арсенал\n",
"\n",
"175\n",
"\n",
"150 радиоэлектронный центр\n",
"\n",
"176\n",
"\n",
"177\n",
"178\n",
"\n",
"1152 мотострелковый полк\n",
"1153 мотострелковый полк\n",
"54 мотострелковый полк\n",
"\n",
"179\n",
"\n",
"1155 центр\n",
"\n",
"180\n",
"\n",
"157 пожарная команда\n",
"\n",
"ТТТ.\n",
"\n",
"181\n",
"\n",
"1158 пожарная команда.\n",
"\n",
"182\n",
"\n",
"1159 военное представительство Министерства обороны Российской Федерации\n",
"\n",
"\n"
]
}
],
"execution_count": 81
},
{
"metadata": {},
"cell_type": "code",
"outputs": [],
"execution_count": null,
"source": "",
"id": "7e909e7dc99c7f4a"
}
],
"metadata": {
Expand Down
Loading