diff --git a/CHANGELOG.md b/CHANGELOG.md index e7a04ea5..f733d269 100644 --- a/CHANGELOG.md +++ b/CHANGELOG.md @@ -1,3 +1,15 @@ +## [1.7.2](https://github.com/VinciGit00/Scrapegraph-ai/compare/v1.7.1...v1.7.2) (2024-06-18) + + +### Bug Fixes + +* total tokens and docs ([c787090](https://github.com/VinciGit00/Scrapegraph-ai/commit/c7870905e10da85b81761ab2c3f71220bafe9f22)) + + +### Docs + +* fixed readme по русский ([2373073](https://github.com/VinciGit00/Scrapegraph-ai/commit/23730735bac7e87ddaf6cdbc1edd1598a315413b)) + ## [1.7.1](https://github.com/VinciGit00/Scrapegraph-ai/compare/v1.7.0...v1.7.1) (2024-06-18) diff --git a/README.md b/README.md index d9148ac0..977243e3 100644 --- a/README.md +++ b/README.md @@ -2,7 +2,7 @@ # 🕷️ ScrapeGraphAI: You Only Scrape Once [English](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/README.md) | [中文](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/chinese.md) | [日本語](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/japanese.md) | [코리아노](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/korean.md) -| [русский](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/russian.md) +| [Русский](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/russian.md) [![Downloads](https://img.shields.io/pepy/dt/scrapegraphai?style=for-the-badge)](https://pepy.tech/project/scrapegraphai) diff --git a/docs/russian.md b/docs/russian.md index d3c8d24b..366194fb 100644 --- a/docs/russian.md +++ b/docs/russian.md @@ -1,5 +1,12 @@ # 🕷️ ScrapeGraphAI: Вы скрейпите только один раз +[![Downloads](https://img.shields.io/pepy/dt/scrapegraphai?style=for-the-badge)](https://pepy.tech/project/scrapegraphai) +[![linting: pylint](https://img.shields.io/badge/linting-pylint-yellowgreen?style=for-the-badge)](https://github.com/pylint-dev/pylint) +[![Pylint](https://img.shields.io/github/actions/workflow/status/VinciGit00/Scrapegraph-ai/pylint.yml?label=Pylint&logo=github&style=for-the-badge)](https://github.com/VinciGit00/Scrapegraph-ai/actions/workflows/pylint.yml) +[![CodeQL](https://img.shields.io/github/actions/workflow/status/VinciGit00/Scrapegraph-ai/codeql.yml?label=CodeQL&logo=github&style=for-the-badge)](https://github.com/VinciGit00/Scrapegraph-ai/actions/workflows/codeql.yml) +[![License: MIT](https://img.shields.io/badge/License-MIT-yellow.svg?style=for-the-badge)](https://opensource.org/licenses/MIT) +[![](https://dcbadge.vercel.app/api/server/gkxQDAjfeX)](https://discord.gg/gkxQDAjfeX) + ScrapeGraphAI - это библиотека для веб-скрейпинга на Python, которая использует LLM и прямую графовую логику для создания скрейпинговых пайплайнов для веб-сайтов и локальных документов (XML, HTML, JSON и т.д.). Просто укажите, какую информацию вы хотите извлечь, и библиотека сделает это за вас! @@ -10,39 +17,44 @@ ScrapeGraphAI - это библиотека для веб-скрейпинга ## 🚀 Быстрая установка -Референсная страница для Scrapegraph-ai доступна на официальной странице PyPI: pypi. +Референсная страница для Scrapegraph-ai доступна на официальной странице PyPI: [pypi](https://pypi.org/project/scrapegraphai/). -bash -Copia codice +```bash pip install scrapegraphai -Примечание: рекомендуется устанавливать библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками 🐱 +``` + +**Примечание**: рекомендуется устанавливать библиотеку в виртуальную среду, чтобы избежать конфликтов с другими библиотеками 🐱 ## 🔍 Демонстрация Официальная демонстрация на Streamlit: - +[![My Skills](https://skillicons.dev/icons?i=react)](https://scrapegraph-ai-web-dashboard.streamlit.app) Попробуйте ее прямо в интернете, используя Google Colab: +[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1sEZBonBMGP44CtO6GQTwAlL0BGJXjtfd?usp=sharing) + ## 📖 Документация -Документация для ScrapeGraphAI доступна здесь. +Документация для ScrapeGraphAI доступна [здесь](https://scrapegraph-ai.readthedocs.io/en/latest/).. -Посмотрите также Docusaurus здесь. +Посмотрите также Docusaurus [здесь](https://scrapegraph-doc.onrender.com/). ## 💻 Использование Существует три основных скрейпинговых пайплайна, которые можно использовать для извлечения информации с веб-сайта (или локального файла): -SmartScraperGraph: скрейпер одной страницы, которому требуется только пользовательский запрос и источник ввода; -SearchGraph: многопользовательский скрейпер, который извлекает информацию из топ n результатов поиска поисковой системы; -SpeechGraph: скрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует аудиофайл. -SmartScraperMultiGraph: скрейпер нескольких страниц по одному запросу. -Можно использовать различные LLM через API, такие как OpenAI, Groq, Azure и Gemini, или локальные модели, используя Ollama. +`SmartScraperGraph`: скрейпер одной страницы, которому требуется только пользовательский запрос и источник ввода; +`SearchGraph`: многопользовательский скрейпер, который извлекает информацию из топ n результатов поиска поисковой системы; +`SpeechGraph`: скрейпер одной страницы, который извлекает информацию с веб-сайта и генерирует аудиофайл. +`SmartScraperMultiGraph`: скрейпер нескольких страниц по одному запросу. + +Можно использовать различные LLM через API, такие как **OpenAI**, **Groq**, **Azure** и **Gemini**, или локальные модели, используя **Ollama**. + +### Пример 1: SmartScraper с использованием локальных моделей -Пример 1: SmartScraper с использованием локальных моделей -Не забудьте установить Ollama и загрузить модели, используя команду ollama pull. +Не забудьте установить [Ollama](https://ollama.com/) и загрузить модели, используя команду `ollama pull`. ```python from scrapegraphai.graphs import SmartScraperGraph @@ -71,16 +83,18 @@ smart_scraper_graph = SmartScraperGraph( result = smart_scraper_graph.run() print(result) ``` + Выходные данные будут представлять собой список проектов с их описаниями, например: ```python {'projects': [{'title': 'Rotary Pendulum RL', 'description': 'Open Source проект, направленный на управление реальным роторным маятником с использованием алгоритмов RL'}, {'title': 'DQN Implementation from scratch', 'description': 'Разработан алгоритм Deep Q-Network для обучения простого и двойного маятника'}, ...]} ``` -Пример 2: SearchGraph с использованием смешанных моделей -Мы используем Groq для LLM и Ollama для встраивания. -python -Copia codice +### Пример 2: SearchGraph с использованием смешанных моделей + +Мы используем **Groq** для LLM и **Ollama** для встраивания. + +```python from scrapegraphai.graphs import SearchGraph # Определите конфигурацию для графа @@ -106,15 +120,19 @@ search_graph = SearchGraph( # Запустите граф result = search_graph.run() print(result) +``` + Выходные данные будут представлять собой список рецептов, например: ```python {'recipes': [{'name': 'Sarde in Saòre'}, {'name': 'Bigoli in salsa'}, {'name': 'Seppie in umido'}, {'name': 'Moleche frite'}, {'name': 'Risotto alla pescatora'}, {'name': 'Broeto'}, {'name': 'Bibarasse in Cassopipa'}, {'name': 'Risi e bisi'}, {'name': 'Smegiassa Ciosota'}]} -Пример 3: SpeechGraph с использованием OpenAI +``` + +### Пример 3: SpeechGraph с использованием OpenAI + Вам просто нужно передать ключ API OpenAI и название модели. -python -Copia codice +```python from scrapegraphai.graphs import SpeechGraph graph_config = { @@ -143,6 +161,7 @@ speech_graph = SpeechGraph( result = speech_graph.run() print(result) ``` + Выходные данные будут представлять собой аудиофайл с резюме проектов на странице. ## Спонсоры @@ -160,20 +179,27 @@ print(result) Не стесняйтесь вносить свой вклад и присоединяйтесь к нашему серверу Discord, чтобы обсудить с нами улучшения и дать нам предложения! -Пожалуйста, ознакомьтесь с руководством по участию. +Пожалуйста, ознакомьтесь с [руководством по участию](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/CONTRIBUTING.md). + +[![My Skills](https://skillicons.dev/icons?i=discord)](https://discord.gg/uJN7TYcpNa) +[![My Skills](https://skillicons.dev/icons?i=linkedin)](https://www.linkedin.com/company/scrapegraphai/) +[![My Skills](https://skillicons.dev/icons?i=twitter)](https://twitter.com/scrapegraphai) ## 📈 Дорожная карта -Посмотрите дорожную карту проекта здесь! 🚀 +Посмотрите дорожную карту проекта [здесь](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/docs/README.md)! 🚀 -Хотите визуализировать дорожную карту более интерактивно? Посмотрите визуализацию markmap, скопировав содержимое markdown в редактор! +Хотите визуализировать дорожную карту более интерактивно? Посмотрите визуализацию [markmap](https://markmap.js.org/repl), скопировав содержимое markdown в редактор! + +## ❤️ Разработчики программного обеспечения + +[![Contributors](https://contrib.rocks/image?repo=VinciGit00/Scrapegraph-ai)](https://github.com/VinciGit00/Scrapegraph-ai/graphs/contributors) ## 🎓 Цитаты Если вы использовали нашу библиотеку для научных исследований, пожалуйста, укажите нас в следующем виде: -text -Copia codice +```text @misc{scrapegraph-ai, author = {Марко Перини, Лоренцо Падоан, Марко Винчигуэрра}, title = {Scrapegraph-ai}, @@ -181,20 +207,25 @@ Copia codice url = {https://github.com/VinciGit00/Scrapegraph-ai}, note = {Библиотека на Python для скрейпинга с использованием больших языковых моделей} } +``` + ## Авторы

Authors_logos

-Контактная информация -Марко Винчигуэрра -Марко Перини -Лоренцо Падоан -📜 Лицензия -ScrapeGraphAI лицензирован под MIT License. Подробнее см. в файле LICENSE. +| | Контактная информация | +|--------------------|------------------------| +| Marco Vinciguerra | [![Linkedin Badge](https://img.shields.io/badge/-Linkedin-blue?style=flat&logo=Linkedin&logoColor=white)](https://www.linkedin.com/in/marco-vinciguerra-7ba365242/) | +| Marco Perini | [![Linkedin Badge](https://img.shields.io/badge/-Linkedin-blue?style=flat&logo=Linkedin&logoColor=white)](https://www.linkedin.com/in/perinim/) | +| Lorenzo Padoan | [![Linkedin Badge](https://img.shields.io/badge/-Linkedin-blue?style=flat&logo=Linkedin&logoColor=white)](https://www.linkedin.com/in/lorenzo-padoan-4521a2154/) | + +## 📜 Лицензия + +ScrapeGraphAI лицензирован под MIT License. Подробнее см. в файле [LICENSE](https://github.com/VinciGit00/Scrapegraph-ai/blob/main/LICENSE). ## Благодарности -Мы хотели бы поблагодарить всех участников проекта и сообщество с открытым исходным кодом за их поддержку. -ScrapeGraphAI предназначен только для исследования данных и научных целей. Мы не несем ответственности за неправильное использование библиотеки. \ No newline at end of file +- Мы хотели бы поблагодарить всех участников проекта и сообщество с открытым исходным кодом за их поддержку. +- ScrapeGraphAI предназначен только для исследования данных и научных целей. Мы не несем ответственности за неправильное использование библиотеки. \ No newline at end of file diff --git a/docs/source/scrapers/telemetry.rst b/docs/source/scrapers/telemetry.rst index a6598092..f5e9f27c 100644 --- a/docs/source/scrapers/telemetry.rst +++ b/docs/source/scrapers/telemetry.rst @@ -29,6 +29,7 @@ Additionally, the following properties are collected: "source_type": source_type, "execution_time": execution_time, "error_node": error_node_name, + "total_tokens": total_tokens, } For more details, refer to the `telemetry.py `_ module. diff --git a/pyproject.toml b/pyproject.toml index 190f0651..3f56ce3f 100644 --- a/pyproject.toml +++ b/pyproject.toml @@ -2,7 +2,7 @@ name = "scrapegraphai" -version = "1.7.1" +version = "1.7.2" diff --git a/scrapegraphai/graphs/base_graph.py b/scrapegraphai/graphs/base_graph.py index 90585e6a..33c259bb 100644 --- a/scrapegraphai/graphs/base_graph.py +++ b/scrapegraphai/graphs/base_graph.py @@ -140,6 +140,16 @@ def _execute_standard(self, initial_state: dict) -> Tuple[dict, list]: result = current_node.execute(state) except Exception as e: error_node = current_node.node_name + + graph_execution_time = time.time() - start_time + log_graph_execution( + graph_name=self.graph_name, + llm_model=llm_model, + embedder_model=embedder_model, + source_type=source_type, + execution_time=graph_execution_time, + error_node=error_node + ) raise e node_exec_time = time.time() - curr_time total_exec_time += node_exec_time @@ -187,7 +197,7 @@ def _execute_standard(self, initial_state: dict) -> Tuple[dict, list]: embedder_model=embedder_model, source_type=source_type, execution_time=graph_execution_time, - error_node=error_node + total_tokens=cb_total["total_tokens"] if cb_total["total_tokens"] > 0 else None, ) return state, exec_info diff --git a/scrapegraphai/telemetry/telemetry.py b/scrapegraphai/telemetry/telemetry.py index 73e7c9cb..20d38186 100644 --- a/scrapegraphai/telemetry/telemetry.py +++ b/scrapegraphai/telemetry/telemetry.py @@ -156,7 +156,7 @@ def log_event(event: str, properties: Dict[str, any]): send_event_json(event_json) -def log_graph_execution(graph_name: str, llm_model: str, embedder_model: str, source_type: str, execution_time: float, error_node: str = None): +def log_graph_execution(graph_name: str, llm_model: str, embedder_model: str, source_type: str, execution_time: float, error_node: str = None, total_tokens: int = None): properties = { "graph_name": graph_name, "llm_model": llm_model, @@ -164,6 +164,7 @@ def log_graph_execution(graph_name: str, llm_model: str, embedder_model: str, so "source_type": source_type, "execution_time": execution_time, "error_node": error_node, + "total_tokens": total_tokens, } log_event("graph_execution", properties)