selenium-image-crawler

Selenium Image Crawler

Dependencies

Selenium Driver : PhantomJS (headless browser) To Install PhantomJS follow https://gist.github.com/leommoore/f3d7f2ff1fea6e69ee70da1beb72b0e1

Now:

Google Image Searh and Yandex Image Search included
BaseCrawler supplied for other search engines or websites
GoogleCrawler and YandexCrawler extended from BaseCrawler
BaseProcessor supplied for processing of each search item
LogProcessor, DownloadProcessor and ElasticSearchProcessor extended from BaseProcessor
DownloadProcessor, ElasticSearchProcessor : Pool class is used from multiprocessing library for parallelizing download
example_*.py files are included for simple usage

Next:

More drivers will be developed : Bing Image Search
Result images and metadata will be stored in databases : MongoDB, Cassandra, PostgreSQL

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
crawler		crawler
processor		processor
README.md		README.md
__init__.py		__init__.py
example_google.py		example_google.py
example_yandex.py		example_yandex.py
fati-crawler.py		fati-crawler.py
fati-test-products.csv		fati-test-products.csv
image_crawl.py		image_crawl.py
setup.py		setup.py

Provide feedback