From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Environment

Python 3.11.9 toch 2.3.1 CUDA 12.2
Install Yolo World
- Requires: mmcv, mmcv-lite, mmdet, mmengine, mmyolo, numpy, opencv-python, openmim, supervision, tokenizers, torch, torchvision, transformers, wheel
Prepare datasets:
- M-OWODB and S-OWODB
  - Download COCO and PASCAL VOC.
  - Convert annotation format using coco_to_voc.py.
  - Move all images to datasets/JPEGImages and annotations to datasets/Annotations.
- nu-OWODB
  - For nu-OWODB, first download nuimages from here.
  - Convert annotation format using nuimages_to_voc.py.

Getting Started

Training open world object detector:
```
sh train.sh
```
- Model training starts from pretrained Yolo World checkpoint
To evaluate the model:
```
sh test_owod.sh
```
- To reproduce our results, please download our checkpoints here

Citation

If you find this code useful, please consider citing:

@misc{li2024openvocabularyopenworld,
      title={From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects}, 
      author={Zizhao Li and Zhengkang Xiang and Joseph West and Kourosh Khoshelham},
      year={2024},
      eprint={2411.18207},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.18207}, 
}

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
assets		assets
configs		configs
core		core
datasets/ImageSets/Main		datasets/ImageSets/Main
third_party/mmyolo		third_party/mmyolo
.gitignore		.gitignore
README.md		README.md
base.sh		base.sh
base_eval.py		base_eval.py
coco_to_voc.py		coco_to_voc.py
dev.py		dev.py
load_env.sh		load_env.sh
nuimages_to_voc.py		nuimages_to_voc.py
requirements.txt		requirements.txt
test.py		test.py
test_owod.sh		test_owod.sh
train.sh		train.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Environment

Getting Started

Citation

About

Releases

Packages

Languages

343gltysprk/ovow

Folders and files

Latest commit

History

Repository files navigation

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Environment

Getting Started

Citation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages