Страница соревнования на сайте конференции Диалог:
https://www.dialog-21.ru/evaluation/2023/receiptavqa2023/
Официальный Telegram канал с новостями по датасету/соревнованию:
Страница соревнования на платформе CodaLab (пример формата сабмита можно посмотреть в директории sample_submission
репозитория):
https://codalab.lisn.upsaclay.fr/competitions/11087
Участникам предлагается к выполнению задача автоматической генерации ответов на вопросы к изображению (Visual Question Answering), а также генерации ответов на вопросы с использованием текстовой информации (Question Answering).
Датасет, на основе которого необходимо выполнить задачу, представляет собой изображения товарных чеков с текстом на английском языке и вопросы и ответы к ним. Для ответа на вопросы потребуется применение простейших операций агрегации к извлечённым данным (суммирование, умножение, усреднение и прочие).
Изображения товарных чеков взяты из датасетов CORD и SROIE2019.
Для задачи Visual Question Answering участники могут использовать в качества входных данные изображения товарных чеков и вопрос в текстовой форме.
Для задачи Question Answering для каждого товарного чека дополнительно доступен файл с текстовым содержимым товарного чека.
Изображения хранятся в директории images
. В директории dev
хранятся изображения для валидационной выборки. В директориях train_part1
, train_part2
хранятся изображения для обучающей выборки. В директории test
хранятся изображения тестовой выборки.
В директории text
хранится текстовая разметка для изображений чеков (все текстовые токен с их координатами). В этой директории данные также разбиты по сплитам.
Отдельной в файле questions_answers.csv
хранятся вопросы (столбец question
) и ответы (столбец answer
) к ним. Чтобы можно было сопоставить изображения/текстовую разметку с файлами для каждой пары вопрос-ответ предоставлена информация с выборке (столбец split
) и имени файла (столбец file_name
).
В файле test_questions.csv
хранятся вопросы тестовой выборки с сопутствующей информацией.
- Добавлены ответы для вопросов тестового сплита и лицензия для датасета
- Добавлены данные и вопросы для тестового сплита (пока без ответов)
- Добавлены категории вопросов в зависимости от типа возвращаемого значения (столбец
question_category
) - Добавлена информация о валюте чека в каждом вопросе (столбец
receipt_currency
) - Добавлен список типов операций, которые необходимо произвести для получения ответа (столбец
operations
) - Исправлен ряд опечаток в формировании вопросов
- Добавлены координаты текстового содержимого в формате
x1,y1,x2,y2,x3,y3,x4,y4,text
- Исправлено 8 ответов на вопросов для валидационной выборки
- Исправлены формулировки в 3 вопросов для валидационной выборки
- Исправлена опечатка в слове cash (cach -> cash)
- Заменена существенная часть вопросов (в частности, много вопросов для dev сплита)
- Переформулирована небольшая часть формулировок вопросов (убраны грамматические ошибки, более развернутые формулировки вопросов)
- Исправлены опечатки в ответах к ряду вопросов (< 10 вопросов-ответов)
- Удалены некорректно поставленные вопросы (< 10 вопросов-ответов)
- Первая версия датасета
- 25 декабря — публикация обучающего и валидационного датасетов;
18 февраля26 февраля — публикация тестового датасета;1 марта10 марта — предоставление участниками результатов;5 марта14 марта— публикация оценки результатов;1 апреля8 апреля — предоставление участниками статей.