Skip to content

dialogue-evaluation/RuCoCo-2023

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

RuCoCo-2023

Соревнование по разрешению кореферентности для русского языка (CodaLab)

Описание

Мы приглашаем вас поучаствовать в соревновании по поиску кореферентных выражений в новостных текстах на русском языке. Кореферентными считаются языковые выражения, соответствующие одному объекту действительности, например:

Соседи [Абрамовича]0 по поместью недовольны дизайном [его]0 владения.

Мотивация

Разрешение кореференции важно для многих задач NLP более высокого уровня, таких как саммаризация, question answering и извлечение информации. Это уже третье соревнование по разрешению кореференции в рамках конференции Диалог, но первое с таким объемом данных: train/dev датасет содержит около ~1 млн слов.

Формат данных

Корпус представляет собой файлы в формате JSON для каждого новостного текста в отдельности, разметка - пары начала и конца упоминаний (в символах с начала текста), каждая цепочка в отдельном списке.

{
"entities": [[[0, 24], [152, 155]], [[60, 68], [70, 73]]],
"includes": [[], []],
"text": "Лидеры европейских стран собрались на неформальный саммит в Брюсселе, где должны выработать единую позицию по иракской проблеме. По итогам понедельника они заявили, что считают...\n"
}

[[0, 24], [152, 155]] относится к спанам Лидеры европейских стран0 и они0
[[60, 68], [70, 73]] к Брюсселе1, где1.

Случаи с расщепленными антецедентами, т.е. когда сущности являются частью одной большой "родительской" сущности, мы выделяем отдельно. Пример такого случая: Tom и Sid в "родительской" сущности they в этом предложении:

At half-past nine, that night, Tom0 and Sid1 were sent to bed, as usual. They0,2 said their prayers, and Sid1 was soon asleep.

В разметке JSON-файлов для обозначения этого явления используется ключ "include":

{
"entities" : [[[31, 34]], [[39, 42], [100, 103]], [[71, 75]]],
"includes" : [[], [], [0, 1]],
"text": "At half-past nine, that night, Tom and Sid were sent to bed, as usual. They said their prayers, and Sid was soon asleep\n"
}

Где "includes" : [[], [], [0, 1]] в этом случае обозначает, что сущность #2 (Tom and Sid, they) - это родительская сущность по отношению к сущности 0 (Tom) и 1 (Sid).

Полезные ссылки

Оценка решений

Для оценки решений мы используем метрику LEA (a Link-based Entity Aware metric), прочитать про нее можно в оригинальной статье Moosavi and Strube (2016) или в статье корпуса RuCoCo. Для расщепленных антецедентов и их родительских сущностей скор рассчитывается отдельно, как для еще одной цепочки. В нашем репозитории можно посмотреть скрипт с оценкой.

Базовое решение

Код базового решения находится в папке baseline, описание в статье корпуса RuCoCo, решение построено с использованием в качестве энкодера модели ruRoberta-large (от Sber AI).

Таймлайн соревнования:

  • 13 января — публикация train и dev датасетов, тестовых данных;
  • 23 марта 23:59 (GMT +3) — последний день для отправки решений в фазе public;
  • 26 марта 23:59 (GMT +3) — последний день для отправки решений в фазе private;
  • 1 апреля — дедлайн для подачи статьи.

Условия и публикация

Участники, занявшие 1, 2 или 3 место в приватной фазе соревнования, обязаны предоставить docker контейнер с решением, чтобы подтвердить статус победителей. Лидеры лидерборда, не приславшие контейнер по просьбе организаторов, удаляются из финального лидерборда.
Участники соревнования RuCoCo вне зависимости от места в лидерборде могут опубликовать статью с описанием решения и анализом результатов в сборнике конференции Диалог (индексируется SCOPUS). Решение о принятии статьи в сборник SCOPUS принимают рецензенты. Участники, желающие подать статьи в сборник Диалога, должны прислать организаторам docker контейнеры с решением.

Организаторы

  • Владимир Добровольский (ABBYY)
  • Мария Мичурина (РГГУ)