Создание модели для image captioning и получения качественных эмбеддингов для решения других задач в zero shot в рамках весеннего проекта, ПАДиИИ ВШЭ СПб, весна 2023
Постер с результатами
Для обучения модели достаточно запустить файл train.py
, указав нужные параметры в config.json
LLM_train
- ноутбуки для перевода англоязычного датасета и дальнейшего обучения на нём языковой модели-декодера.
datasets
- всё, что использовалалось для подготовки данных для модели:
clipscore_quality_test
- ручной тест качества метрики clipscore и переводчика.coco_translation
- перевод caption'ов COCO-2014.flan_translation
- перевод CoT части FLAN'a с английского на русский.load_data
- загрузка изображений из url'ов датасета Wiki и скачивание COCO-2014wikitext_normalization
- нормализация и предобработка caption'ов Wiki датасета и подсчет CLIP score его и COCO.
experiments
- все предыдущие эксперименты с моделью и её производными
src
- актуальная модель
telegram bot
- весь код, связанный с телеграм-ботом. Он использует следующий скрипт в качестве основы для работы с моделью: experiments/inference_clip_gpt2_coco
Вы можете попробовать модель по следующим ссылкам: