Skip to content

Создание русскоязычной модели для image captioning

Notifications You must be signed in to change notification settings

Technolog796/image_captioning

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

36 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Image Captioning

Создание модели для image captioning и получения качественных эмбеддингов для решения других задач в zero shot в рамках весеннего проекта, ПАДиИИ ВШЭ СПб, весна 2023
Постер с результатами

Воспроизведение результатов

Для обучения модели достаточно запустить файл train.py, указав нужные параметры в config.json

Структура проекта

LLM_train - ноутбуки для перевода англоязычного датасета и дальнейшего обучения на нём языковой модели-декодера.

datasets - всё, что использовалалось для подготовки данных для модели:

  1. clipscore_quality_test - ручной тест качества метрики clipscore и переводчика.
  2. coco_translation - перевод caption'ов COCO-2014.
  3. flan_translation - перевод CoT части FLAN'a с английского на русский.
  4. load_data - загрузка изображений из url'ов датасета Wiki и скачивание COCO-2014
  5. wikitext_normalization - нормализация и предобработка caption'ов Wiki датасета и подсчет CLIP score его и COCO.

experiments - все предыдущие эксперименты с моделью и её производными

src - актуальная модель

telegram bot - весь код, связанный с телеграм-ботом. Он использует следующий скрипт в качестве основы для работы с моделью: experiments/inference_clip_gpt2_coco

Демо

Вы можете попробовать модель по следующим ссылкам:

  1. Telegram
  2. HF Spaces