Image Captioning

Создание модели для image captioning и получения качественных эмбеддингов для решения других задач в zero shot в рамках весеннего проекта, ПАДиИИ ВШЭ СПб, весна 2023
Постер с результатами

Воспроизведение результатов

Для обучения модели достаточно запустить файл train.py, указав нужные параметры в config.json

Структура проекта

LLM_train - ноутбуки для перевода англоязычного датасета и дальнейшего обучения на нём языковой модели-декодера.

datasets - всё, что использовалалось для подготовки данных для модели:

clipscore_quality_test - ручной тест качества метрики clipscore и переводчика.
coco_translation - перевод caption'ов COCO-2014.
flan_translation - перевод CoT части FLAN'a с английского на русский.
load_data - загрузка изображений из url'ов датасета Wiki и скачивание COCO-2014
wikitext_normalization - нормализация и предобработка caption'ов Wiki датасета и подсчет CLIP score его и COCO.

experiments - все предыдущие эксперименты с моделью и её производными

src - актуальная модель

telegram bot - весь код, связанный с телеграм-ботом. Он использует следующий скрипт в качестве основы для работы с моделью: experiments/inference_clip_gpt2_coco

Демо

Вы можете попробовать модель по следующим ссылкам:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Image Captioning

Воспроизведение результатов

Структура проекта

Демо

About

Releases 1

Contributors 4

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 36 Commits
LLM_train		LLM_train
datasets		datasets
experiments		experiments
src		src
telegram bot		telegram bot
.gitignore		.gitignore
README.md		README.md
config.json		config.json
requirements.txt		requirements.txt
train.py		train.py

Technolog796/image_captioning

Folders and files

Latest commit

History

Repository files navigation

Image Captioning

Воспроизведение результатов

Структура проекта

Демо

About

Topics

Resources

Stars

Watchers

Forks

Releases 1

Contributors 4

Languages