Spaces:

adenshulga
/

arxiv-paper-classifier

Sleeping

App Files Files Community

Andrey Shulga commited on Apr 6

Commit

c8745de

0 Parent(s):

initial commit

Browse files

Files changed (12) hide show

.gitignore +10 -0
.python-version +1 -0
README.md +34 -0
container_setup/Dockerfile +72 -0
container_setup/attach.sh +0 -0
container_setup/build.sh +8 -0
container_setup/credentials +9 -0
container_setup/launch_container.sh +18 -0
main.py +6 -0
notebooks/ML2_2025_nlp_ops1.ipynb +167 -0
pyproject.toml +15 -0
uv.lock +0 -0

.gitignore ADDED Viewed

	@@ -0,0 +1,10 @@

+# Python-generated files
+__pycache__/
+*.py[oc]
+build/
+dist/
+wheels/
+*.egg-info
+# Virtual environments
+.venv

.python-version ADDED Viewed

	@@ -0,0 +1 @@


1	+ 3.13

README.md ADDED Viewed

	@@ -0,0 +1,34 @@

+Upload a file or csvs with messages/comments
+My service cleans repetative messages(for example bot are mixed in here)
+анализатор комментариев которые показывают ссылки на разные но описательные комментарии(сгружаете все комменты с продукта)
+что должен делать:
+- фильтровать ботов
+- фильтровать спам/nsfw/не информативные оскорбления (Кластеризация по LSH, отмести ботов)
+- фильтрация нерелевантных комментариев и сообщений
+- показывать топ РАЗНЫХ по содержанию и по сентименту комментариев
+- суммаризатор мнений
+идеи для сервиса по анализу комментариев:
+- скор полезности комментария/сообщения
+- скор полезности по лайкам на маркетплейсах (контрастивно учим пары продукт-комментарии)
+пример:
+- добавить парсер озона чтобы лучше понимать отзывы про продукт? (платно)
+На вход ест csv?
+идеи:
+- детектор галлюцинаций
+- извлечение мнений из комментариев
+uv venv
+chmod +x container_setup/build container_setup/launch_container

container_setup/Dockerfile ADDED Viewed

	@@ -0,0 +1,72 @@

+FROM python:3.12-slim
+ENV PYTHONDONTWRITEBYTECODE=1
+ENV PYTHONUNBUFFERED=1
+RUN apt-get update && \
+    apt-get install -y --no-install-recommends \
+    fish \
+    git \
+    curl \
+    vim \
+    bash \
+    ffmpeg \
+    tmux \
+    unzip \
+    build-essential \
+    python3-dev \
+    && rm -rf /var/lib/apt/lists/*
+# pkg-config \
+# cmake \
+# cargo \
+# RUN curl https://sh.rustup.rs -sSf | sh -s -- -y && \
+#     source $HOME/.cargo/env && \
+#     rustup default stable
+# RUN rustup install stable && rustup default stable
+# RUN curl https://sh.rustup.rs -sSf | sh -s -- -y && \
+#     source $HOME/.cargo/env && \
+#     rustup default stable
+# Declare build arguments before using them
+ARG USER_ID=1000
+ARG GROUP_ID=1000
+# Create a group and user with the specified UID and GID
+RUN addgroup --gid $GROUP_ID appgroup && \
+    adduser --uid $USER_ID --gid $GROUP_ID --shell /bin/bash --disabled-password --gecos "" appuser
+# Install sudo
+RUN apt-get update && apt-get install -y sudo
+# Grant sudo privileges to appuser without a password
+RUN echo "appuser ALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers
+COPY --from=ghcr.io/astral-sh/uv:latest /uv /uvx /bin/
+# Switch to the new user
+USER appuser
+SHELL ["/usr/bin/fish", "-c"]
+WORKDIR /app
+# Create the virtual environment in a directory not affected by the mount
+# Copy requirements.txt and install dependencies
+# COPY --chown=appuser:appgroup requirements.txt ./
+# RUN uv venv && uv pip install --upgrade pip && \
+#     uv pip install -r requirements.txt
+# Copy the entire project into the container
+COPY --chown=appuser:appgroup pyproject.toml ./
+COPY --chown=appuser:appgroup uv.lock ./
+RUN uv sync
+EXPOSE 8000
+# CMD is now managed by docker-compose to run the Fish shell

container_setup/attach.sh ADDED Viewed

File without changes

container_setup/build.sh ADDED Viewed

	@@ -0,0 +1,8 @@

+#! /bin/bash
+source container_setup/credentials
+docker build -f container_setup/Dockerfile -t ${DOCKER_NAME} . \
+        --build-arg DOCKER_NAME=${DOCKER_NAME} \
+        --build-arg USER_ID=${DOCKER_USER_ID} \
+        --build-arg GROUP_ID=${DOCKER_GROUP_ID}

container_setup/credentials ADDED Viewed

	@@ -0,0 +1,9 @@

+#! /bin/bash
+DOCKER_NAME="opinionanalyzer"
+CONTAINER_NAME=$USER"-opinionanalyzer"
+SRC="OpinionAnalyzer" # folder to propulse in docker container
+DOCKER_USER_ID=$(id -u) # to get these values type "id" in shell termilal
+DOCKER_GROUP_ID=$(id -g)
+CONTAINER_PORT=8001 # used in launch_container file
+INNER_PORT=8001

container_setup/launch_container.sh ADDED Viewed

	@@ -0,0 +1,18 @@

+#! /bin/bash
+source container_setup/credentials
+docker run \
+    -d \
+    --shm-size=8g \
+    --memory=32g \
+    --cpuset-cpus=96-107 \
+    --user ${DOCKER_USER_ID}:${DOCKER_GROUP_ID} \
+    --name ${CONTAINER_NAME} \
+    --rm \
+    -it \
+    --init \
+    --gpus '"device=4"' \
+    -v /home/${USER}/${SRC}:/app \
+    -p ${INNER_PORT}:${CONTAINER_PORT} \
+    ${DOCKER_NAME} \
+    bash

main.py ADDED Viewed

	@@ -0,0 +1,6 @@

+def main():
+    print("Hello from opinionanalyzer!")
+if __name__ == "__main__":
+    main()

notebooks/ML2_2025_nlp_ops1.ipynb ADDED Viewed

	@@ -0,0 +1,167 @@

+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# __Девопсная домашка по трансформерам__\n",
+    "\n",
+    "## __Описание__\n",
+    "\n",
+    "![img](https://d35w6hwqhdq0in.cloudfront.net/521712556725591dcacec5bbdb32e047.png)\n",
+    "\n",
+    "Ваш главный квест на эту домашку - сделать свой простой сервис на трансформерах. Вот прям целый сервис: начиная с данных и заканчивая графическим интерфейсом где-то в интернете. Ваш сервис может решать либо одну из предложенных ниже задач, либо любую другую (что-то более дорогое лично вам).\n",
+    "\n",
+    "__Стандартная задача: классификатор статей.__ Нужно построить сервис который принимает название статьи и её abstract, и выдаёт наиболее вероятную тематику статьи: скажем, физика, биология или computer science. В интерфейсе должно быть можно ввести отдельно abstract, отдельно название -- и увидеть топ-95%* тематик, отсортированных по убыванию вероятности. Если abstract не ввели, нужно классифицировать статью только по названию. Ниже вас ждут инструкции и данные именно для этой задачи.\n",
+    "\n",
+    "<details><summary><u> Что значит Топ-95%?</u></summary>\n",
+    "    Нужно выдавать темы по убыванию вероятности, пока их суммарная вероятность не превысит 95%. В зависимости от предсказанной вероятности, это может быть одна или более тем. Например, если модель предсказала вероятности [4%, 20%, 60%, 2%, 14%], нужно вывести 3 топ-3 класса. Если один из классов имеет вероятность 96%, достаточно вывести один этот класс.\n",
+    "</details>\n",
+    "\n",
+    "Альтернативно, вы можете отважиться сделать что-то своё, на данных из интернета или своих собственных. В вашей задаче обязательно должно быть _оправданное_ использование трансформеров. Использовать ML чтобы переводить часовые пояса - плохой план.\n",
+    "\n",
+    "Achtung: трансформеры круты, но не всемогущи. Далеко не любую задачу можно решить ощутимо лучше рандома. Для калибровки, вот несколько примеров решаемых задач (всё кликабельно):\n",
+    "\n",
+    "\n",
+    "<details><summary> - <b>[medium]</b> <u>Сгенерировать youtube-комментарии по _ссылке_ на видео</u></summary>\n",
+    "    Всё просто, юзер постит ссылку на видео - вы его комментируете. Можно заранее обусловиться что видео только на английском или на русском. Нужно сочинить _несколько_ комментариев. Kudos если вместе с основным комментарием вы порождаете юзернеймы и-или ответы на него.\n",
+    "    \n",
+    "    Датасет для файнтюна можно [взять с kaggle](https://www.kaggle.com/tanmay111/youtube-comments-sentiment-analysis/data?select=UScomments.csv) или [собрать самостоятельно](https://towardsdatascience.com/how-to-build-your-own-dataset-of-youtube-comments-39a1e57aade).\n",
+    "    \n",
+    "    В качестве основной модели можно использовать [GPT-2 large](https://huggingface.co/gpt2-large). Вот как её файнтюнить: https://tinyurl.com/gpt2-finetune-colab . Если хотите больше - можно взять что-то из творчества https://huggingface.co/EleutherAI . Например, вот [тут](https://tinyurl.com/gpt-j-8bit) есть пример как файнтюнить GPT-J-6B (в 8 раз больше gpt2-large). Однако, этим стоит заниматься уже после того, как у вас заработал базовый сценарий с GPT2-large или даже base.\n",
+    "    \n",
+    "    В итоговом сервисе ��ожно дать пользователю вариировать параметры генерации: температура или top-p, если сэмплинг; beam size и length penalty, если beam search; сколько комментариев сгенерировать, etc. Отдельный респект если ваш код будет выводить комментарий по одному слову, прямо в процессе генерёжки - чтобы пользователь не ждал пока вы настругаете абзац целиком.\n",
+    "</details>\n",
+    "\n",
+    "<details><summary> - <b>[medium]</b> <u>Предсказать зарплату по профилю (симулятор Дудя).</u></summary>\n",
+    "    Note: <details> <summary>Причём тут Дудь?</summary> <img src=https://www.meme-arsenal.com/memes/6dd85f126bbab4f9774ced71ffadbcb3.jpg> </details>\n",
+    "    \n",
+    "    Главная сложность задачи - достать хорошие данные. Если хороших данных не случилось - можно и трешовые :) Задание всё-таки про технологии а не про продукт. Для начала можно взять подмножество фичей [отсюда](https://www.kaggle.com/c/job-salary-prediction/data), которые вы можете восстановить из профиля linkedin - название профессии и компании. Название компании лучше заменить на фичи из открытых источников: сфера деятельности, размер, етц.\n",
+    "    \n",
+    "    А дальше файнтюним на этом BERT / T5 и радуемся. Ну или хотя бы смеёмся.\n",
+    "</details>\n",
+    "\n",
+    "\n",
+    "<details><summary> - <b>[hard]</b> <u>Мнения с географической окраской.</u></summary>\n",
+    "    \n",
+    "    Сервис который принимает на вход тему (хэштег или ключевую фразу) и рисует карту мира, где в каждом регионе показано, с какой эмоциональной окраской о ней высказываются в социальных сетях. В качестве социальной сети можно взять VK/twitter, в случая VK ожидается детализация не по странам, а по городам стран бывшего СССР.\n",
+    "    \n",
+    "    В минимальном варианте достаточно определять тональность твита в режиме \"позитивно-негативно\", зафайнтюнив условный BERT/T5 на одном из десятков {vk/twitter} sentiment classification датасетах. Географическую привязку можно получить из профиля пользователя. А дальше осталось собрать данные по странам и регионам.\n",
+    "\n",
+    "</details>\n",
+    "\n",
+    "\n",
+    "<details><summary> - <b>[very hard]</b> <u>Найти статью википедии по фото предмета статьи</u></summary>\n",
+    "\n",
+    "    Чтобы можно было сфотать какую-нибудь неведомую чешуйню на телефон и получить сумму человеческих знаний о ней в форме вики-статьи.\n",
+    "    \n",
+    "    В качестве функции потерь можно использовать contrastive loss. Этот лосс неплохо описан в статье [CLIP](https://arxiv.org/abs/2103.00020). Вместо обучения с нуля предлагается взять, собственно, CLIP (text transformer + image transformer) отсюда: https://huggingface.co/docs/transformers/model_doc/clip. Модель будет сопоставлять каждой статьи и \n",
+    "    \n",
+    "    Данные для этого квеста можно собрать через API википедии: вики-статьи о предметах обычно содержит фото этого объекта и, собственно, текст статьи. Советуем собрать как минимум 10^4 пар картинка-статья. Картинки советуем дополнительно аугментировать как минимум стандартными картиночными аугами, как максимум - поиском похожих картинок в интернете / imagenet-е по тому же CLIP image encoder-у, но с исходными весами.\n",
+    "    \n",
+    "    На время отладки интерфейса рекомендуем ограничить��я небольшим списком статьей: условно, кошечки, собачки, птички, гаечные ключи, машины. Как станет понятно что оно работает \"на кошках\", можно расширить этот список до \"всех статей таких-то категорий\". Эмбединги статей лучше предпосчитать в файл. Если долго их перебирать - можно (но необязательно) воспользоваться быстрым поиском соседей, e.g. [faiss](https://github.com/facebookresearch/faiss) HNSW.\n",
+    "</details>\n",
+    "\n",
+    "\n",
+    "## __Как научить классификатор статей?__\n",
+    "\n",
+    "Данные для классификации статей можно скачать, например, [отсюда](https://www.kaggle.com/neelshah18/arxivdataset/). В этих данных есть заголовок и abstract статьи, а ещё поле __\"tag\"__: тематика статьи [по таксономии arxiv.org](https://arxiv.org/category_taxonomy). Вы можете расширить выборку, добавив в неё статьи за 2019-н.в. годы. Для этого можно [использовать arxiv API](https://github.com/lukasschwab/arxiv.py), самостоятельно распарсить arxiv с помощью [beautifulsoup](https://pypi.org/project/beautifulsoup4/), или поискать другие датасеты на kaggle, huggingface, etc.\n",
+    "\n",
+    "Когда данные собраны (и аккуратно нарезаны на train/test), можно что-нибудь и обучить. Мы советуем использовать для этого библиотеку `transformers`. Советуем, но не заставляем: если хочется, можно взять [fairseq roberta](https://github.com/pytorch/fairseq/blob/main/examples/roberta), [google t5](https://github.com/google-research/text-to-text-transfer-transformer) или даже написать всё с нуля.\n",
+    "\n",
+    "Мы разбирали transformers на [семинаре](https://lk.yandexdataschool.ru/courses/2025-spring/7.1332-machine-learning-2/classes/13138/), за любой дополнительной информацией - смотрите [документации HF](https://huggingface.co/docs).\n",
+    "\n",
+    "Начать лучше с простой модели, такой как [`distilbert-base-cased`](https://huggingface.co/distilbert-base-cased). Когда вы будете понимать, какие значения accuracy ожидать от базовой модели, можно поискать что-то получше. Два очевидных направления улучшения: (1) сильнее модель T5 или deberta v3, или (2) близкие данные, например взять модель которую предобучили на том же arxiv. И то и другое удобно [искать здесь](https://huggingface.co/models).\n",
+    "\n",
+    "## __Научили, и что теперь?__\n",
+    "\n",
+    "А теперь нужно сделать так, чтобы ваша обученная модель отвечала на запросы в интернете. Как и на прошлом этапе, вы можете сделать это кучей разных способов: от простого [streamlit](https://streamlit.io/) / [gradio](https://gradio.app/), минуя [TorchServe](https://pytorch.org/serve/) с [Triton/TensorRT](https://developer.nvidia.com/nvidia-triton-inference-server), и заканчивая экспортом модели в javascript с помощью [TensorFlow.js](https://www.tensorflow.org/js/tutorials) / [ONNX.js](https://github.com/elliotwaite/pytorch-to-javascript-with-onnx-js).\n",
+    "\n",
+    "На [семинаре](https://lk.yandexdataschool.ru/courses/2025-spring/7.1332-machine-learning-2/classes/13138/) мы разбирали основные вещи про то как работает streamlit и как сделать простое приложение с его помощью.\n",
+    "\n",
+    "Общая идея streamlit: вы [описываете](https://docs.streamlit.io/library/get-started/create-an-app) внешний вид приложения на питоне с помощью примитивов (кнопки, поля, любой html) -- а потом этот код выполняется на сервере и обслуживает каждого пользователя в отдельном процессе.\n",
+    "\n",
+    "__Для отладки__ можно запустить приложение локально, открыв консоль рядом с app.py:\n",
+    "* `pip install streamlit`\n",
+    "* `streamlit run app.py --server.port 8080`\n",
+    "* открыть в браузере localhost:8080, если он не открылся автоматически\n",
+    "\n",
+    "\n",
+    "## __Deployment time!__\n",
+    "\n",
+    "В этот раз вам нужно не просто написать код, __но и поднять ваше приложение с доступом из интернета__. И да, вы угадали, это можно сделать несколькими способами: [HuggingFace spaces](https://huggingface.co/spaces) (данный способ разбирали на [семинаре](https://lk.yandexdataschool.ru/courses/2025-spring/7.1332-machine-learning-2/classes/13138/)), [Streamlit Cloud](https://streamlit.io/cloud), а ещё вы можете купить или арендовать свой собственный сервер и захоститься там.\n",
+    "\n",
+    "Проще всего захостить на HF spaces, для этого вам нужно [зарегистрироваться](https://huggingface.co/join) и найти [меню создания нового приложения](https://huggingface.co/new-space). Название и лицензию можно выбрать на своё усмотрение, главное чтобы Space SDK был Streamlit, а доступ - public.\n",
+    "\n",
+    "Как создали - можно редактировать ваше приложение прямо на сайте, для этого откройте приложение и перейдите в Files and versions, и там в правом углу добавьте нужные файлы.\n",
+    "\n",
+    "На минималках вам потребуется 2 файла:\n",
+    "- `app.py`, о котором мы говорили выше\n",
+    "- `requirements.txt`, где вы укажете нужные вам библиотеки\n",
+    "\n",
+    "Вы можете разместить там же веса вашей обученной модели, любые необходимые данные, дополнительные файлы, ...\n",
+    "\n",
+    "После каждого изменения файлов, ваше приложение соберётся (обычно 1-5 минут) и будет доступно уже во вкладке App. Ну или не соберётся и покажет вам, где оно сломалось. И вуаля, теперь у вас есть ссылка, которую можно показать ~друзьям~ ассистентам курса и кому угодно в интернете.\n",
+    "\n",
+    "__Удобная работа с кодом.__ Пока у вас 2 файла, их легко редактивровать прямо в интерфейсе HF spaces. Если же у вас дюжина файлов, вам может быть удобнее редактировать их в любимом vscode/pycharm/.../emacs. Чтобы это не вызывало мучений, можно пользоваться HF spaces как git репозиторием ([подробности тут](https://huggingface.co/docs/hub/spaces#manage-app-with-github-actions)).\n",
+    "\n",
+    "## __Что нужно сдать__\n",
+    "\n",
+    "Вы сдаёте проект, который будет проверяться вручную, то что ожидается от каждого проекта:\n",
+    "- Текстовое сопровождение вашего конкретного проекта в любом удобно читаемом формате (pdf, html, текст в lk, ...) - что за задачу вы решали, где/как брали данные, какие использовали модели, какие проводили эксперименты, ...\n",
+    "- Ссылка на веб интерфейс, где можно протестировать демо вашего проекта - обязательно проверяйте что работает не только у вас (с другого устройства и из под incognito режима)\n",
+    "- Код обучения вашей модели (желательно ipynb с заполненными ячейками и не стёртыми выходами, переведённый в pdf / html), но если вы обучали не в ноутбуке, то сдавайте код в виде файла / архива файлов / git ссылки с readme.md описанием того как именно проходило обучение с помощью этого кода.\n",
+    "\n",
+    "## __Оценка__\n",
+    "\n",
+    "Мы будем оценивать проект целиком, включая идею и реализацию. Максимум за проект можно получить 10 баллов, но мы оставляем ещё до 5 баллов, котор��е можем выдать как бонусные за особенно интересные и качественно реализованные проекты.\n",
+    "\n",
+    "### __Тонкие места, за которые могут быть снижения баллов:__\n",
+    "\n",
+    "__1. Скорость работы.__\n",
+    "\n",
+    "По умолчанию, streamlit будет выполняет весь ваш код на каждое действие пользователя. То есть всякий раз, когда пользователь меняет что-то в тексте, оно будет заново загружать модель. Чтобы исправить это безобразие, вы можете закэшировать подготовленную модель в `@st.cache`. Подробности в [семинаре](https://lk.yandexdataschool.ru/courses/2025-spring/7.1332-machine-learning-2/classes/13138/), а также [читайте тут](https://docs.streamlit.io/library/advanced-features/caching).\n",
+    "\n",
+    "__Как будет оцениваться:__\n",
+    "\n",
+    "Вы не обязаны пользоваться кэшированием, но ваше приложение не должно неоправдано тормозить дольше, чем на 3 секунды. \"Оправданые\" тормоза это те, которые вы явно оправдали текстом в ЛМС :)\n",
+    "\n",
+    "-----\n",
+    "\n",
+    "__2. Понятный фронтенд.__\n",
+    "\n",
+    "Наколеночный графический интерфейс с семинара - пример того, как скорее не надо делать интерфейс приложения. Как надо - сложный вопрос, причём настолько сложный, что есть даже [Школа Разработки Интерфейсов](https://academy.yandex.ru/schools/frontend). Но для начала:\n",
+    "\n",
+    "- Выводить нужно человекочитаемый текст, а не просто JSON с индексами и метаданными.\n",
+    "- Пользователю должно быть понятно, куда и какие данные вводить. Пустые текстовые поля в вакууме - плохой тон.\n",
+    "- Сервис не должен падать с не_отловленными ошибками. Даже если пользователь введёт неправильные/пустые данные, нужно это обработать и написать, где произошла ошибка.\n",
+    "\n",
+    "__Как будет оцениваться:__\n",
+    "\n",
+    "Для полного балла достаточно соблюсти эти три правила и специально не стрелять себе в ногу.\n",
+    "\n",
+    "-----\n",
+    "\n",
+    "__3. Код обучения и инференса.__\n",
+    "\n",
+    "Сдавая проект мы будем также получать от вас код проекта (как обучения ваших моделей, так и код веб интерфейса).\n",
+    "\n",
+    "__Как будет оцениваться:__\n",
+    "\n",
+    "Код не будет отдельно проверяться как часть задания, поэтому пишите как хотите, однако - в спорных ситуациях мы оставляем за собой право проверить ваш код, за чем могут последовать потенциальные снижения баллов при любых нарушениях.\n"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": []
+  }
+ ],
+ "metadata": {
+  "language_info": {
+   "name": "python"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 2
+}

pyproject.toml ADDED Viewed

	@@ -0,0 +1,15 @@

+[project]
+name = "opinionanalyzer"
+version = "0.1.0"
+description = "Add your description here"
+readme = "README.md"
+requires-python = ">=3.13"
+dependencies = [
+    "accelerate>=1.6.0",
+    "datasets>=3.5.0",
+    "evaluate>=0.4.3",
+    "ipykernel>=6.29.5",
+    "scikit-learn>=1.6.1",
+    "torch>=2.6.0",
+    "transformers>=4.50.3",
+]

uv.lock ADDED Viewed

The diff for this file is too large to render. See raw diff