Multimodal Implementations - a prithivMLmods Collection

prithivMLmods 's Collections

Qwen Image Edit (Object-Manipulator)

Physical Long-Horizon Reasoning

Computer Use Agent [SFT] – December 15, 2025

Dynamic markdowns

Gliese VLMs Collection

Qwen3 VisionCaption

MetaCLIP2 Image Classification Experiments

GGUF Captioning VLMs

Kontext CAM Angles

Gliese OCR Post-x.0

Qwen VL Captions

Qwen3-VL Abliteration

General / Caption Abliteration

VLM 2.0 - Oct 08'25

MM: VLM-Parsing

Kepler Qwen (27/09)

LZO-1 (Lossless Zoom Operator)

Radiation Qwen/Llama (exp)

i2i - Kontext (exp)

VL caption — < Sep 15 ’25

Caption 3o — filtered

Qwen3 with DeepSeek v3.1 Traces

DeepCaption attr.

Mixed-Model Traces

LongCoT Experimental

Qwen-Image-Exp-LoRA

MoD Experimental !

Multimodal VLMs - Aug'25

Image Generation Apps [Collection]

VLMer Experimental 0818 / 0817

VL Abliterated-Caption

R1 Traces × Qwen3 Experiment

Qwen3-4B-2507-GGUF

Gargantua-R1 [MoD]

Vision-Language for Reasoning (VLr) - Lumian2

Flux.1-Krea-Merged-Schnell / Dev

Camel-Doc-OCR-080125

Flux.1-Krea-Merged-Dev

Vision-Language for Reasoning (VLr)

Multimodal VLMs - Until July'25

rVL and Captioning Models

Explora x Poseidon Reasoning

Poseidon Reasoning

Open-Omega : Exp

Open-Omega: A Fusion of Math, Science, and Coding

Captioning / OCR / DocTable

Corvus-OCR-Caption-Mix

07/11 ~ Visual Understanding

Re-think SmolLM

Behemoth Tiny Thought [exp vl]

SigLIP2 070225, 070125

Doc VL

VisionScope OCR Experimentals

Tron Experimentals

Blitzar Experimentals

GCIRS Reasoning Qwen

MoT Experimental Reasoning Traces R1

Open Voice Classification

Open Classification 2805

Captioning, OCR

Edge LLM Variants x2

Disaster Classification Approach Exp

Cortex Dual ~ DiMind

Galactic (Sombrero) Opus R1

Qwen_3 Experimental-2

Open classifiers

Explicit Content Filters

OpenG

OpenSDI Diffusion-Generated Image Classification

Multiclass Image Classification 05142025

Qwen_3 Experimental

QWQ_Qwen3 R1 LCoT

QWQ_Qwen3 Fine-Thinking

SigLIP2 05102025

Content Filters SigLIP2/ViT

Core & DocScope OCR Models

SigLIP2 Content Filters 052025 Patch 1

Qwen3 Moderate Behavioral Flexibility

SigLIP2 Content Filters 042025 Final

General Optimization Problems [ RPO ] for Reasoning !

Multilabel Image Classification Datasets

Edge Device LLM - Advanced RL v3

Edge supervised fine-tuning (SFT)

SigLIP2 Content Filters - Models v.2

Edge LLM - Advanced RL v2

Edge LLM - Advanced RL

Mini Galactic Qwen X RL - Edge Device Models

Galactic LLM Exp4

Y.2 Galactic Qwen

Fashion Product Full Net Experimentals

Galactic LLM Exp 3

SigLIP2 Content Filters - Models v.1

SigLIP2 Content Filters - Datasets

Multi-Source Experimentals

Messy OCR's - VL 2B

Clean / Radio : Mono Voice

Galactic Qwen Exp 2

Galactic Qwen Exp

Image Classification Exp 032025

Abliterated Edge Device LLM's

LLM's >=40 Avg [14B]

Galactic Qwen 14B's Test

Full-entry fine-tuning of SigLIP2

14B Perceived Pattern

Multimodal Implementations

Sombrero QwQ Elite

Midranger Experimentals

r999

Opus + Elite Optimized

Viper-Hybrid-Coder

Deepfake Classification 022025

Image Annotation & Captioning

Purposeful Conversational Models 🚅

Coder Models Equilibrium 🧑🏻‍💻

Deepfake Quality Assess Datasets

Reasoning is all you need 🌠

Deepfake Quality Assessment

Optimus Reasoning

Bellatrix Tiny 🤏🏻

Reasoning Exp Domain Models 🧠

Reasoning Saturations🫙

Opus Elite 💭

Vision Infer Custom

Phi-4 Custom FT

QwQ Reasoning 🐤

PyThagorean 🐍

Calcium-Opus 💬

LwQ -Llama 🦙

Omni Reasoner📒

GWQ

Triangulum Series

Deepthink and Reasoning

Vision Language Models

Custom Build Models

Stranger Zone Collections [ Org ]

GPT-Generated Unified Format (GGUF)

SD 3.5 Large LoRA

LoRA Space Collections

Collection Zero & Demo ( Recently Updated )

SDXL Dev Models

Flux LoRA Collections

Multimodal Implementations

updated 12 days ago

Comprehensive Demo of Multimodal VLMs on the Hub