You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

Model Card for Yougen/mm_multitask

Yougen/mm_multitask 是一个面向中文场景的通用多模态多任务模型,支持图像描述生成、视觉问答、图文检索、跨模态相似度计算等多种核心多模态任务。该模型基于Transformer架构构建,采用统一的跨模态注意力机制实现图像与文本的深度融合,在通用中文多模态基准上取得了良好的性能表现。

Model Details

Model Description

本模型专为中文多模态理解与生成任务设计,能够同时处理图像和文本输入,输出符合中文表达习惯的自然语言结果。模型采用编码器-解码器架构,图像编码器提取视觉特征,文本编码器处理文本输入,通过跨模态注意力层实现两种模态的信息交互与融合,最终由解码器生成对应的文本输出。

  • Developed by: Yougen (袁有根)
  • Funded by [optional]: [More Information Needed]
  • Shared by [optional]: Yougen (袁有根)
  • Model type: Multimodal Multitask Transformer Model
  • Language(s) (NLP): Chinese (zh)
  • License: Apache-2.0
  • Finetuned from model [optional]: [More Information Needed]

Model Sources [optional]

Uses

Direct Use

本模型可直接用于以下中文多模态任务,无需额外微调:

  • 图像描述生成:为输入图像生成准确、流畅的中文描述
  • 视觉问答:根据输入图像回答相关的中文问题
  • 图文相似度计算:计算图像与文本之间的语义相似度
  • 跨模态检索:根据文本查询检索相关图像,或根据图像查询检索相关文本
  • 图像分类(零样本):通过文本提示实现零样本图像分类

Downstream Use [optional]

本模型可作为基础模型进一步微调,适配以下特定领域和场景:

  • 电商领域:商品图像描述生成、商品属性提取、智能客服图文问答
  • 教育领域:教材插图解释、题目图文理解、智能作业批改
  • 医疗领域:医学影像初步分析、检查报告生成(需专业数据微调)
  • 传媒领域:新闻图片自动配文、视频内容理解与摘要生成
  • 工业领域:工业缺陷检测、设备状态识别与报告生成

Out-of-Scope Use

本模型不适用于以下场景:

  • 需要极高精度和专业资质的医疗诊断、法律文书生成等领域
  • 生成有害、虚假、违法或侵犯他人权益的内容
  • 非中文语言的多模态任务(如英文、日文等)
  • 处理极端模糊、严重损坏或内容不完整的输入图像
  • 涉及敏感政治、宗教、种族等话题的内容生成

Bias, Risks, and Limitations

技术局限性

  1. 训练数据覆盖范围有限,在小众领域、罕见场景或专业领域的表现可能不佳
  2. 对低分辨率、模糊、遮挡严重或光照条件差的图像处理效果较差
  3. 模型的逻辑推理能力有限,在复杂多步推理和长文本生成任务中可能出现错误
  4. 模型的上下文理解能力有限,过长的文本输入可能导致信息丢失

社会偏见与风险

  1. 模型可能继承训练数据中存在的社会偏见,在涉及性别、种族、地域、职业等敏感话题时可能产生不当输出
  2. 模型可能生成与事实不符的内容,使用时需进行事实核查
  3. 模型可能被滥用生成虚假信息、误导性内容或有害内容

Recommendations

用户(包括直接使用和下游开发者)应充分了解本模型的风险、偏见和局限性。在将模型用于生产环境前,应进行充分的测试和验证,特别是在涉及敏感领域和高风险场景时。建议在模型输出中添加适当的免责声明,并建立人工审核机制。同时,应遵守相关法律法规和伦理准则,不得将模型用于任何非法或不道德的用途。

How to Get Started with the Model

Use the code below to get started with the model.

from transformers import AutoProcessor, AutoModelForCausalLM
import torch
from PIL import Image

# 加载模型和处理器
processor = AutoProcessor.from_pretrained("Yougen/mm_multitask")
model = AutoModelForCausalLM.from_pretrained(
    "Yougen/mm_multitask",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# 示例1:图像描述生成
image = Image.open("example.jpg")
inputs = processor(images=image, text="描述这张图片:", return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=100)

caption = processor.decode(outputs[0], skip_special_tokens=True)
print("图像描述:", caption)

# 示例2:视觉问答
question = "图片中有什么物体?"
inputs = processor(images=image, text=question, return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=50)

answer = processor.decode(outputs[0], skip_special_tokens=True)
print("回答:", answer)

Training Details

Training Data

本模型使用大规模中文图文对数据集进行训练,涵盖通用领域的各类图像和文本内容,包括但不限于:

  • 日常场景图像与描述
  • 物体识别与分类数据
  • 视觉问答数据集
  • 图文检索数据集

训练数据经过严格的清洗和过滤,去除了低质量、重复和有害内容。具体使用的数据集列表及预处理细节待补充。

Training Procedure

Preprocessing [optional]

  • 图像预处理:将图像调整为固定尺寸,进行归一化处理,转换为模型输入所需的张量格式
  • 文本预处理:使用中文分词器对文本进行分词,添加特殊标记,进行截断和填充处理,转换为模型输入所需的张量格式

Training Hyperparameters

  • Training regime: bf16 mixed precision
  • Batch size: [More Information Needed]
  • Learning rate: [More Information Needed]
  • Epochs: [More Information Needed]
  • Optimizer: AdamW
  • Weight decay: [More Information Needed]
  • Warmup steps: [More Information Needed]

Speeds, Sizes, Times [optional]

  • Model size: [More Information Needed] parameters
  • Training time: [More Information Needed] hours
  • Checkpoint size: [More Information Needed] GB
  • Inference speed: [More Information Needed] samples/sec (on NVIDIA A100 80GB)

Evaluation

Testing Data, Factors & Metrics

Testing Data

本模型在以下中文多模态基准数据集上进行了评估:

  • COCO中文图像描述数据集
  • Flickr30k中文图像描述数据集
  • VQA-CN视觉问答数据集
  • 中文图文检索数据集

Factors

评估按以下维度进行:

  • 任务类型:图像描述、视觉问答、图文检索
  • 图像类型:自然场景、人物、物体、建筑等
  • 文本长度:短文本、中等长度文本、长文本

Metrics

  • 图像描述:BLEU-1/2/3/4、CIDEr、ROUGE-L、SPICE
  • 视觉问答:准确率(Accuracy)
  • 图文检索:Recall@1、Recall@5、Recall@10

Results

[More Information Needed]

Summary

[More Information Needed]

Model Examination [optional]

[More Information Needed]

Environmental Impact

Carbon emissions can be estimated using the Machine Learning Impact calculator presented in Lacoste et al. (2019).

  • Hardware Type: [More Information Needed]
  • Hours used: [More Information Needed]
  • Cloud Provider: [More Information Needed]
  • Compute Region: [More Information Needed]
  • Carbon Emitted: [More Information Needed]

Technical Specifications [optional]

Model Architecture and Objective

本模型基于Transformer架构构建,采用编码器-解码器结构:

  • 图像编码器:基于视觉Transformer(ViT)架构,提取图像的多尺度视觉特征
  • 文本编码器:基于BERT-like架构,处理文本输入并提取文本特征
  • 跨模态注意力层:实现图像特征与文本特征的双向交互与融合
  • 文本解码器:基于GPT-like架构,根据融合后的跨模态特征生成文本输出

模型的训练目标包括:

  • 图像描述生成的自回归语言建模损失
  • 图文对比学习损失
  • 视觉问答的分类损失

Compute Infrastructure

[More Information Needed]

Hardware

  • 训练硬件:NVIDIA A100 80GB GPU
  • 推理硬件:支持CUDA的NVIDIA GPU(推荐A100、L40、L20等)

Software

  • 深度学习框架:PyTorch 2.0+
  • 模型库:Transformers 4.30+
  • 数据处理库:Datasets 2.10+、Pillow 9.0+
  • 其他依赖:torchvision、numpy、tqdm等

Citation [optional]

BibTeX:

@misc{yougen2026mmmultitask,
  author = {Yougen Yuan},
  title = {mm_multitask: A Chinese Multimodal Multitask Model},
  year = {2026},
  publisher = {Hugging Face},
  howpublished = {\url{https://huggingface.co/Yougen/mm_multitask}}
}

APA: Yuan, Y. (2026). mm_multitask: A Chinese Multimodal Multitask Model. Hugging Face. https://huggingface.co/Yougen/mm_multitask

Glossary [optional]

[More Information Needed]

More Information [optional]

[More Information Needed]

Model Card Authors [optional]

Yougen (袁有根)

Model Card Contact

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for Yougen/mm_multitask