Skip to content

[E5-05] (Opcional) Fine-tuning de un clasificador de clickbait local #58

@g-garciac2022

Description

@g-garciac2022

Épica: E5 — Núcleo NLP: backend local, incoherencia y explicabilidad
Orden de ejecución: 5/5 — mejora opcional.

Objetivo

Ajustar (fine-tuning) un modelo pequeño (DistilBERT / BERT-base) sobre un dataset de clickbait como alternativa/mejora al zero-shot actual.

Por qué

Un modelo entrenado sobre clickbait suele superar al zero-shot genérico, y da un detector propio bajo control (alineado con E5-01, backend local), sin depender de que HF sirva uno.

Criterios de aceptación

  • Dataset de clickbait (p. ej. Webis Clickbait Corpus / SemEval-2017, citado en la memoria).
  • Fine-tuning de DistilBERT/BERT-base (titulares cortos, max_len ~64, fp16).
  • Evaluación comparada vs. el zero-shot (accuracy / F1).
  • Servir el modelo resultante por el backend local (E5-01).

Viabilidad de cómputo (equipo actual)

  • Local: viable en la GTX 1650 SUPER (4 GB) con DistilBERT + titulares cortos + mixed precision.
  • Alternativa: entrenar en Google Colab (T4 gratis), descargar pesos, inferir en local.

Trazabilidad

Requisito R3.2 (mejora del detector de clickbait).

Dependencias

Opcional. Tras E5-01 (para servir local). Se beneficia de cómputo del tutor, pero no lo necesita (Colab cubre).

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or requestepic:E5-nlp-explicabilidadNucleo NLP avanzado: backend local, incoherencia y explicabilidad

    Type

    No type
    No fields configured for issues without a type.

    Projects

    Status
    Todo

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions