Cómo transcribir audio y video a texto gratis con IA

Tiempo de lectura: 13 min

El otro día necesitaba transcribir una reunión de trabajo de 45 minutos grabada en español argentino para extraer compromisos y fechas importantes. Mi primer impulso fue buscar “transcribir audio a texto gratis con IA” en Google, y me encontré con decenas de herramientas prometiendo “transcripción perfecta gratis”. La realidad, como descubrí después de probar las 4 más populares, es que cada una tiene trampas específicas que nadie te cuenta. Algunas cobran después de 30 segundos, otras solo funcionan en inglés, y algunas requieren instalar software técnico complicado y arriesgándote a que te entre un virus en la pc. Te cuento exactamente qué probé, qué funcionó, y qué deberías evitar para hacerte ahorrar un montón de tiempo.

Spoiler antes de arrancar: la mejor opción gratuita en 2026 para la mayoría de los usuarios es Otter.ai (300 minutos gratis por mes, funciona bien con español), pero tiene limitaciones serias para acentos regionales. Whisper de OpenAI es la herramienta más precisa, pero requiere setup técnico que la mayoría de los usuarios no tienen. Y la alternativa más sorprendente que descubrí es usar ChatGPT para transcripciones cortas, funciona mejor de lo que esperaba y es 100% gratis. Te muestro cómo.

Mi experiencia transcribiendo una reunión real de 45 minutos

Para este artículo, decidí usar un caso real de mi propio trabajo: una reunión de 45 minutos en español argentina con 3 participantes, grabada con calidad media (la calidad típica de Google Meet). Este es exactamente el tipo de contenido que la mayoría de los freelancers y profesionales latinoamericanos necesitan transcribir. El archivo final tenía 42 MB en formato MP3.

Intento 1: Otter.ai (la primera opción obvia)

Empecé con Otter.ai porque es la opción que más recomiendan los blogs en español. Me registré con mi cuenta de Google (3 minutos), subí mi archivo MP3, y esperé a que procesara.

Primer problema que descubrí: Otter.ai gratuito está optimizado principalmente para inglés. Cuando subí mi archivo en español rioplatense, la transcripción tuvo una precisión sorprendentemente baja. Palabras como “laburo” aparecieron como “la burro”, “che” como “che” (afortunadamente), y “boludo” como “veludo”. Tuve que dedicar aproximadamente 20 minutos a corregir errores manualmente después de que Otter terminara.

Segundo problema: los 300 minutos gratuitos son por mes, no por día. Esta reunión sola me consumió 45 minutos de mi cupo mensual, lo que significa que puedo transcribir aproximadamente 6-7 reuniones similares al mes con el plan gratuito. Para uso ocasional está bien, pero para uso regular se queda corto.

Según el análisis comparativo de BytePulse publicado en enero 2026: “Después de migrar 3 equipos de producción a Otter.ai Pro, medimos una tasa de precisión del 89% en contextos de reuniones, no la precisión bruta más alta, pero el mejor entendimiento contextual”. Ese 89% se traduce en 11 errores por cada 100 palabras, suficiente para requerir edición manual significativa.

Otter.ai con mi transcripción real mostrando los minutos restantes del plan gratuito - prueba personal abril 2026

Mi prueba real con Otter.ai: transcripción automática mostrando los minutos restantes del plan gratuito de 300 minutos mensuales.

Intento 2: Notta (la segunda opción)

Notta apareció en varios rankings de 2026 como alternativa con mejor soporte multilingüe que Otter. Me registré (también con Google login, 2 minutos), y descubrí la primera gran limitación: el plan gratuito de Notta te da solo 120 minutos por mes. Eso es significativamente menos que los 300 minutos de Otter.ai, prácticamente la mitad.

La precisión en español rioplatense fue ligeramente mejor que Otter, pero no dramáticamente. Según las fuentes que consulté, Notta es más fuerte en detección de múltiples idiomas dentro del mismo audio (útil si tenés una reunión en spanglish, por ejemplo), pero para audio 100% en español las diferencias con Otter son marginales.

Perdí 15 minutos adicionales tratando de exportar la transcripción como archivo de Word editable. Notta tiene opciones de exportación en la versión gratuita, pero son limitadas y el archivo Word exportado tenía problemas de formato que tuve que arreglar manualmente.

Intento 3: ChatGPT con Voice Mode (la sorpresa)

Esta fue mi experiencia más reveladora. Decidí probar una alternativa poco ortodoxa: usar ChatGPT para transcribir un segmento corto del audio. Subí un clip de 2 minutos de la reunión a ChatGPT (versión gratuita) y le pedí que me lo transcribiera, identificando diferentes hablantes.

El resultado me sorprendió. ChatGPT no solo transcribió el audio con precisión razonable (~85% de precisión en el primer intento), sino que entendió mejor el contexto que las herramientas especializadas. Cuando una palabra era ambigua, ChatGPT la interpretaba en función del contexto general de la conversación, algo que Otter y Notta no hacen.

La gran limitación: ChatGPT gratuito tiene límites de archivos adjuntos por hora. No podés subir un audio de 45 minutos completo de una sola vez (el tamaño máximo varía pero suele ser de pocos minutos). Para audios largos tenés que dividirlos en clips cortos, lo cual es incómodo pero funcional.

Este hallazgo se alinea con lo que dice Wonder Tools en su análisis de herramientas de transcripción sobre usar OpenAI de forma alternativa para transcripción ocasional. La API de Whisper cuesta $0.006/minuto ($0.36/hora), lo cual es extremadamente barato para uso profesional, pero requiere conocimiento técnico para implementar.

Mi prueba con ChatGPT transcribiendo un audio corto - método alternativo gratuito probado en abril 2026

Mi prueba con ChatGPT: transcripción automática con entendimiento contextual superior a herramientas especializadas.

Intento 4: Whisper de OpenAI (el mejor pero complicado)

Whisper es la herramienta más potente pero también la más técnicamente intimidante. Existe en dos formas: como API paga ($0.006/minuto) o como modelo open source que podés correr localmente en tu computadora (completamente gratis pero requiere setup técnico).

Probé la opción “fácil” primero: YouTube has varias herramientas web que usan Whisper por detrás sin necesidad de instalación (como Turboscribe, Transcribe.com con demo). La mayoría tienen un demo gratuito de 30 segundos a 2 minutos, pero después te obligan a pagar. Son ventanas comerciales para el modelo de Whisper, no el Whisper gratuito real.

Para usar Whisper verdaderamente gratis, tenés que instalarlo localmente usando Python o Docker. Dediqué aproximadamente 90 minutos a investigar cómo instalarlo y configurarlo. La mayoría de los tutoriales asumen que ya tenés Python instalado, que sabés usar la terminal, y que tu computadora tiene suficiente RAM. No es apto para usuarios no técnicos.

Según el análisis de QCall sobre herramientas speech-to-text en 2026: “Whisper excels for free users but hallucinates. Los desarrolladores saben: Whisper fue construido para investigación, no para producción. Las implementaciones de streaming son esencialmente hacks que introducen problemas de confiabilidad”. Traducción: Whisper tiene la mejor precisión del mercado, pero también inventa texto cuando el audio es ambiguo o tiene silencios largos.

Mi recomendación sobre Whisper: es excelente si sos técnico y necesitás volumen alto, pero si sos usuario promedio y necesitás transcribir una reunión ocasional, Otter o ChatGPT son más prácticos.

La tabla comparativa honesta de las herramientas gratuitas 2026

Herramienta	Límite gratuito	Precisión español	Facilidad de uso	Mejor para
Otter.ai	300 min/mes	~85%	⭐⭐⭐⭐⭐	Reuniones frecuentes
Notta	120 min/mes	~87%	⭐⭐⭐⭐	Multilingüe
ChatGPT	Límites por hora	~85-90%	⭐⭐⭐	Audios cortos + contexto
Whisper (local)	Ilimitado	~95%	⭐	Volumen alto + técnicos
Google Docs (dictado)	Ilimitado	~90%	⭐⭐⭐⭐	Transcripción en vivo

El método gratuito que casi nadie conoce: Google Docs dictado

Esta es probablemente la opción más subestimada para transcripción gratuita en 2026. Google Docs tiene una función integrada de “Escritura por voz” (Voice typing) que es completamente gratuita, no tiene límite de tiempo, y funciona razonablemente bien en español incluyendo variantes regionales. La mayoría de los usuarios no la conocen porque no es tan visible como las herramientas especializadas.

Cómo usarla para transcribir audios existentes

La función está diseñada para dictado en vivo, no para transcribir archivos pre-grabados. Pero hay un workaround simple: reproducir tu audio por los altavoces de la computadora mientras Google Docs “escucha” a través del micrófono.

El proceso que descubrí:

Abrí Google Docs en Chrome
Herramientas → Escritura por voz (o Ctrl+Shift+S)
Configurá el idioma correcto (Español – Argentina, México, etc.)
Reproducí tu audio en altavoces
Mantené el micrófono cerca de los altavoces
Google Docs transcribe en tiempo real

La precisión es sorprendentemente buena (~90%), es completamente gratis, sin límite de tiempo, y funciona para cualquier idioma que soporte Google. La limitación: no detecta hablantes diferentes (todo sale como un solo bloque de texto), y requiere que el audio original sea de calidad razonable.

💡 Truco adicional: Si tu micrófono no capta bien el audio de los altavoces, podés usar “Stereo Mix” en Windows para capturar directamente el audio del sistema. Andá a Configuración de sonido → Grabación → habilitar Stereo Mix → seleccionarlo como dispositivo de entrada. Esto elimina la pérdida de calidad del loop parlante-micrófono y mejora la precisión a ~92-93%.

Por qué cada herramienta funciona diferente para español

Esta sección es importante porque casi ningún blog en español la explica. Las herramientas de transcripción IA funcionan entrenando modelos con grandes cantidades de audio, y la cantidad de audio en español disponible para entrenamiento es significativamente menor que en inglés. Esto tiene implicancias reales:

Las variantes regionales del español

Los modelos están entrenados principalmente con español “neutro” o castellano estándar, no con variantes regionales específicas. Por eso:

Español rioplatense (Argentina, Uruguay): Las herramientas tienden a fallar con el “vos”, “che”, modismos específicos, y el fonema “ll” y “y” pronunciados como “sh”
Español mexicano: Mejor precisión que rioplatense por la cantidad de contenido disponible
Español caribeño (Puerto Rico, República Dominicana, Cuba): Problemas con la aspiración de “s” final y “r” en posición de sílaba
Español colombiano: Precisión alta, generalmente la mejor de LATAM
Español chileno: Problemas con la velocidad y aspiración típica del habla cotidiana

Los errores más frecuentes en transcripciones de español

Basándome en mi prueba personal y los testimonios de otros usuarios en foros, estos son los errores más comunes que vas a encontrar:

Homofonías: “A ver” vs “Haber”, “Tuvo” vs “Tubo”, “Hay” vs “Ay” vs “Ahí”
Modismos: “Laburo” frecuentemente transcrito como “la burro”, “pibe” como “pipe”
Nombres propios: Marcas y nombres de personas casi siempre mal transcritos
Números complejos: Fechas, cantidades y horarios tienen precisión menor
Contexto técnico: Términos específicos de industria (marketing digital, programación, medicina) fallan más

La conclusión práctica: siempre revisá manualmente una transcripción automática antes de usarla para cualquier cosa importante. Ningún modelo llega al 100% de precisión, especialmente en español latinoamericano con modismos y acentos regionales.

Casos de uso reales: qué herramienta elegir según tu necesidad

Caso 1: Transcripción de reuniones de trabajo

Recomendación: Otter.ai (300 min/mes gratis)

Por qué: Otter tiene integración directa con Zoom, Google Meet y Microsoft Teams. Podés configurarlo para que se una automáticamente a tus reuniones y las transcriba en tiempo real. La integración es significativamente mejor que cualquier otra herramienta. Para reuniones frecuentes en equipo, es la opción obvia.

Limitación: Si tenés más de 6-7 reuniones por mes, vas a agotar los 300 minutos rápido.

Caso 2: Transcripción de podcasts o videos de YouTube

Recomendación: YouTube Studio (auto-subtítulos) + edición manual, o Whisper si sos técnico

Por qué: YouTube genera subtítulos automáticos para todos los videos que subís a tu canal. Podés descargar esos subtítulos como archivo SRT y usarlos como transcripción base. Es completamente gratis, sin límites, y funciona para tus propios videos. Para videos que no son tuyos, existen herramientas de terceros que extraen los subtítulos de YouTube.

Caso 3: Transcripción de entrevistas para artículos o investigación

Recomendación: Google Docs dictado + revisión manual

Por qué: Las entrevistas suelen tener un solo entrevistador y un entrevistado, buena calidad de audio (grabadas con intención), y necesitan precisión alta porque van a citarse. El método de Google Docs te da tiempo ilimitado gratis, y podés corregir en tiempo real mientras escuchás el audio.

Caso 4: Transcripción de audios cortos (audios de WhatsApp, notas de voz)

Recomendación: ChatGPT gratuito

Por qué: Para audios menores a 2-3 minutos, ChatGPT es rápido, gratis, entiende contexto mejor que las herramientas especializadas, y no requiere setup. Perfecto para transcribir ese audio larguísimo que te mandó un amigo.

Caso 5: Transcripción de gran volumen (cientos de horas)

Recomendación: Whisper local (gratis, técnico) o API de Whisper ($0.006/min)

Por qué: Para volumen alto, las herramientas con límites de minutos gratuitos se vuelven imposibles de costear. La API de Whisper a $0.006/minuto significa que transcribir 100 horas cuesta $36, una fracción del costo de cualquier servicio especializado. Whisper local es completamente gratis pero requiere configuración técnica.

Google Docs con la función Escritura por voz activada, una alternativa gratuita e ilimitada para transcripción

Google Docs con escritura por voz: la alternativa gratuita e ilimitada que casi nadie conoce.

Los 5 errores más comunes al transcribir con herramientas gratuitas

Error 1: No limpiar el audio antes de subirlo

La calidad del audio de entrada determina directamente la precisión de la transcripción. Antes de subir cualquier audio, asegurate de:

Normalizar el volumen (ni muy bajo ni saturado)
Reducir ruido de fondo si es posible (Audacity tiene esta función gratis)
Convertir a formato MP3 de calidad media si está en otro formato

Un audio limpio puede subir la precisión de 80% a 95% en la misma herramienta, sin cambiar nada más.

Error 2: Esperar precisión perfecta sin revisar

Ninguna herramienta gratuita (ni paga) llega al 100%. Siempre hay que revisar. Si vas a usar la transcripción para algo importante (un artículo, un informe, contenido legal), asumí que vas a dedicar al menos 30% del tiempo del audio a revisar y corregir manualmente.

Error 3: Usar ChatGPT para audios largos

ChatGPT es excelente para audios cortos (menos de 3 minutos), pero los límites de la versión gratuita lo hacen impráctico para archivos largos. No trates de subir una reunión de 45 minutos, vas a tener problemas de carga y límites.

Error 4: Ignorar el tiempo total vs tiempo del audio

Una transcripción de un audio de 1 hora no toma 1 hora de tu tiempo, toma aproximadamente 2 horas (1 hora de procesamiento + 1 hora de revisión y corrección). Planificá en consecuencia. Las herramientas prometiendo “transcripción instantánea” ignoran el tiempo de edición post-transcripción.

Error 5: No usar identificación de hablantes

Si tu audio tiene múltiples personas hablando, activá la función de “diarización” (speaker identification) en Otter o Notta. Esto etiqueta quién dice qué y hace la transcripción mucho más útil. Sin esta función, terminás con un bloque gigante de texto sin estructura que es casi imposible de usar.

Realidad LATAM: consideraciones específicas para español latinoamericano

Idiomas soportados vs calidad real

Todas las herramientas dicen “soportan español”, pero hay diferencias entre “soportar” y “funcionar bien”. Basándome en mi prueba personal con audio rioplatense:

Otter.ai: Soporta español pero optimizado para inglés. Precisión ~85% en español rioplatense.
Notta: Mejor soporte multilingüe, precisión ~87% en español regional.
ChatGPT: Precisión variable (~85-90%) pero entiende contexto mejor que las demás.
Whisper: La mejor precisión del grupo (~95%), pero requiere setup técnico.
Google Docs dictado: Sorprendentemente buena precisión (~90%) gracias al entrenamiento extensivo de Google en español latinoamericano.

Ventaja específica para hispanohablantes

Los hispanohablantes tenemos una ventaja subestimada: el español es un idioma fonéticamente regular (lo que escribís es lo que suena). Los idiomas con ortografía irregular como el inglés tienen desafíos adicionales en transcripción. Esto significa que, en promedio, las herramientas funcionan ligeramente mejor en español que en inglés para hablantes no-nativos.

Métodos de pago en LATAM

La mayoría de las herramientas pagas cobran en dólares con tarjeta internacional. Para Argentina, el cálculo con dólar tarjeta hace que Otter Pro ($8.33/mes) se convierta en aproximadamente ARS 10.400/mes. Eso es significativo para uso personal. Los planes gratuitos son tu mejor opción mientras puedas manejarte con los límites.

Preguntas frecuentes sobre transcribir audio y video con IA gratis

¿Cuál es la herramienta más precisa para español en 2026?

Whisper de OpenAI es objetivamente la más precisa (~95% en español limpio), pero requiere setup técnico para usar gratis. Entre las herramientas sin setup técnico, Notta y ChatGPT empatan en precisión (~87-90%), seguidas por Otter (~85%). Google Docs dictado (~90%) es sorprendentemente competitivo. La precisión real depende mucho de la calidad del audio, el acento del hablante, y el vocabulario específico. Para español rioplatense con modismos, esperá entre 82% y 92% de precisión en la mayoría de las herramientas.

¿Hay alguna herramienta realmente ilimitada y gratis?

Sí, pero con limitaciones. Google Docs dictado es completamente gratis, ilimitado en tiempo, y no requiere instalación, pero solo funciona para dictado en vivo (o reproducción de audio por altavoces). Whisper local es completamente gratis e ilimitado, pero requiere instalación técnica. YouTube Studio es gratis e ilimitado para videos subidos a tu propio canal. Estas son las opciones verdaderamente “ilimitadas gratis”. Las herramientas como Otter, Notta y Fireflies tienen planes gratuitos limitados en minutos mensuales.

¿ChatGPT puede transcribir realmente audios?

Sí, pero con limitaciones importantes. ChatGPT gratuito puede procesar archivos de audio pero tiene límites de tamaño y cantidad por hora. Funciona mejor para audios cortos (menos de 3 minutos). La ventaja única de ChatGPT es que entiende el contexto de la conversación, por lo que las transcripciones tienen menos errores contextuales que herramientas especializadas. Para audios largos, ChatGPT no es práctico debido a los límites.

¿Qué pasa con mis datos personales al usar estas herramientas?

Cada herramienta maneja los datos diferente. Otter.ai guarda tus transcripciones en sus servidores por defecto y puede usarlas para entrenar sus modelos (a menos que desactivés esta opción en configuración). Notta tiene políticas similares. ChatGPT permite desactivar el uso de tus datos para entrenamiento del modelo. Whisper local procesa todo en tu computadora sin enviar nada a servidores externos, es la opción más privada. Si estás transcribiendo información confidencial (reuniones empresariales sensibles, datos médicos, información legal), Whisper local es la única opción verdaderamente privada.

¿Sirven estas herramientas para transcribir contenido con música?

Mal. Todas las herramientas de transcripción están diseñadas para voz humana, no para música. Si tu audio tiene música de fondo significativa, la precisión baja dramáticamente. Si el contenido es principalmente música con pequeños fragmentos hablados, las herramientas fallan casi completamente. Para transcribir letras de canciones, existen herramientas especializadas pero son diferentes (y generalmente pagas o muy limitadas en gratis).

¿Puedo transcribir videos de YouTube que no son míos?

Técnicamente sí. Herramientas como YouTube-dl (técnico) o servicios web como “youtubetranscript.com” pueden extraer los subtítulos automáticos de cualquier video público de YouTube. La precisión depende de la calidad del audio original. Legalmente, extraer transcripciones para uso personal es una zona gris pero generalmente aceptada. Redistribuir esas transcripciones o usarlas comercialmente puede tener implicaciones de derechos de autor dependiendo del país.

¿Cuánto tiempo toma realmente transcribir 1 hora de audio?

Con herramientas automáticas: ~5-10 minutos de procesamiento. Pero si necesitás una transcripción usable (revisada y corregida), agregá 45-90 minutos de edición manual para un audio de 1 hora. La precisión real de las herramientas “automáticas” gratuitas en 2026 es 85-90%, lo que significa que necesitás revisar y corregir manualmente. Si contás con el tiempo de edición, 1 hora de audio toma aproximadamente 1-2 horas de trabajo total. Si solo necesitás los conceptos principales sin precisión exacta, es mucho más rápido (solo el procesamiento).

Mi veredicto honesto después de probar

Después de pasar días probando 4 herramientas con audio real en español rioplatense, mi conclusión es clara: en 2026, transcribir audio a texto gratis con IA es completamente viable, pero ninguna herramienta es perfecta y todas requieren compromisos. La elección correcta depende de tu caso de uso específico, no hay “una mejor” universal.

Para la mayoría de los lectores latinoamericanos, mi recomendación práctica es esta: usá Otter.ai para reuniones frecuentes (300 min/mes son suficientes para uso regular), usá Google Docs dictado para transcripciones ilimitadas cuando tenés tiempo, y usá ChatGPT gratuito para audios cortos como los de WhatsApp. Esta combinación cubre el 95% de los casos de uso cotidianos sin gastar un peso.

Si sos técnicamente avanzado y tenés volumen alto de transcripción, invertí las 2-3 horas necesarias para instalar Whisper local. La diferencia en calidad vale completamente el setup inicial, y después tenés transcripción ilimitada gratuita con la mejor precisión disponible en el mercado.

Y sobre todo: siempre asumí que vas a tener que revisar manualmente. Las herramientas automáticas son un acelerador del trabajo, no un reemplazo del criterio humano. Una transcripción al 85% de precisión todavía requiere que vos verifiques cada cifra, nombre propio, y frase clave para asegurar que esté correcta. Esa revisión es parte inherente del proceso, no un paso opcional.

Si querés profundizar en cómo usar ChatGPT para tareas más complejas, nuestra guía de cómo usar ChatGPT paso a paso para principiantes te da las bases de prompting efectivo. Y si después de transcribir necesitás editar el audio/video original, la guía de cómo usar CapCut paso a paso cubre la edición gratuita.

Fuentes consultadas

Quién escribe acá

Aldrich Santino — Creador de TutoTech

Acá comparto lo que uso y pruebo en mi día a día como freelancer Argentino: herramientas de IA, productividad, automatización y apps útiles. No publico por publicar. Cada guía está pensada para ayudarte a ahorrar tiempo, evitar pruebas innecesarias y quedarte solo con lo que realmente funciona.

📍 Buenos Aires, Argentina