Início Mundo Idéia incrível de que a geração de IA pode usar imagens visuais...

Mundo

Idéia incrível de que a geração de IA pode usar imagens visuais de texto em vez de texto puro como texto puro

Por

25 Outubro 2025

Pronto para uso, não baseado em texto, ao explorar LLMS limpo, por meio de texto, não de texto puro.

getty

Na coluna de hoje, examino a ideia de inovação que precisamente vira de cabeça para baixo o design tradicional de IA e materiais de produção em larga escala (LLMS). Simplificando, aceite o conceito bash em vez da conta Exilder Ai, aceite o texto simples, o texto foi salvo primeiro como uma imagem e as imagens foram alimentadas para Aishini.

Dizer o que?

Para quem se tornou técnico oficial do LLMS, parece ser esse o caso. Você já deve ter dito em voz alta que isso não faz sentido. É por isso. Um LLM é projetado para lidar com línguas naturais como o inglês e, portanto, usa aumento de texto. O texto é a forma como normalmente inserimos solicitações e colocamos nossas perguntas no LLMS. Optar por usar imagens de texto, no lugar do texto real, deve ser um conceito falso. Blasfêmia.

Segurem-se, porque alguns pesquisadores sérios testaram a relação e há força suficiente nela para que possamos levar a sério a fuga.

Vamos conversar sobre isso.

Esta análise avançada da IA faz parte da cobertura da minha coluna Adver na AATES, incluindo a identificação dos desafios mais influentes da IA (ver link aqui).

A tokenização é importante

O cerne da questão são os aspectos emergentes da IA e do LLMS. Abordei os detalhes encontrados aqui. Fornecerei uma visão geral rápida para mantê-lo atualizado.

Quando você insere texto na IA, o texto será convertido em números diferentes. Esses números serão considerados após todo o restante do processamento da sua inscrição. Depois de obter a resposta, a resposta está na verdade em formato digital e precisa ser convertida em texto, então leia o usuário. O truque é converter os números em texto e exibir a resposta proporcionalmente.

Este processo é conhecido como acordo. O texto inserido será convertido em um conjunto de números. Os números referem-se a imagens. Os números ou dizemos que fluem da IA e são usados para determinar as respostas às suas perguntas. A resposta está originalmente em caracteres numéricos e deve ser convertida em texto.

Felizmente, o usuário comum é indiferente ao processo de fumar. Eles não precisam saber disso. O tema é de grande interesse para os desenvolvedores, mas pouco interesse para o público em geral. Todos os tipos de fraude digital muitas vezes funcionam e tentam concluir o processo de identificação o mais rápido possível, para que não seja realizado durante a criptografia e descriptografia que deveria ocorrer.

Os sinais são um problema

Observei que o público em geral geralmente desconhece os aspectos sequenciais do LLMS. Nem sempre é esse o caso. Qualquer pessoa que tenha ultrapassado seus limites provavelmente se ressentirá dos tokens e da tokenização.

O acordo é este.

A maioria dos LLMS modernos, como Cloupai, GPALPAIL, Meta 5, Meta llame google, Google Gemini, produtos xai, porque podem funcionar simultaneamente. Quando o chattanpppppppppppppppppppppppp não estava em cena, o número de caracteres permitidos em uma única conversa era muito limitado.

Você tocou nessa discussão com Boxes, de repente você não conseguia se lembrar das partes anteriores da sua conversa. Foi a tal ponto que o muro indicou que existem vários sinais ativos ao mesmo tempo. Os sintomas anteriores à sua conversa desapareceram completamente.

Se você tivesse alguma conversa complexa e de longo prazo, essas limitações eram muito bonitas e muitas coisas foram destruídas pelo conteúdo do tempo excessivo de geração de IA. Você estava limitado a conversas relativamente curtas. Surgiu quando você fez login por meio de um método como este (veja minha discussão no link aqui). O texto teve que ser predestinado e novamente calculado em relação aos óculos para ver quais caracteres ativos ele poderia suportar.

Incomodou quem sonhava em usar geradores para resolver problemas.

Os limites são mais altos, mas ainda existem

Esta versão inicial de adesão foi limitada a 10.000 tokens que poderiam estar ativos a qualquer momento. Se você estiver procurando por um sinal que expresse uma palavra pequena, como “cachorro” ou “cachorro”, verá quando sua conversa tiver consumido cerca de dez mil palavras simples. Esta noite foi para uso complexo ou de longo prazo.

Hoje, a versão tradicional do GTR-5 Taunot possui um contexto contextual de cerca de 400 mil séries. Qual é a capacidade geral relacionada aos sinais e sintomas da saída. Os tamanhos das janelas de contexto podem variar. Por exemplo, Claude tem cerca de 200.000 wikipedias sobre alguns de seus modelos, enquanto outros chegam a cerca de 500.000 séries.

A visão de futuro é que não haja restrições quanto à sinalização permitida. Funciona com memória infinita ou IA infinita, que é muito ativa em qualquer personagem. É claro que, em um sentido prático, existe apenas uma quantidade limitada de memória de servidor; Portanto, não é realmente infinito, mas a afirmação é boa e razoável. Para minha explicação de como a IA funciona, veja o link aqui.

Problema de token

Como a orientação está em CRUX, onde a maioria dos LLMs foram desenvolvidos e utilizados, ela foi revisada para testar e otimizar rigorosamente aspectos da abordagem. O objetivo é fazer com que as ondas sejam as menores possíveis, se possível, pela presença de ondas existentes que possuam mais sinais, em cujo limite de memória, o sistema existe.

Os designers de IA tiveram que compactar caracteres repetidamente. Isso pode ser uma grande ajuda. Embora a janela existente possa ser normalmente limitada a apenas 200.000 tokens, se você reduzir cada símbolo para metade de seu tamanho normal, poderá dobrar a série de 400.000 de 400.000. OK.

Um problema é a irritação associada à compressão dos sintomas. Na maioria das vezes, sim, você pode mergulhá-los até o tamanho inferior, mas exatamente quando você faz isso. Isso é ruim. Isso pode significar que eles ainda são funcionais e contáveis, o que não é tão ruim. Tudo depende de quanto é sacrificado.

Idealmente, você deseja compactação máxima e 100% de precisão no tempo de retenção. Este é um objetivo elevado. Provavelmente, você precisará pesar o nível de compactação em relação à precisão. Como acontece com a maioria das coisas na vida, nunca há almoço.

Ganhar

Suponha que nos permitamos pensar fora da caixa.

A abordagem usual com LLMS é aceitar texto simples, quebrar o texto em linhas e continuar nosso caminho alegre. Quase sempre processamos nossos pensamentos sobre fumar de uma forma tão lógica e natural que a entrada do usuário seria um texto simples. Eles inserem texto por meio do teclado e o texto é convertido em caracteres. Esta é a abordagem correta.

Pense no que podemos fazer.

Olhando para o campo esquerdo, suponha que tratamos o texto como uma imagem.

Você já sabe que pode receber texto e se ele será digitalizado opticamente e salvo como imagem ou posteriormente convertido em texto. O processo é uma prática de longo prazo conhecida como OCR (reconhecimento óptico de caracteres). OCR existe em todo o mundo desde os primeiros dias dos computadores.

O processo usual de OCR OCR consiste em converter imagens em texto e é rotulado com texto. Às vezes você pode fazer o contrário, ou seja, você tem texto e deseja converter o texto em imagens, que é o processamento de texto. Existem muitos programas de software disponíveis que convertem prontamente texto em texto e texto em imagem. É uma linha antiga.

Aqui está uma ideia maluca sobre LLMS e tokenização.

Ainda estamos enviando mensagens de texto às pessoas, mas estamos pegando esse texto e transformando-o em uma imagem (ou seja, texto por imagem). Em seguida, a imagem do texto é usada pelo código de caracteres existente. Portanto, em vez de texto simples, o codificador é baseado em imagens de texto. Quando Anish está pronto para responder ao usuário, os ícones usam símbolos de texto, usando troca de texto para texto.
Um, jogue o micro.

Uma sensação repentina

Quem pode dizer o quão bom é este jogo com imagens?

Se a imagem das imagens-signos pode nos levar a signos menores, podemos obter signos comprimidos. Isso, por sua vez, significa que podemos potencialmente exibir dentro de uma memória limitada. Lembre-se de comprimir os personagens em nossa mente.

Na recente revisão de “depósito-OCR: O contexto da compressão de opções” Horan Whie, yukun li; arxivEm 21 de outubro de 2025, o artigo de pesquisa atribuiu esta reivindicação (expedição):

“Uma única imagem contendo o texto de um documento pode conter uma riqueza de informações, sugerindo uma dança de pressão maior do que o texto digital alcançado através de dicas visuais.”
“Faz sentido para nós do ponto de vista linguístico (VLMS), como ele adiciona recursos de processamento de dados textuais, em vez de VQA, que as pessoas excluem.”
Nestes rebites de compressão degenerados e textuais para este tipo de músculos de tradução da web textual, como a tradução de decoração textual, estabelecida para ruas de compressão textual e textual entre representações visuais e textuais fornecem um teste contínuo. “
“Nosso método atinge 96%+ OCR.

Conforme observado acima, o trabalho experimental sugeriu uma taxa de compressão 10x menor com precisão de 96%. Se isso for feito de forma generalizada, significa que, embora uma linha da janela possa ter 400.000 tokens, o limite pode ser aumentado para 400.000 tokens com uma taxa de precisão de 96%.

Em relação a 96% pode ser dependente ou insuportável. Pelo menos você ainda não pode almoçar. Uma taxa de compressão de 20X seria melhor, embora a precisão de 60% pareça bastante impressionante. No entanto, houve casos em que uma pessoa poderia aceitar 60% por um aumento de 20X.

Os pensamentos iniciais da AI sobre essa abordagem, e ainda para mim uma aparência interessante que é temporariamente um pouco pior (talvez um pouco pior localizada), são pixels melhores que texto. São sinais de texto, a entrada fica mais lenta e isso significa apenas que todas as coisas para o LLMS são apenas imaginadas. ” (Fonte: Twitter/x, 20 de outubro de 2025).

O cérebro é útil

Estudos de pesquisa também foram tentados usando um grande número de línguas naturais. Este é mais um valor do uso de imagens em vez de texto puro. Como você sabe, existem linguagens naturais que usam símbolos figurativos e palavras figurativas. Com essas linguagens, parece ser adequado e bem fundamentado.

Outro assunto interessante é que já temos um MFA que temos de IA que mostra IA com imagens visuais, não texto, modelos visuais). Precisamos girar a roda novamente com llms. Acabei de pegar emprestado algo que funcionava com o Vis e corrigi-lo para usar objetos no LLMS. Isso é usado em todo o Noggin e repetido, se possível.

A ideia merece reconhecimento e aprofundamento adicionais. Eu não queria sair por aí e permitir imediatamente que todos os LLMs mudassem para esses dispositivos. O júri ainda não decidiu. Precisamos de mais pesquisas para ver como isso ocorre e em paralelo entre si, tanto a montante quanto a jusante.

Enquanto isso, acho que podemos pelo menos aceitar esta piada: “Às vezes, uma imagem vale mais que mil palavras”.

Link da fonte

Idéia incrível de que a geração de IA pode usar imagens visuais de texto em vez de texto puro como texto puro

A tokenização é importante

Os sinais são um problema

Os limites são mais altos, mas ainda existem

Problema de token

Ganhar

Uma sensação repentina

O cérebro é útil

DEIXE UMA RESPOSTA Cancelar resposta

Últimas notícias

O progresso do Brasil no desenvolvimento de uma instalação nuclear como...

Peru Mucho Gusto chega a Lima em 2025: datas, local e...

A Target está anunciando uma grande mudança que afetará todo o...

‘Eu sou Madeline, e isso é o que tenho a dizer...

Fajr/Fikri venceu a Malásia e chegou à final do Aberto da...

Marcelino: “A resposta dos jogadores foi maravilhosa”

Como os hábitos de sono influenciam a idade biológica do cérebro

O Pentágono está doando US$ 130 milhões de um bilionário para...

Categoria