No final de 2020, Yandex lançou um novo algoritmo de classificação, YATI. Ele gera resultados com base no significado do texto.
Essa abordagem garante que os resultados correspondam o máximo possível à solicitação do usuário. Como funciona e como afetará será discutido no artigo.
YATI determina o significado
da consulta de pesquisa e gera resultados adequados. A inclusão de palavras-chave no texto é opcional. O algoritmo seleciona páginas com semântica semelhante e determina o que o usuário precisa.
Ele encontra respostas até para perguntas complexas, assim como uma pessoa. Com a sua implementação, a qualidade da pesquisa melhorou significativamente. Sites pequenos têm a chance de avançar usando frases populares.
YATI é baseado em redes neurais de transformadores. Por isso é chamado: Yet Another transformer with Improvement – do inglês “outro transformador (transformador) com melhoria.
Transformer é uma rede neural supergrande e supercomplexa para processamento de linguagem natural. Ela lida facilmente com análise, tradução e criação de texto. Por trás dessa eficiência está um enorme poder computacional.
O exemplo mais marcante do
A compra de soluções específicas para o setor é inevitável para as empresas no panorama competitivo atual. Estas ferramentas personalizadas banco de dados específico por indústria aumentam a eficiência, simplificando o processo operacional e aumentando a produtividade. Como estas soluções podem ser qualquer coisa, desde software a investimentos direcionados para máquinas, permitem às empresas enfrentar desafios únicos. Entre na próxima fronteira de inovações no seu setor para se manter à frente, garantir o crescimento e alcançar um sucesso duradouro.
algoritmo em funcionamento é quando um usuário encontra um filme sem saber seu título.
Ele insere uma descrição ou sua essência, e o sistema determina exatamente do que se trata. YATI é o equivalente do Google ao BERT. Também analisa todo o texto, não apenas as frases-chave. Segundo Yandex, o produto banco de dados específico por indústria nacional é superior ao estrangeiro. A vantagem é perceptível apenas no segmento de língua russa.
Algoritmos modernos usam aprendizado de máquina. Mas nem sempre foi assim. Até 2016, a relevância era determinada por palavras-chave. Quanto mais coincidirem na consulta e na página, maior será a probabilidade de o site ficar no topo.
O robô foi guiado não só pelo texto, mas também pelo seu volume, fatores comportamentais e muito mais.
Ele procurou as palavras digitadas
pelo usuário, mas nunca chegou ao final do documento.
Aprendeu a responder a solicitações complexas. Não pesquisei estritamente de acordo com eles, mas prestei atenção à essência da frase e dos títulos das páginas.
Este é o primeiro passo para a busca por significado, e não apenas por ocorrência de chaves.
A produção melhorou visivelmente. Recursos com texto sem sentido, mas com abundância de palavras-chave, perderam as primeiras posições. Artigos únicos, competentes e úteis passaram a ser valorizados.
Mas devido à complexidade, o algoritmo não foi aplicado a todo o índice, mas aproximadamente às primeiras 150 páginas;
Korolev. Melhoria de Palekh. Analisei não apenas os títulos, mas também o conteúdo de partes importantes do texto.
Foram levadas em consideração estatísticas e opiniões de avaliadores, visitantes e usuários do serviço Yandex.
Toloka. Devido a isso, a pesquisa tornou-se ainda mais precisa. O sistema encontrou respostas para consultas formuladas em formato conversacional.
O resultado foi gerado com mais rapidez e a busca em si foi mais aprofundada (200 mil documentos).
Palekh e Korolev não são as primeiras tentativas do Yandex de melhorar a qualidade dos resultados da pesquisa. Houve outros robôs antes deles.
Eles não confiaram em redes neurais
Mas em cálculos matemáticos. Recomendamos a leitura do artigo Nele, cobrimos o tópico em detalhes tanto para Yandex quanto para Google.
YATI é um desenvolvimento de engenharia complexo do ponto de vista técnico e de software. Para implementá-lo, foram necessários cerca de cem aceleradores de inteligência artificial superpoderosos unidos em uma rede.
Consiste nas GPUs tecnicamente mais avançadas até o momento – NVIDIA Tesla V100. Graças a eles, cientistas e pesquisadores podem resolver problemas que antes eram considerados impossíveis.
YATI é uma rede neural transformadora. Ela precisa ser treinada. Na abordagem padrão, o transformador vê um texto no qual algumas palavras estão ocultas.
Ele precisa encontrar o significado e adivinhar as áreas que faltam. Yandex tornou a tarefa mais difícil para seu algoritmo. YATI mostrou consultas de pesquisa reais e resultados correspondentes. Ele precisava determinar quais páginas ajudavam os usuários e quais não.
A avaliação de especialistas humanos foi considerada padrão. Eles avaliaram a relevância das phone number sa páginas usando uma escala complexa.
Essencialmente, o algoritmo foi treinado para adivinhar uma avaliação de um especialista e gerar resultados com base nela. Essa abordagem melhorou drasticamente a qualidade da pesquisa.
A principal tarefa do novo algoritmo é responder a uma questão de qualquer complexidade. E ele lida com isso com sucesso.
Por que foi necessário um transformador
Os robôs anteriores também encontraram respostas sem necessariamente inserir as chaves? Sim, encontraram, mas o resultado nem sempre foi correto. Porque Palekh e Korolev previram o clique do usuário e YATI previu a avaliação do especialista.
analisa não apenas chaves e títulos, mas todo o texto, inclusive texto volumoso.
Encontra partes significativas
Do texto que podem ser especialmente úteis para o usuário.
leva em consideração o contexto, a ordem das palavras e seu relacionamento, ou seja, determina a carga semântica.
O algoritmo funciona com texto muito melhor que seus antecessores. Eles examinaram no máximo 10% do texto e apenas onde havia títulos ou chaves e seus sinônimos. Ele trabalha com grandes volumes e compreende perfeitamente artigos que não contenham mais de 10 frases.
Ele foi projetado para buscar informações precisas por meio de análise semântica. Quanto mais precisa for a seleção, menos oportunidades haverá para manipulação de conteúdo.
O que vem à tona não é o número de chaves na página, mas a expertise do conteúdo. Esta é uma ótima notícia para
Resposta detalhada à solicitação do usuário. O artigo deve ser o mais útil possível. É necessário divulgar integralmente o tema. Volume mínimo – 3.000 caracteres;
Longa sessão no site. Quanto mais tempo um visitante permanece em uma página, mais útil ela é do ponto de vista do mecanismo de busca. Artigos longos e vídeos incorporados aumentarão esse número;
Siga links internos
Se um visitante navegar no recurso, isso é um bom sinal para o robô. Links para outros artigos irão encorajá-lo a fazer isso. Por exemplo, se o material consistir em várias partes.
Os especialistas da Yandex afirmam que o novo robô melhorou a qualidade da pesquisa em 96%. Este é o avanço mais forte dos últimos 10 anos.
Escreva de forma simples e clara. Frases curtas e termos mínimos. As informações devem ser percebidas desde a primeira leitura.
Divida o texto em blocos. Em blocos de 2 a 3 parágrafos. Em parágrafos de 4 a 5 linhas. Cada bloco tem sua própria legenda. Dessa forma o leitor encontrará e assimilará as informações com mais rapidez.
Destaque títulos e subtítulos. Anteriormente, era necessário marcar frases-chave no texto. Isto não é mais relevante.
Faça listas com marcadores e numeradas. Os robôs aceitam textos estruturados. As listas devem estar no artigo (pelo menos uma).
Adicione chaves, seus sinônimos e frases do destaque do Yandex. Estas são as frases que os usuários inserem com mais frequência. Você pode inserir outras palavras entre as palavras-chave para diversificar a consulta.
Use frases de baixa e média frequência no formulário de pesquisa. Isto aumenta a probabilidade de chegar ao topo.
Insira palavras-chave em títulos
Subtítulos. O algoritmo entende o texto, mas os títulos e subtítulos continuam sendo uma prioridade.
A maioria das regras se aplica a artigos longos. Se o texto não contiver mais de 10 frases, não é necessário formatá-lo com parágrafos e listas.
Artigos comerciais são descrições de bens e serviços. Eles são caracterizados por um pequeno volume e abundância de palavras-chave. O algoritmo pode confundi-los com spam e diminuir a classificação do site. Isto é especialmente verdadeiro para novos recursos.
Para evitar isso, você precisa
redigir corretamente o seu texto comercial: fazer uma descrição completa, indicar características, adicionar fotos e vídeos, incluir comentários e avaliações dos usuários.
Uma vantagem adicional será uma análise do produto. Este design atrairá tanto o mecanismo de pesquisa quanto os clientes.