Em 1998, o Google lançou seu mecanismo de pesquisa, inicialmente chamado Backrub, operando em um servidor de Stanford Campus com 40 GB de dados e alojado em um caso de blocos de Duplo. Em 2025, os recursos de pesquisa do Google exigem vários data centers. Ryan Pearce criou um mecanismo de pesquisa de bricolage chamado Página de SearchA, incluindo uma versão focada na privacidade chamada Seek Ninja, com o servidor localizado em sua lavanderia ao lado de sua lavadora e secadora. Pearce afirma: “No momento, na lavanderia, tenho mais armazenamento do que o Google em 2000. E isso é insano de pensar”. O servidor estava inicialmente no quarto de Pearce, mas foi transferido para a sala de serviços públicos devido ao calor excessivo. “O calor não tem sido absolutamente terrível, mas se a porta estiver fechada por muito tempo, é um problema”, diz ele. Os resultados da Página de SearchA estão melhorando, com seu banco de dados contendo 2 bilhões de entradas, que deverá atingir 4 bilhões em seis meses. Em comparação, o Google tinha 24 milhões de páginas em 1998 e 400 bilhões até 2020, conforme revelado durante o estudo antitruste dos EUA v. Google LLC. O mecanismo de Pearce usa grandes modelos de linguagem para expansão de palavras -chave e compreensão do contexto. “O que estou fazendo é realmente uma pesquisa muito tradicional”, diz Pearce. “Foi o que o Google fez provavelmente há 20 anos, exceto que o único ajuste é que eu uso a IA para fazer a expansão das palavras -chave e ajudar no entendimento do contexto, que é a coisa difícil”. A IA tem sido uma parte essencial dos mecanismos de pesquisa, incluindo ferramentas como pesquisa de imagem reversa, RankBrain do Google e resultados de 90% do Bing em 2019. A IA agora é vista como uma maneira de construir e escalar mecanismos de pesquisa com eficiência. Pearce utiliza “Atualizar arbitragem”, comprando hardware de servidor antigo, mas poderoso. Sua CPU de 32 núcleos AMD EPYC 7532, que custou mais de US $ 3.000 em 2020, agora custa menos de US $ 200 no eBay. “Eu poderia ter recebido outro chip pelo mesmo preço, o que teria duas vezes mais fios, mas teria produzido muito calor”, diz ele. Todo o sistema custou US $ 5.000, com US $ 3.000 gastos em armazenamento. A base de código de Pearce é de cerca de 150.000 linhas de código, com cerca de 500.000 linhas de trabalho iterativo. Página SearchA e procurar ninja Use Sambanova para obter acesso rápido ao modelo LLAMA 3 a um baixo custo. Annie Shea Weckesser, CMO de Sambanova, observa que o acesso a modelos de baixo custo está cada vez mais essencial para desenvolvedores solo como Pearce, acrescentando que a empresa está “dando aos desenvolvedores as ferramentas para executar modelos poderosos de IA de maneira rápida e acessível, estejam trabalhando em uma configuração doméstica ou executando em produção”. Pearce usa o repositório de rastreamento comum para construir seu rastreador. “Eu realmente aprecio eles. Eu gostaria de poder devolver alguma coisa, mas talvez quando eu for maior”, diz ele. Uma tentativa inicial de usar um banco de dados vetorial falhou, resultando em resultados “muito artísticos”. A Pearce agora usa resumos gerados por LLM das páginas. Wilson Lin, outro desenvolvedor de mecanismos de pesquisa de bricolage, usa uma ferramenta de pesquisa vetorial criada por conta própria chamada Corenn e depende de nove serviços em nuvem separados para manter os custos baixos. “É muito mais barato do que [Amazon Web Services]- Uma quantidade significativa “, diz Lin.” E isso me dá capacidade suficiente para chegar a algum lugar com este projeto com um orçamento razoável “. Pearce originalmente imaginou um mecanismo de busca de sites pequenos semelhante à Marginalia, favorecendo pequenos sites em detrimento da Big Tech. “Alguém da China realmente me alcançou porque. . . Eu acho que ele queria um mecanismo de pesquisa sem censura que ele queria alimentar seu LLM, como a pesquisa de seu agente “, diz ele. Expandir além do inglês exigiria novos conjuntos de dados. A Pearce planeja mover o mecanismo de pesquisa para uma instalação de colocação quando o tráfego atinge um certo limiar e suportar o tráfego modesto, que não é o que se hospedar, o que é um pouco de prostituta. lavanderia para sempre. ” O prazo de inscrição para o prêmio de empresas mais inovadoras da Fast Company é sexta -feira, 3 de outubro, às 23:59 PT.

Source: Página Pesquisa DIY mecanismo de pesquisa rivaliza com o armazenamento precoce do Google