- Pesquisadores do MIT usaram um modelo de linguagem grande para otimizar codons da levedura industrial Komagataella phaffii, tornando a produção de proteínas mais eficiente.
- O objetivo foi encontrar sequências de DNA que maximizem a expressão de proteínas específicas, incluindo hormônio de crescimento humano e trastuzumabe.
- O modelo treinou com dados públicos sobre proteínas da levedura e aprendeu padrões de uso de codons, levando em conta relações entre codons vizinhos e distantes.
- Em comparação com quatro ferramentas comerciais de codon optimization, as sequências geradas pelo novo modelo tiveram melhor desempenho para cinco de seis alvos testados.
- O estudo, publicado na Proceedings of the National Academy of Sciences, destaca potencial redução de custos na descoberta e produção de biológicos, com disponibilidade do código para a comunidade.
O MIT desenvolveu um modelo de linguagem grande para otimizar sequências de aminoácidos em proteínas produzidas por leveduras industriais, tornando o processo de fabricação mais eficiente e potencialmente reduzindo custos. A pesquisa usa a levedura Komagataella phaffii para aprimorar a codificação genética de proteínas.
A equipe de engenheiros químicos do MIT treinou um encoder-decoder com dados de codões de K. phaffii, aprendendo padrões de uso de codões. O objetivo foi prever quais codões funcionariam melhor para cada proteína específica, aumentando a produção.
O estudo avaliou seis proteínas distintas, incluindo hormônio de crescimento humano e um anticorpo monoclonal utilizado no tratamento do câncer. Em cinco casos, as sequências otimizadas pelo modelo superaram ferramentas comerciais de codonização.
O trabalho mostrou que o modelo aprende a “linguagem” dos codões, levando em conta relações entre codões vizinhos e entre posições distantes no gene. A equipe compara o approach com métodos existentes, obtendo desempenho superior em grande parte dos casos.
A pesquisa, publicada na Proceedings of the National Academy of Sciences nesta semana, recebe apoio de fundos internos do MIT e de parcerias com institutos ligados ao ecossistema de biotecnologia. Harini Narayanan é a autora principal.
Codon optimization
Leveduras como K. phaffii e Saccharomyces cerevisiae são usadas para proteínas terapêuticas e vacinas, gerando bilhões de dólares em produção anual. O estudo foca na escolha de sequências de DNA que maximizem a expressão proteica.
Para cada proteína, a equipe inseriu sequências otimizadas em K. phaffii e avaliou a quantidade de proteína produzida. Em comparação, foram usadas quatro ferramentas comerciais de otimização de codões.
Os resultados indicaram que o novo modelo foi o melhor ou o segundo melhor para a maioria das proteínas avaliadas. A comparação observou variações entre abordagens diferentes de otimização de codões.
Perspectivas e impactos
Pesquisadores de Love e colegas já utilizam o modelo para outras proteínas de interesse em K. phaffii. O código está disponível para uso por outros grupos que pretendam trabalhar com essa levedura ou com outras espécies.
Os autores destacam que modelos treinados por espécie tendem a fornecer previsões mais precisas, sugerindo necessidade de ajustes específicos para cada organismo na codonização. A abordagem visa tornar o desenvolvimento de biologics mais confiável.
Os financiadores incluem o Daniel I.C. Wang Faculty Research Innovation Fund, o MIT AltHost e a Mazumdar-Shaw International Oncology Fellowship, além do Koch Institute.
Entre na conversa da comunidade