O guia definitivo do Bioinformata

Filipe Dezordi
20 min readDec 23, 2020

--

Vivemos em uma época de urgências, de prazos curtos… Domine o Python em 7 dias!; Desenvolvedor Full Stack em 42 horas!!!; Bootcamp Mestre em Data Science em 2 semanas!!!

Então caro(a) leitor(a), o título desse artigo obviamente é um clickbait. Se alguém lhe prometer um guia definitivo para algo, inclusive para campos multidisciplinares como Bioinformática, ou Data Science, prepare-se para alguma das situações: Um material superficial com um link para a compra de um curso milagroso ao final texto; ou um texto com noções do que o autor pensa ser o essencial para o campo de estudo em questão.

Talvez você esteja um pouco decepcionado(a) agora, afinal não foi hoje que você encontrou a pílula mágica que resolverá seu futuro como Bioinformata, certo? Tudo bem, a vida é assim mesmo. Mas veja pelo lado positivo, esse não será um texto de isca para vender um curso ao final da leitura, muito menos um texto com as regras chave para você se tornar “O ou A Bioinformata”.

Minha intenção aqui é apresentar um pouco de minha história, alguns aprendizados, desmistificar alguns pré conceitos que podemos ter com Bioinformática, e devanear sobre alguns caminhos que trilhei nessa minha longa e brilhante jornada de bioinformata no Brasil (sim, estou sendo irônico).

Se você quer ir direto para as dicas (veja, dicas, e não regras, nada aqui foi escrito com a intenção de salvar sua carreira), puxa um Ctrl + F e digita “Por fim, o Momento Coach”, e vai direto pra lá, mas se quiser entender um pouquinho da minha trajetória na bioinformática, fique a vontade. Aviso: palavras ou frases sublinhadas contém links externos, basta clicar.

Uma fuga da bancada, uma charge e uma visão distorcida: Como tudo começou

Por meados de maio/junho de 2013 iniciei minha graduação em Biotecnologia, numa federal no interior da região oeste do Rio Grande do Sul. Maravilhado com os textos sobre evolução, genética e biologia molecular, somados à excitação da época com as tecnologias de organismos transgênicos, como todo bom calouro entrei na faculdade cheio de sonhos e metas para um futuro brilhante como cientista, o céu era o limite! Bem, se você já cursou algum curso de graduação sabe como a história termina, se você não passou por essa experiência, bem, digamos que o céu seja o limite, mas você está tentando subir pulando numa cama elástica não muito resistente.

Logo nos primeiros meses percebi que a tal de bancada não era para mim: na primeira aula prática de química geral eu diminuí a quantidade de vidrarias na instituição, risos. Apesar de não ter quebrado nada nas demais aulas laboratoriais, eu realmente não gostava dos processos laboriosos em bancada, preparação de lâminas, preparação de meios, extração de material genético e experimentos relacionados, enfim, pelo terceiro semestre de graduação comecei a perceber que talvez aquilo ali não fosse para mim. Já dentro de um grupo de pesquisa como Iniciação Científica Voluntário, talvez muito cedo devido a velha pressão de todos os colegas estarem em grupos de pesquisa, e eu não querer “ficar para trás”, me encontrei fazendo experimentos que na maioria das vezes não davam certo, e me faziam novamente filosofar sobre talvez uma das perguntas que mais atormentam o jovem entre seus 18 e 20 anos: “Que po*** eu to fazendo da minha vida?”

Eis que, impulsionado talvez pelo interesse prévio que eu tinha em informática (trabalhava montando computadores antes da graduação), comecei a pesquisar sobre uma área que englobasse as duas coisas: Biologia e Informática, e logo me deparei com uma charge que veio a mudar o rumo da minha graduação, e que talvez tenha me dado o maior sacode anos depois, durante meu período de mestrado.

Charge “Life is not fair” publicada em 13 de Julho de 2012 pelo www.biocomicals.com.

No momento que vi essa tirinha logo me identifiquei com o cientista da esquerda, o cientista experimental, de bancada ou de bancada molhada: de mau humor, vestindo seus EPIs e entrando em um ambiente que praticamente nada é permitido, inclusive ser feliz, brincadeira pessoal, brincadeira... Na direita o profissional que eu queria ser: Feliz, com roupas confortáveis e entrando em um ambiente onde a vida é bela. Ahh… Filipe do passado, quanta inocência.

Numa visão que Bioinformática seria fácil, rapidamente li o básico sobre a área, em poucas horas decidi que isso era o que eu mais queria da vida, e prontamente fui conversar com meu orientador na época sobre meu desejo de trocar de área, nada melhor como decidir seu futuro profissional em poucas horas, não é mesmo?

Para minha sorte, meu orientador na época não fez objeções, talvez porque a bancada já estava um tanto lotada, e para aumentar minha sorte tínhamos um novo integrante no grupo, um pesquisador de Pós Doutorado que estava trabalhando com bioinformática na época, e SPOILER ALERT, hoje é meu orientador (abraços Gabriel). Que maravilha! tudo se encaixando para agora sim, eu decolar minha carreira como cientista brilhante. Mas bioinformática além de ser linda, de não precisar ir pra bancada, trabalhava com o que mesmo???

A vida é bela, mas nem tanto

Caindo de paraquedas, já com um projeto de pesquisa delineado, e se formos gameficar minha jornada como bioinformática, chegamos ao primeiro “Chefão”: um caminho, sem caminho.

Se considerarmos o desenvolvimento das ciências biológicas, a bioinformática é um campo muito recente. Apesar de ter suas primeiras aplicações criadas na década de 60, onde os computadores ainda eram baseados em cartões de papel, por Margaret Dayhoff, a bioinformática veio a se desenvolver juntamente com a era genômica, após a década de 80, onde tornou-se necessário o desenvolvimento de ferramentas computacionais para análise de dados biológicos, principalmente os provenientes de sequenciamento genômico. Como todo campo de estudo, a bioinformática também precisa de um conhecimento básico, e um aplicado, e esse conhecimento é passado pela mais antiga e nobre arte: o ato de ensinar.

Apesar de seus quase 60 anos de história, a bioinformática como disciplina ainda está engatinhando mundialmente. No Brasil, em 2020 foi criado o primeiro curso de graduação em Bioinformática, nos anos anteriores essa disciplina vem sendo ensinada praticamente de 3 formas:

  • Em disciplinas isoladas em cursos de graduação ou pós graduação na área de ciências biológicas;
  • Em disciplinas estruturadas em cursos de pós graduação em bioinformática;
  • Por tutorias particulares, sejam essas de orientador para orientando, ou de professores particulares por meio de aulas ou mini cursos.

Somando o método de ensino das últimas décadas, pelo menos no Brasil, o fato da Bioinformática ser uma área multidisciplinar e extremamente abrangente (passando por praticamente todos os campos das ciências biológicas e por muitos campos das ciências exatas), não temos praticamente um caminho de como aprender bioinformática, qual o passo-a-passo, como construir uma base forte de conhecimento teórico, uma base forte de conhecimento aplicado e como correlacionar os conhecimentos de biologia e computação.

Esta foi a primeira dificuldade que encontrei como um bioinformata em formação, encontrar um caminho para seguir. Na ausência de um caminho, fui trilhando o que achei, na época, ser o correto: Entender o meu projeto de pesquisa e as ferramentas que eu utilizaria durante o desenvolvimento do projeto.

Engatinhando como bioinformata, interface gráfica e comodismo

Passado “o baque” inicial, comecei a ter noção de como era trabalhar com bioinformática (na verdade uma noção não totalmente certa ainda ), resolvi respirar fundo e começar a estudar. Meu projeto de TCC era na área de mobilômica (estudo de elementos genéticos móveis) em um genoma de vespa.

Brevemente, meu orientador já havia realizado a etapa inicial do estudo: Coletar os arquivos de sequenciamento, fazer o tratamento de qualidade e submeter ao pipeline inicial do estudo: Repeat Explorer, devido à escassez de recursos computacionais na época, e das funcionalidades do projeto Galaxy, ele realizou essas análises iniciais na plataforma Galaxy.org.

Meu trabalho era: Coletar esses dados da plataforma, fazer uma segunda montagem (Repeat Explorer fazia uma montagem e classificação de TEs por Grafos De Bruijn), e na possibilidade de alguns contigs poderem ser montados em scaffolds, o protocolo então era realizar uma segunda montagem por sobreposição de contigs. Na época não havia cursado nenhuma disciplina de bioinformática ainda, e foi então que iniciei uma prática auto-destrutiva: Não estudar a base teórica, apenas rodar a ferramenta e avaliar os resultados.

Sem me questionar sobre as ferramentas e parâmetros que meu orientador utilizou nas análises prévias, parti diretamente para coleta e segunda montagem dos dados. Não que meu orientador tenha feito nada errado, as análises estavam corretas, mas pensando hoje, se você vai trabalhar com um conjunto de dados pelos próximos 2 anos, é interessante você tirar 1 mês pra entender o que foi feito, as vantagens e desvantagens da metodologia empregada, visto que fazendo isso, você já pode criar ideias de como analisar os dados nas etapas posteriores (ver dica 1 na seção “Momento Coach”).

Após a segunda montagem, a próxima etapa seria separar os elementos em grupos, elementos genéticos móveis, ou transposons (TEs, do Inglês Transposable Elements), que possuem classificações taxonômicas como os demais organismos biológicos (mas uma classificação um tanto mais limitada). Sem nenhum método de organização, sem uso de expressões regulares e sem nenhum tipo de automação, parti de forma manual para separar e organizar as centenas de contigs e scaffolds em pastas individuais por grupo taxonômico, uma tarefa que me tomou algumas semanas, e que hoje eu faria em poucas horas.

E por fim, mas talvez a etapa mais laboriosa: Extrair as proteínas desses elementos, recuperar proteínas similares, fazer os alinhamentos, edições e filogenias, mais uma vez etapas manuais, sem automação e com uso de lógica praticamente zero, foram mais de um ano para a conclusão das análises (claro que não foram 2 anos apenas fazendo análises, afinal tinham todas as atividades envolvidas em um curso de graduação). A quem dera eu tivesse um guia básico, como este aqui, para me ajudar naquela época (auto-citação aqui ta liberada).

Charge “Visualization tool” publicada em 29 de Outubro de 2012 pelo www.biocomicals.com. No balão está escrito: “Depois de trabalhar vários dias no algoritmo da ferramenta de visualização de genomas eu sinto que tem algo de errado com “minha visualização” ”. A sensação é a mesma quando estamos usando as ferramentas (e não desenvolvendo como na charge) para visualização de dados.

Praticamente todas as etapas que fiz durante a graduação foram por interface gráfica, juntando isso ao péssimo hábito desenvolvido de partir diretamente para uso das ferramentas e análises de dados, caí num comodismo tremendo, onde por mais que a forma que eu fazia as coisas eram extremamente laboriosas por serem análises manuais, eu não via vantagem em passar por dificuldades para aprender novas formas, formas automatizadas, para realizar as tarefas. Este era o Filipe no final da graduação: TCC nota 10, elogios, e um bioinformata extremamente acomodado.

Início de um Mestrado, o “Segundo Chefão”, mais um baque

Terminando minha graduação, ingressei no único programa de mestrado que fiz a seleção: Biociências e Biotecnologia em Saúde, da Fundação Oswaldo Cruz, Instituto Aggeu Magalhães. Munido de um ego gigantesco, este alimentado por uma graduação com algumas publicações, e pensando estar preparado para enfrentar qualquer problema com bioinformática, o Filipe do passado estava clamando por mais um tombo, o ano era 2018.

Se durante a minha graduação as ferramentas estavam prontinhas e disponibilizadas em interface gráfica para as análises, meu projeto de mestrado batia de frente com um cenário totalmente diferente. Minha área de estudo era, e continua sendo no doutorado, uma área extremamente recente (primeiros resultados da área em 2004), sem ferramentas específicas e que trabalha com uma grande quantidade de dados: o estudo de integrações virais em genomas de eucariotos, uma área batizada de Paleovirologia (e sou grato diariamente a isso, pois deixa esse campo de estudo muito mais atrativo para divulgação científica), escrevi um pequeno artigo em linguagem popular sobre isso, disponível aqui.

Brevemente, meu trabalho de mestrado era cruzar todos os genomas virais descritos até então, com todos os genomas de mosquitos disponíveis (37 na época). A transição para trabalhar em terminal linux foi tranquila, bem, eu pensei que havia sido no primeiro ano do mestrado pelo menos. Logo segui no meu velho hábito destrutivo, rodar as ferramentas com parâmetros que eu não conhecia a fundo (parâmetros passados pelo meu orientador, ou pesquisados em artigos científicos), e partir direto para análise dos resultados: sem leitura, organização e automação das tarefas (reprodutibilidade beirando a zero).

Logo começaram as disciplinas, nas disciplinas de seminários, as perguntas de colegas deixavam evidentes minha falta de experiência em bioinformática, e as lacunas no meu conhecimento teórico. Somado à isso, discussões e sugestões de artigos no grupo de bioinformática da instituição trouxeram algumas verdades incontestáveis: Eu estava rodando a análise principal do meu estudo com um parâmetro que enviesaria todos os meus resultados (se você estiver curioso, leia sobre max_target_seqs nas análises de BLAST). O 2º semestre de 2018 marcava o fim do Filipe egocêntrico e sabichão (pelo menos momentaneamente), e o nascimento do Filipe síndrome de vira-lata, onde achava que não sabia nada, e que fazia tudo errado, e lá quase se foi uma carreira acadêmica, era o portão de acesso pro Segundo Chefão.

Charge “Which genome build?” publicada em 10 de Outubro de 2020 pelo www.biocomicals.com. No retângulo está escrito: “Depois de completar todas as análises… Ele percebeu que ele usou a versão errada do Genoma”.

Passado o momento de lamentações, bola pra frente. Pela primeira vez na vida sentei pra estudar a fundo a ferramenta: artigo de publicação, manual (e o manual do BLAST é um tanto extenso), uso em artigos e tópicos de discussão em fóruns (biostars ❤). Estudei o básico de linha de comando, expressões regulares, e shell script básico. Conversei com meu orientador, informei sobre o erro, montei um script básico com os parâmetros corretos para automatizar as análises nos 37 genomas, tudo corrigido. Comecei a ler o básico sobre programação, o velho questionamento: Python, Perl ou R para bioinfo? e novamente o problema do caminho: por onde começar?

Nada era impossível pro novo Filipe. Rotina de estudos, leituras, e início dos cursos de Python, agora vinha a mudança, agora o Filipe iria decolar. Fogo de palha. Dois meses depois, quase findando o ano de 2018, eu havia largado Python, os cursos não faziam sentido, não via aplicação naquilo, como fazer uma calculadora em Python, ou entender o que é um dado tipo string ou float iria me ajudar em bioinformática? As análises de BLAST ainda estavam rodando, automatizadas, pra que estudar qualquer coisa agora? e vamos de mais uma dose de comodismo.

As lamentações, a mudança e a importância dos colegas

Por volta de dezembro, próximo a data de finalização do documento de qualificação (um processo na pós graduação para o programa saber se você está realmente trabalhando no seu projeto), o Filipe que tinha parado de estudar Python e Shell Script estava correndo para organizar todos os resultados para o exame de qualificação, mais uma vez de forma manual, mas dessa vez em período de festas de final de ano.

Esse foi um daqueles momentos que discursos motivacionais, ou de reviravoltas em filmes, que o indivíduo precisa tomar uma decisão e manter o foco para segui-la. Em janeiro de 2019 decidi retornar aos estudos de programação, dessa vez de forma mais estruturada, pesquisando bons cursos e seguindo um caminho lógico: Lógica de programação, Linguagens (Python e Shell) e Aplicação, tudo de forma organizada. Criei minhas planilhas de organização, meus prazos e coloquei na cabeça que por menor que fosse a tarefa em bioinformática (adicionar uma tag no nome das sequências, filtrar uma planilha, realizar qualquer atividade que seja repetitiva) eu faria por linha de comando ou por criação de scripts, não importando se o processo manual levaria 10 minutos, e a tarefa de automação 1 hora.

Charge “Me, myself and big data?” publicada em 14 de Setembro de 2012 pelo www.biocomicals.com.

E com o tempo foi dando certo, comecei a entender a “lógica da coisa”, e meio que não tem como explicar como isso acontece, ou ensinar como fazer as correlações, mas durante os exercícios do curso de Python, que nada tinham a ver com bioinformática, eu começava a ver o uso das funções e estruturas de dados dentro dos problemas do meu projeto. Claro que nem tudo eram flores, tinha momentos que eu batia em problemas que eu não conseguia resolver, por mais que ficasse 2 ou 3 dias na mesma tarefa básica, e aí caro(a) leitor(a), neste momento precisamos de sorte, sorte de estar em um grupo onde as pessoas te ajudam.

Já ouvi relatos de colegas que estão em grupos extremamente competitivos, onde quando tem algum tipo de ajuda, a ajuda vem pela metade. Nesse ponto eu me considero sortudo e extremamente grato, pois meus colegas de trabalho (um grande abraço para Alex, Crhis, Elverson e João) sempre estavam dispostos a ajudar, e aquela ajuda de sentar do lado, se dispor a entender o problema, ajudar no desenvolvimento das linhas de código e explicar a lógica por trás daquilo. Sempre digo, se hoje consigo desenvolver meus próprios scripts, foi pela ajuda desse pessoal, valeu Bioinfo Baixo Clero ❤.

Desse momento em diante comecei a ficar mais independente, sempre mantendo a disciplina para estudar o problema a fundo antes de partir para as análises, e aos poucos fui me desenvolvendo como programador em Python e Shell Script. Tive a oportunidade de colaborar em alguns estudos fora do meu projeto de doutorado, sempre com o apoio do meu orientador, o que tem servido como reconhecimento de que estou no caminho certo. Finalizei meu mestrado sem grandes problemas, artigo publicado, estudos de colaboração encaminhados e preparação para seleção do doutorado.

A volta do Filipe egocêntrico, o coach de bioinfo e mais um puxão para realidade

Acabou que esse texto tem se tornado uma reflexão de final de ano sobre minha trajetória profissional, mas continue por aqui, juro que a última parte pode lhe trazer algumas dicas importantes.

Todo esse sentimento de dever cumprido, de autodidata e de ser convidado para participar de outros estudos foi trazendo de volta o Filipe sabichão, egocêntrico e que pode fazer qualquer tipo de análise.

Foi então que resolvi criar uma paǵina de bioinformática no Instagram, para dar dicas de conteúdo sobre a área, tornar disponível o meu vasto conhecimento de especialista em bioinformática para as novas mentes que estão ingressando nessa área, sério Filipe? não aprende nunca?

O interessante desse projeto, foi que conforme eu ia preparando os materiais, e conforme vinham as dúvidas via direct, muitas vezes eu me deparava com lacunas no conhecimento, lacunas que na minha arrogância estavam preenchidas, limitações que na minha arrogância não existiam. Pois chegou a hora de mais uma vez enterrar o Filipe egocêntrico, sentar e estudar.

Estamos no final de 2020, quando olho pra trás vejo o quanto aprendi, errei e aprendi novamente. Saí de um usuário de bioinformática de interface gráfica no início de 2019, para um membro do Núcleo de Bioinformática da FioCruz/IAM que planejou e escreveu os scripts para organização, automação e estratégia de análise dos dados de SARS-CoV-2 do nosso grupo. Quando olho pra frente, vejo onde quero chegar: um profissional mais humilde (a necessidade disso está evidente nas linhas anteriores), com mais conhecimento teórico, principalmente em estatística e computação, e um cientista que realmente esteja contribuindo com o avanço científico da sua área.

E esse é o momento atual da minha história, dezembro de 2020, muitos planos para o futuro, e lutando diariamente contra o égo. Espero que você tenha gostado da minha história, e que tire algum proveito dos meus erros, e dos meus aprendizados, deixo então, a última parte do texto para cagar algumas regrinhas que eu sigo dentro da bioinformática, leia com senso crítico, não tome nada como regra, e fique a vontade para me questionar nos comentários.

Por fim, o Momento Coach

  • Dica 1, Respire fundo, entenda o problema, estude as soluções: Antes de começar qualquer análise, faça um check list das informações relacionadas ao seu projeto:

— Qual a minha pergunta biológica? (Isso levanta a reflexão do que você precisa responder, logo o que você terá que fazer metodologicamente no seu projeto);

— Quais ferramentas estão disponíveis para o meu problema biológico? (Faça um levantamento das ferramentas disponíveis, veja quais tipos de estudo estão usando elas pelas citações da ferramenta, os recursos e arquivos necessários para execução, vantagens e desvantagens das ferramentas)

— A metodologia que estou utilizando é suficiente para responder minha pergunta biológica? (Pesquise se apenas as ferramentas existentes são suficientes, ou se você terá que utilizar algum tipo de estratégia nova);

— Quais os formatos de arquivos que as ferramentas que vou utilizar são utilizados como entrada e quais são retornados como saída? (Procure na documentação da ferramenta a estrutura dos arquivos de entrada e saída, isso lhe indicará se alguma conversão será necessária, algum filtro terá se que ser aplicado);

— Documente tudo, como escrevi em um outro artigo, comece pelo suplementar! Organize metadados, versões das ferramentas, documente os scripts que você irá utilizar (isso lhe ajudará a planejar o estudo, conhecer os dados disponíveis para trabalho, muitas vezes nessa etapa você entende os dados que você tem para trabalhar, e acaba percebendo que o uso de alguma ferramenta pode se tornar inviável);

— Faça uma análise de teste, execute sua metodologia para uma das suas amostras, ou para uma sub amostragem de dados de uma amostra, e reflita se os resultados fazem sentido, estime o tempo de análise, levante os pontos fortes e fracos da metodologia que você está empregando;

  • Dica 2, Use a tecnologia para auxiliar na sua organização: Quando trabalhamos em bancada, temos nosso caderno de protocolos organizado com os experimentos, fotos de resultados e comentários. Podemos trazer isso para bioinformática, e também utilizar outras ferramentas para organizar todos os nossos dados:

— Tenha um caderno de protocolos online. Hoje temos várias aplicações que servem como caderno de protocolos online, principalmente para bioinformática onde podemos criar caixas de código, anexar planilhas e figuras, enfim. Eu uso a ferramenta benchling, que permite fazer as anotações citadas acima e ainda criar projetos colaborativos.

— Use o google sheets. Com o google sheets, você pode acessar suas planilhas de qualquer dispositivo de forma online, eu utilizo muito para criação de materiais suplementares, organização de rotina, e organização de uma Cheat Sheet.

  • Dica 3, Crie uma Cheat Sheet: Uma Cheat Sheet é basicamente uma tabela com códigos. Basicamente você coloca linhas de códigos que você usa rotineiramente, aqui temos vários exemplos de Cheat Sheets. Eu tenho uma estruturada em: Códigos gerais (linhas gerais em terminal Linux, como protocolos SSH/SCP, cut, paste, diff, etc); Expressões Regulares (awk, sed e grep); Git (controle de versões); Docker & Conda (controle de ambientes); Funções em Python e Ferramentas por linha de comando (montadores, anotadores, ferramentas de clusterização, busca por similaridade, etc). Isso é muito útil não só para você buscar de forma rápida como rodar determinada ferramenta, mas para você deixar salvo linhas específicas para problemas biológicos específicos.
  • Dica 4, Aprenda lógica de programação: Se você acha que lógica de programação serve apenas para criar algoritmos, você está tão enganado quanto eu estava no início do mestrado. Lógica de programação te ensina a pensar de forma lógica (a vá), e isso tem um impacto gigantesco em ações rotineiras, principalmente na carreira científica, como tomada de decisões e planejamento de projetos. Recomendo o curso do canal Curso em Vídeo, como todos os demais cursos desse canal, o de Lógica de Programação é Excelente.
  • Dica 5, Aprenda expressões regulares: Basicamente expressões regulares são cadeias de caracteres que tem o poder de reconhecer padrões textuais simples ou complexos. Você pode por exemplo usar expressões regulares para capturar todas as partes de um texto que começam com um carácter específico e que terminam com um número, seja esse número específico ou não. Em bioinformática expressões regulares podem ser utilizadas rotineiramente para manipular nome de sequências (“despoluir” aqueles cabeçalhos de 3 linhas do NCBI) ou recuperar informações de arquivos. Para aprender sobre expressões regulares, recomendo este livro do Aurélio Marinho Jargas.
  • Dica 6, Aprenda o básico sobre trabalho em terminal Linux: Como a tecnologia está avançando, cada vez os estudos em bioinformática se tornam mais complexos, e com a necessidade de analisar e armazenar uma grande quantidade de dados, para isto, recomendo a você aprender o básico sobre terminal Linux, como acessar ambientes de servidores (protocolo SSH), como transferir arquivos (protocolo SCP), navegar, criar e excluir diretórios e arquivos (cd, mkdir, rm, more, ls), e com isso aprender o básico de Shell Script, como declarar variáveis, criar laços e scripts básicos.
  • Dica 7, Aprenda o básico sobre controle de versões e ambientes: Como cada vez mais os campos dentro da bioinformática estão se especializando, muitas vezes você precisa desenvolver alguns scripts básicos para análise do seus dados, e outras vezes você precisa utilizar algumas ferramentas que não estão presentes no seu servidor de trabalho, então:

— Utilize um controlador de versões para armazenar seus scripts, caso seja possível, informe o repositório com os scripts disponíveis na hora de publicar seus artigos, isso torna sua pesquisa reprodutível, aqui um exemplo de como disponibilizei os scripts do nosso artigo de SARS-CoV-2. Eu utilizei a plataforma github, e todo conhecimento que precisei para trabalhar com ela veio desse curso.

— Utilize ambientes controlados. Existem diversas tecnologias para controlar ambientes (isolar bibliotecas ou ferramentas do restante do sistema, evitando conflitos entre bibliotecas). Eu utilizo conda para controlar ambientes em Python, não fiz nenhum curso para isso, apenas li a documentação, com conda você pode por exemplo exportar o ambiente que você utilizou nas análises de determinado estudo e tornar ele disponível para outros pesquisadores. No caso de você precisar montar um ambiente com diversas ferramentas e scripts, o ideal seria criar um container (tipo uma maquina virtual mais leve, mas não é uma máquina virtual, que fique claro) que você pode instalar as ferramentas e scripts para determinado estudo, e depois disponibilizar isso para a comunidade científica. Eu fiz esse curso (apesar do título clickbait, é realmente muito bom) com a ferramenta Docker para criação de containers, e estou lendo esse livro sobre o assunto.

  • Dica 8, Aprenda programação: Entendendo a lógica de programação, o básico em Linux, expressões regulares e controle de versões e ambientes, falta apenas a cereja do bolo, aprenda a programar. Escolha uma linguagem: Perl já foi a mais utilizada em bioinformática, agora está caindo em desuso, Python está em constante ascensão nos últimos anos (automação de tarefas, plotagem de dados, IA, implementação de pipelines e outra infinidade de áreas); R é muito forte para análise estatística, plotagem de dados e implementação de pipelines; Shell Script (para automação de tarefas em ambientes Unix); E fora da minha breve experiência com programação temos Júlia (segundo breve leituras na internet, cria do Python, porém mais rápida) o bom e velho C++ (nunca nem senti o cheiro, mas em termos de desenvolvimento com o foco em performance, segundo os especialistas é o padrão ouro) e por último mas não menos importante, MATLAB (para cálculo). Como sou fanboy de Python, foi a linguagem que mais estudei e a que mais utilizei, recomendo este curso, que como todos os outros do professor Gustavo Guanabara, é excelente!
  • Dica 9, não se acomode, evite análisew manuais: Como escrevi acima sobre a minha brilhante jornada como bioinformata, a acomodação é uma das principais armadilhas que podemos cair, sempre busque conhecimento (já dizia o E.T. Bilu), não tome nenhum conhecimento como imutável e 100% correto (afinal, estamos no meio científico, certo?) e por fim, evitar fazer análises manuais de dados é uma excelente forma de praticar programação!
  • Dica 10, não tranque seu conhecimento dentro de um baú: Se uma coisa que eu aprendi durante esses anos de aprendiz em bioinformática, é a importância que meus colegas tiveram na minha formação, e a importância da comunicação na carreira de bioinformática. Se um colega vier lhe perguntar algo, e você souber como responder, não dê respostas pela metade, sente, entenda o problema, explique e busque ajudar. Além da possibilidade de você estar contribuindo para a formação de alguém, muitas vezes é assim que nascem as colaborações, experiência própria.
  • Dica 11, questione: Estou tentando me livrar do meu toc numérico, então teremos mais de 10 dicas, então a dica número 11 é: questione. Questione linhas de comandos passadas por colegas ou orientadores, não por elas estarem incorretas, mas talvez elas possam estar desatualizadas, ou fazerem sentido para outro problema biológico que não seja o seu. Questione a metodologia empregada nos estudos da sua área, não é porque Fulano usou a ferramenta com tais parâmetros, que os mesmos parâmetros farão sentido para sua análise.
  • Dica 12, lembre-se da charge: Infelizmente bioinformática não é uma área fácil. Não é simplesmente pegar um arquivo e colocar para rodar numa ferramenta. Como bioinformata, você deve ter senso crítico, quais ferramentas utilizar, com quais parâmetros, para responder qual problema biológico. Se organize, faça testes, refaça análises, questione resultados. Bioinformática pode ser fácil, para estudos sem rigor científico e com zero reprodutibilidade (cá estou eu cagando regras, mas tudo bem), a vida é bela, mas achar o caminho não é fácil.
  • Dica 13, cola no pai: Por último, mas não menos importante, como citei ao longo da minha história, criar uma página de bioinformática no Instagram foi um dos pontos que me fizeram refletir sobre o que eu sei. Pretendo seguir com a página nos próximos anos, a passos curtos, falando sobre dicas, leituras interessantes, colocando alguns vídeos pessimamente produzidos e de vez em quando cagando alguma regrinha ou outra, então, se você quiser acompanhar meu conteúdo, e quem sabe trocar uma ideia, cola no pai!

E era isso, espero que você tenha gostado, não tome essas dicas como regras pra vida, pois são apenas algumas ações que eu realizei e deram certo para mim, dentro do meu grupo, dentro da minha área de pesquisa. Os comentários estão aí para qualquer crítica, elogio ou sugestão. Boas festas, e um ótimo início de ano.

--

--