Lista de empresas de ML e perguntas de entrevista¶
O repositório MLJobSearch2025 reúne duas informações valiosas para profissionais de aprendizado de máquina: uma lista tier‑by‑tier das empresas que pagam salários elevados para cargos de ML e um banco de perguntas de entrevista aberto à comunidade. O conteúdo é proveniente do projeto neuraprep.com e foi disponibilizado de forma livre para uso e melhoria coletiva.
Classificação por níveis (tier list)¶
A tier list está organizada em cinco níveis, considerando percepção, cultura, programa, prestígio e remuneração. Para entrar na lista, a empresa deve pagar, em média, pelo menos US$ 300 mil/ano em compensação total para funções de ML; os níveis 1 e 2 exigem acima de US$ 500 mil/ano.
| Nível | Empresas (exemplos) |
|---|---|
| 1️⃣ | Meta, OpenAI, Anthropic, Nvidia |
| 2️⃣ | Citadel (Securities), Netflix, Google, TwoSigma |
| 3️⃣ | RunwayML, Uber, xAI |
| 4️⃣ | Microsoft, Tesla, Tiktok, Stripe, Cruise |
| 5️⃣ | Lambda, Figure AI, Scale, Coinbase, Reddit, Adobe |
Atenção
Essa classificação é subjetiva e baseia‑se em opiniões pessoais; use‑a como referência geral, não como avaliação definitiva.
Perguntas de entrevista¶
O repositório contém mais de 100 questões, muitas delas marcadas com a empresa que as utiliza em seus processos seletivos. Abaixo segue um recorte representativo, com os termos técnicos destacados em negrito na primeira ocorrência.
- [Startup] Learning Rate Significance – Por que utilizamos valores menores de learning rate durante o treinamento em vez de valores altos como 1 ou 2?
- [Startup] Train‑Test Split Ratio – É sempre necessário usar uma divisão 80:20 para treino e teste? Caso contrário, como decidir a divisão ideal?
- Covariance vs Correlation – Qual a diferença entre covariance e correlation?
- Skewed Distributions Tendencies – O que acontece com a média, mediana e moda em distribuições assimétricas à direita e à esquerda?
- [Amazon] Robustness to Outliers – Qual métrica é mais robusta a outliers: MAE, MSE ou RMSE?
- [Automattic] Content vs Collaborative Filtering – Qual a diferença entre filtragem baseada em conteúdo e filtragem colaborativa em sistemas de recomendação?
- [TripAdvisor] Restaurant Recommendation System – Como construir um sistema de recomendação de restaurantes para o TripAdvisor?
- [Stanford] Ensemble Model Performance – Por que os ensembles geralmente obtêm pontuações maiores que os modelos individuais? Um ensemble pode ser pior que um de seus constituintes? Dê um exemplo concreto.
- [Bosch] Focal Loss in Object Detection – Explique o focal loss e sua aplicação em detecção de objetos.
- [Hedge Fund] Clock Hands Angle – Qual é o ângulo entre os ponteiros de um relógio às 3:15?
- [Startup] Optimizing Labeled Data – Como otimizar a quantidade de dados rotulados em aplicações reais? Liste três estratégias populares da indústria.
- Few‑Shot Learning Steps – Quais são os passos envolvidos no few‑shot learning (às vezes agrupado com meta‑learning)?
- [Startup] Greedy Layer‑wise Pretraining 1 – O que é greedy layer‑wise pretraining e como ele se compara ao congelamento de camadas em transfer learning?
- Freezing Transformer Layers – Por que pode ser vantajoso congelar camadas de transfer learning em arquiteturas de transformer?
- Dropout During Inference – O que acontece com o dropout durante a inferência? Deve‑se aplicar a mesma aleatoriedade usada no treinamento?
- [Tiktok] Importance of Variation in VAEs – Por que a variation é essencial em autoencoders variacionais (VAE)? O que acontece se removemos esse termo? Como isso se relaciona com a diferença entre NLU e geração de linguagem natural?
- Generative Model: Training vs Inference – Em que um modelo generativo difere entre treinamento e inferência no contexto de geração de texto?
- Subword Tokenization Explanation – O que é tokenização subpalavra e por que é preferível à tokenização por palavra? Nomeie uma situação em que não seja recomendável.
- Use of Sigmoid for Numerical Prediction – (continuação no repositório)
Essas questões abordam desde fundamentos estatísticos até tópicos avançados de aprendizado profundo, refletindo o tipo de desafio encontrado em entrevistas de empresas de topo.
Dica
Se você tem uma nova vaga ou deseja sugerir uma alteração no liste, envie um e‑mail para team@neuraprep.com conforme indicado no repositório.
Observações e uso¶
- O aviso de compensação mínima (US$ 300 mil/ano) serve como filtro para garantir que apenas empresas com pacotes atrativos estejam listadas.
- As perguntas podem ser estudadas individualmente ou usadas em simulados de entrevista.
- Contribua forkando o repositório, adicionando questões ou corrigindo imprecisões, seguindo o padrão de markdown já existente.
Nota pessoal
https://github.com/TidorP/MLJobSearch2025