Estou fazendo uma análise com um milhão de obervações e acho, apesar de improvável, que idade pode ser confounding de uma relação entre duas outras variáveis que estou interessado. A questão é que meu banco de dados não tem idade, mas tem o primeiro nome.
Não estou interessado na idade exata e sim quem é mais velho que quem no banco (uma escala da idade). Pensei em usar a distribuição dos nomes por nascimentos (por 100 mil) do IBGE (a partir de 1970 até 2000, já que alguém que nasceu antes de 1970 e depois de 2000 é improvável estar na base) para estimar a idade mais provável de cada um dos nomes.
O número do IBGE seria ponderarado pela quantidade de pessoas vivas em cada faixa etária, assim se nasceram 100 José em 1970, mas morreram 20 (supondo que 20% da população nascida em 1970 está morta) e nasceram 90 em 2000 e morreram 1, José seria um nome de 2000 (89>80) ainda que nasceram menos José em 2000 que em 1970.
Duas perguntas:
- Isso é totalmente absurdo?
- Se não, o IBGE tem esses dados em algum lugar? (frequências dos nomes por nascimentos por censo)