Estou tentando cruzar dois bancos de dados enormes. Uma tem 15 milhões de linhas e outra uns 25 milhões. As duas são dataframes em Pandas. No momento, estou dividindo uma das bases (a com 15 milhões) em bases menores (com cerca de 10000 linhas (isso é necessário para a pauta) e depois disso cruzando com a base maior.
Esse cruzamento é feito primeiro transformando as colunas que eu quero cruzar em listas. Depois, cruzo as duas listas com o seguinte comando:
resultados = list(set(lista_maior) & set(lista_menor))
Como é de se imaginar, o processo demora MUITO tempo. Queria a ajuda de vocês para tentar descobrir um jeito que demore menos. Alguém tem alguma ideia de como melhorar esse processo?