-
-
Notifications
You must be signed in to change notification settings - Fork 23
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
¿Tiene sentido incorporar las elecciones autonómicas? #2
Comments
En mi opinión, no tiene sentido un único frente para acometer esa tarea, sería muy costosa y veo mayor potencial invirtiendo ese tiempo en otras prioridades. No obstante, creo que podrías liderar un esfuerzo colaborativo, al estilo crowdsourcing. Si proporcionas unas especificaciones de datos sólidas, o unas especificaciones para una API completas, diversos voluntarios se podrían adherir y con el tiempo mantener su comunidad autónoma. Por último, aunque no es únicamente aplicable a este problema, creo que adoptar una filosofía similar a los microservicios para un proyecto colaborativo de open data puede ser muy beneficioso. En un hipotético caso, cualquier colaborador dispondría de un servicio API al que enviar datos (llamado Chanchullopedia API pej.) que funciona como un marketplace de diversas fuentes de datos. Esto permitiría dividir una tarea costosa, como la de recolectar datos autonómicas, entre colaboradores con un protocolo pactado y especificaciones. |
En mi opinión, si se documenta un formato de datos homogéneo cualquiera puede ir creando scripts o adaptadores que se descarguen los datos de las diferentes administraciones y los conviertan al formato de salida deseado. Sentido tiene, sobre todo si el propósito final de este proyecto es descubrir los chanchullos , sobre todo teniendo en cuenta que los más grandes escándalos de corrupción han sido a nivel autonómico en su mayoría, no me extrañaría que hubiera más chanchullos pequeños. No obstante puede ser mucho trabajo para el proyecto principal, por eso dejar una API como dice @beatplus , o un formato de fichero común hará que la gente pueda contribuir mientras en el proyecto principal se emplea el tiempo en otras cosas. Si alguna comunidad no es procesable automáticamente pues no se crea adaptador para ella, pero para los que si las tengamos mejor, supongo |
Me parece todo bien. En resumen:
|
Añadiría un paso 0, proporcionar una estructura básica de datos deseados para este caso específico (columnas necesarias, posibles valores y formatos). Dado que una API e ingestión de datos es un proyecto más ambicioso, subidas de ficheros en masa con una misma estructura puede ser un buena solución intermedia |
Creo que estaría bien tener cuantos más datos posibles mejor, pero con varios frentes abiertos de forma colaborativa. Una plataforma tipo Kaggle en que los usuarios pueden publicar y utilizar datasets. Lo mejor sería un sistema en que poder leer y escribir datos tanto desde el navegador (formatos CSV, JSON y similares) y mediante API (lo mejor sería REST y/o GraphQL) para usar programáticamente. Con lo cual habría que
|
La fuente primaria parece esta página de la Junta Electoral Central, que enlaza a a su vez a los boletines autonómicos en cuestión, cada uno de los cuales hay que procesar por separado. Una primera estimación de esfuerzo: hay 19 autonomías y ciudades autónomas, y unos 10 procesos electorales en cada una (aproximadamente), lo que supone procesar en torno a 200 documentos PDF. |
He procesado el sitio de la JEC y ahora puedo concretar un poco más. Se trata de exactamente estos 192 procesos electorales. La mayoría de ellos conlleva un fichero PDF, pero algunos procesos tienen ficheros adicionales con corrección de errores:
|
He parseado los PDFs de los años 2015 y 2019 para la Comunidad de Madrid en este repositorio. Me gustaría saber cómo podría aportar los datos a este repositorio. Creo que cobrarían mas valor si hubiera alguna manera de estandarizarlos con el resto de los datos. El esquema del CSV que se genera es este:
Iterando en esta idea, ¿crees que podríamos llegar a definir ese formato?. Quiero seguir trabajando para hacer más transparentes los datos de Madrid y me gustaría unificar esfuerzos en este sentido. Estoy seguro que habría mucha más gente interesada en sumarse a esta iniciativa. |
En primer lugar gracias por remangarte con todo esto @JaimeObregon Esta "issue" se puede resolver técnicamente pero entiendo que sería mejor que la administración se hiciera cargo de publicar esta información adecuadamente. ¿Habéis intentado realizar una petición de datos al portal de datos abiertos? ¿El esquema del csv que comenta @franloza sería suficiente o hace falta algo más? |
Lo he documentado en la sección de las elecciones autonómicas: el Ministerio no ofrece ningún dato de ellas, y habría que acudir a los portales de cada gobierno autonómico. Y son 17, más dos ciudades autónomas.
Y en estos portales los datos —los de candidaturas y candidatos como mínimo— no tienen siquiera por qué existir de forma reutilizable. Y en caso afirmativo, habría que escribir funciones a medida para importar los registros de cada comunidad y homogeneizar su tratamiento con el que se hace aquí para el resto de procesos electorales de que el Ministerio sí es responsable.
Se trata, en definitiva, de un esfuerzo importante con un retorno impredecible, pues con toda seguridad no podrán obtenerse datos electorales reutilizables de todas las comunidades autónomas. Y de las que sí, cada una lo hará desde un año diferente.
Por lo tanto cabe aquí lanzarse una pregunta: ¿merece la pena este esfuerzo para incorporar los datos de las elecciones autonómicas, o nos resignamos sin ellos?.
The text was updated successfully, but these errors were encountered: