Hackday – sessão #6

Nesta sessão foram integrados novos elementos com competências que estavam a ser necessárias. Aliás, este reforço representa uma injecção de mais dinamismo e energia. Ricardo, Rizo, Rui, Zé, são das ciências de computação, manifestando interesse também pela inteligência artificial, algoritmia. Um outro elemento, Eduardo, está confortável na área do multimédia, cinema, mas lida também com o php e html, xml. O João, das matemáticas, está ligado mais ao software de gestão, mas pretende fazer incursões por campos mais alargados de aplicação da informática. A este conhecimento novo que chega ao grupo, tínhamos já dentro de portas pessoas que trabalham com o Drupal, processing, agora também com o contributo da Sara.

Queremos estar salvaguardada, em termos de equipa, as etapas mais próximas e futuras do projecto Transparência. Programação, processamento de dados, visualização, questionamento e distância crítica em relação aos dados, a que a experiência do João pode ajudar bem como alguma orientação para a pesquisa e localização de fontes prestada pelo recente TIAC Transparência Internacional Associação Cívica.

Feitas as apresentações e os objectivos gerais do projecto, inspirados em modelos como They Work For You e They Rule, passou-se a fazer o ponto de situação em relação às duas linhas de projecto – Deputados e DAR.

Metodologia de trabalho

  • Gitorius como repositório de código e controlo de versões
  • Organização em grupos de trabalho: grupos da programação, visualização, etc.

Linha de trabalho do DAR

Melhoria do parsing das transcrições

  • correcção de datas e posição
  • teste a erros
  • outuput: csv  e xml

Análise das transcrições ao nível semântico, lexical

  • data mining
  • indexação automática
  • criação de ontologias, vocabulários
  • integrar sempre que possível RDF
  • identificação de temas abordados, incidências por deputado, partidos, distritos, legislaturas…
  • cruzamento com levantamento da parte legislativa no sentido de encontrar padrões, tendências

Linha de trabalho do DEPUTADOS

  • Scraping total do site parlamento.pt em tempo recorde, uma a duas semanas de forma a criar um mirror local
  • Criação da base de dados local
  • Criação de relações e consultas
  • Listagem de possíveis relações de tabelas, campos, para obter certos outputs

Visualização ( ao serviço do DAR e Deputados)

  • Solicitar queries pertinentes
  • Escolher as ferramentas adequadas para a visualização de determinados resultados e efeitos: gráficos, gráficos dinâmicos (chart motion), tags cloud, geolocalização, timelines, etc.
  • Avaliar eventuais efeitos perniciosos associados a uma visualização ou exploração de dados: não enveredar pela estatística simples e pura, procurando contextualizar sempre os resultados

Na própria sessão, ainda foi possível avançar nalgumas frentes. A tarefa do scraping ficou Vítor Silva explica o que já está feitoagendada e dividida por 6 participantes; o script em python está praticamente terminado e corrigidos os bugs para poder entrar em produção. Existe no Gitorius um exemplo de transcrição. O Eduardo num golpe de engenharia inversa descobriu como estão armazenados os pdf das transcrições. Isto permite descarregar em menos tempo as transcrições da 2ª série que ainda não tínhamos arquivadas localmente. Listas de organismos públicos está a ser criada para constituir parte dos vocabulários para análise e cruzamento de dados. Essa lista também vai ficar arquivada no Gitorius. Foram ainda criadas contas para todos no Gitorius e será feita uma breve introdução ao seu uso na próxima sessão de trabalho, agendada para 13 de Novembro.

NB Esta longa sessão de trabalho começou com o projecto das redes comunitárias sem fios de que se dá conta na wiki.

Publicado em Sessões | Tags | Publicar um comentário

Hackday – sessão #5

Sessão dedicada à discussão dos projectos, realização do ponto de situação e também à produção.

Análise da “concorrência”
Um dos pontos abordados foi a discussão da pertinência do Transparência Hackday após o lançamento do projecto Parlamento transparente, iniciativa do jornal Público.
Esta coincidência no tratamento do mesmo objecto, o sítio do parlamento.pt, e a associação à procura de maior transparência e proximidade dos cidadãos, não o é mais que na forma e intenção, porque as abordagens são distintas. Antes de mais, o grupo saudou a “concorrência” e reconhece que efectivamente o tema transparência está na moda. Analisando o trabalho do Público, verifica-se que é uma filtragem cirúrgica de alguns dados do Parlamento.pt e a criação de listas, cuja consulta em detalhe remete de novo para o Parlamento, com uma muito ligeira infografia e estatísticas.
Discutiram-se os pontos comuns e encontraram-se várias características diferenciadoras que continuam a justificar o mesmo entusiasmo e pertinência do projecto Transparência Hackday delineado anteriormente.

  • Primeira: o grande trunfo do Transparência Hackday reside no facto de disponibilizar os datasets, algo que o jornal Público não faz nem é a guerra do jornalismo; a nossa meta principal é chegar aos dados e dar acesso para que as pessoas possam livremente usá-los e relacioná-los como entenderem;
  • Segundo: a cobertura retrospectiva não parece estar contemplada no projecto do Público, o que ocorre no Transparência Hackday;
  • Terceiro: a visualização de dados pretende ser uma das vertentes mais marcantes do Transparência;
  • Quarto: a leitura e o filtro dos dados no Público é a que o jornal decide, mas no Transparência, procura-se que os filtros sejam as pessoas que decidam. Para ilustrar a diferença de posicionamento, referiu-se mesmo o top dos deputados com mais propostas legislativas e mais intervenções. O Transparência não quer ficar por um mero número. Os números são importantes, mas dar a possibilidade de os cruzar com outros dados pode fazer toda a diferença. Ou seja, a quantidade pode não ser sinónimo de qualidade. Permitir essa leitura dupla é uma mais-valia do Transparência.

Em suma, o Parlamento transparente só vem confirmar a relevância do tema e mostrar que a recolha e tratamento dos dados da Assembleia dizem muito da actividade parlamentar.

Futuro Transparência Hackday
Sobre o futuro do projecto Transparência, abordaram-se alguns aspectos:

  • Alojamento: embora sem premência imediata, é preciso ir preparando uma solução pois um serviço aberto pode estar sujeito a muitas requests. Numa fase anterior, optar-se-á por um servidor beta e cedência de password a um grupo de pessoas.
  • Apoio institucional: procurou-se o apoio da ANSOL, mas até à data não se obteve qualquer feedback. Portanto, esse esforço de contacto vai ser abandonado.
  • Registo: o registo dos datasets em domínio público ou com licença Creative Commons Share Alike é provavelmente a via mais recomendável para salvaguardar a neutralidade, abertura, acesso e reutilização dos dados no interesse da cidadania e participação dos cidadãos.
  • Parcerias: Transparência e Integridade, Associação Cívica contactou o Hacklaviva e mostrou-se interessada em conhecer pormenores dos planos na área da Transparência. O grupo saudou o interesse e forneceu informação, mas acha que é precoce estar a formalizar uma cooperação no imediato, já que a própria Associação Transparência e Integridade está ainda a criar o seu programa. A seu tempo poder-se-á concretizar aproximações num ou noutro ponto. A apresentação da associação na Universidade Lusófona em Novembro pode ser uma ocasião para estudar possíveis trabalhos em conjunto. Existe a possibilidade de disponibilizar servidor para o Transparência.
  • Plataforma: acerca do backend, o grupo tem a ideia muito bem definida – datasets, abertura, neutralidade. Acerca do Frontend, considera-se que não é desejável apontar uma única solução.

Ponto de situação dos trabalhos

  • Tratamento das sessões parlamentares – o Ricardo está na fase de corrigir os bugs do script para estender a sua aplicação a um corpus mais alargado de documentos. A Cláudia e a Ana já delinearam a próxima frente de trabalho, dar início ao tratamento temático ao material das sessões. O plano consiste em criar um ficheiro de palavras vazias que seja dado ao sistema no momento da indexação dos termos. Todas as palavras que se encontrem na lista vão ser rejeitadas e excluídas do índice. A estratégia será listar as palavras por categorias gramaticais, por forma a deixar como palavras nucleares e significativas do ponto de vista do conteúdo, os nomes e os verbos. Assim, preposições, advérbios, pronomes, nomes cujo uso repetido nas circunstâncias de um discurso, por si só não acrescentem à análise do tema abordado, ex. “senhor deputado”, “afirmou”, “disse”, etc. A leitura atenta das transcrições de algumas sessões dará certamente mais pistas da melhor forma de criar o ficheiro de texto de palavras vazias.
  • Visualização de dados - o Victor afirmou ter estado a ver o potencial do mapping para o projecto. Continua a tratar dados para a visualização dos deputados por legislatura.
  • Importação da informação dos deputados para Drupal - depois de testes com módulos como o Feeds, Table Wizard e Node import, a Cláudia e o Tiago consideram que o sucesso do import depende dos csv e da relação entre as tabelas na origem. O ideal é que todas as tabelas na BD estejam interligadas entre si de modo a evitar esse esforço de junção posterior. Nesta sessão, editaram um csv que conjugou os campos de duas tabelas (portanto 2 csv) e a importação foi transparente e bem sucedida. Neste facto, pode estar a acontecer uma de duas situações: as queries para obter os csv à BD não estão a ser bem feitas, estando a retirar-se um csv por tabela, quando é possível fazer uma consulta na BD multi-tabela; a gestão de registos criados a partir de multi-tabelas e com campos multi-valor é perfeitamente possível ao nível do Drupal, mas requer uma expertise e solicita imenso o sistema, sobretudo se pensarmos nos milhares de nós com que o sistema tem de lidar. A percepção do Tiago e da Cláudia é a da que seria muito importante haver o máximo de flexibilidade na saída dos dados: resultados de uma tabela completa; resultados de alguns campos de uma tabela; resultados da combinação de tabelas.
  • Documentação e diversos – A Ana e o Daniel estiveram a acertar questões de configuração de ficheiros, encoding e a analisar a documentação do projecto. O Daniel criou um espaço no GitHub para que seja possível guardar aí código, sources, de forma mais clara e acessível. O endereço é: http://github.com/idnael/transparenciapt
  • Listagens a criar – duas listas devem ser objecto da atenção dos elementos. Neste momento ninguém está a tratar disso…
    • Fotografias dos deputados – o parlamento.pt não tem retratos. Fontes possíveis são a Wikipédia e o Parlamento transparente, embora esta última tenha o inconveniente de ser apenas referente à actual legislatura e poder tratar-se de fotos do arquivo do jornal e sujeito às leis de direito autoral.
    • Nomes abreviados – no parlamento.pt a forma dos nomes é a forma completa. Porém, para a análise das sessões vai interessar ter a lista de todos os deputados pela forma abreviada, pela qual são designados e conhecidos. A Wikipédia tem as duas formas, sendo uma boa fonte para essa recolha. Nesse sentido, quem tiver meios e ideias para automatizar o processo, comunique a intenção e avance.

Redes comunitárias wi-fi
O último tema tratado foram as redes comunitárias sem fios, tendo estado o Sérgio a inteirar-se da documentação relativa à Unimos.net e Guifi.net
Em grupo, começou-se por referir os locais de instalação das antenas, todos eles altos, de acesso fácil e consentimento possível junto dos responsáveis. A saber: último andar de um prédio a 30 metros do Hacklaviva, espaço Musas (no Marquês), Alves Redol, edifício da Gest.
O Sérgio, com bastantes conhecimentos nesta área, recomendou que se acrescentasse às fontes, o Fórum Wireless.pt que era (e pensa que ainda é) bastante dinâmico. Disse ainda que a sul, no Algarve, existem várias comunidades locais fervilhantes.
O próximo passo consiste em montar algumas antenas para conseguir access points para testes. Nessa altura, vai ser mais fácil avaliar as necessidades de localização e se a topografia portuense afecta muito ou não o sucesso da empresa. Porque apesar do Porto não ser uma cidade muito dispersa geograficamente, tem prédios bastante altos e ruas muito estreitas que podem dificultar muito a chegada de sinal.
O Ricardo contactou por email o José Monteiro da Unimos para agendar uma ligação Skype mais técnica. Foi criada uma página na wiki do Hacklaviva para este projecto. Desta forma, fica mais fácil o acesso à informação e à edição da mesma sempre que se justifique.

Publicado em Sessões | Publicar um comentário

Hackday – sessão #4

As sessões do Hacklaviva sucedem-se a bom ritmo, intercaladas por encontros como a das Redes comunitárias wi-fi no dia 15 com a presença de Al da Guifi.net e José Monteiro da Unimos.net

O saldo desse evento foi muito positivo e estimulante, pela natureza do projecto, pelos comunicadores e pelos contornos que o panorama das redes e da grande rede Internet podem vir a tomar nos tempos mais próximos. Esse foi aliás um tema abordado neste 4º encontro do Transparência, já que actualmente se fala no Internet kill switch nos EUA. Cada vez faz mais sentido a neutralidade, a rede livre e aberta, como praticado pelos projectos acima mencionados e exposto pelos seus representantes.

Foram discutidos alguns aspectos do plano do Hacklaviva para concretizar um projecto desta natureza com o apoio da Unimos e da Guifi. Visto estarem poucos elementos (Ricardo, Tiago, Cláudia e Vítor), apenas se delinearam algumas ideias:

  • o projecto contará com o apoio técnico e institucional das duas entidades;
  • a Unimos tem possibilidade de ceder algum material de 1ª geração para as experiências iniciais da comunidade Hacklaviva;
  • a documentação base para levar a cabo o projecto encontra-se tanto no site da Guifi como no da Unimos
  • a ligação por Skype poderá ser uma boa solução para uma fase em que o apoio técnico terá de ser mais próximo
  • a comunidade Hacklaviva integra elementos com conhecimentos específicos em redes e/ou administração de redes, pelo que serão directamente consultados no sentido de conhecer a sua disponibilidade;
  • o contacto com a UP pode ser bastante interessante numa fase pós-arranque, em que se tenha já algo no terreno e alguns dados de 2 ou 3 meses de monitorização. A UP tem bastante material wi-fi encostado e é uma entidade que daria grande visibilidade e viabilidade ao projecto;
  • a cooperação Galiza/ Norte de Portugal (inclui Porto) na Euroregião Eixo Atlântico abre possibilidades de ligar Vigo e outros centros, já com redes comunitárias, a Portugal;
  • a estreia de uma rede comunitária sem fios entre Aliados e Clérigos, com escolha de ponto alto para localização estratégica de antena. Uma designação como “Nós na Baixa” seria duplamente curiosa pela força do nós. Acesso para todos sem barreiras e controlo pelos utilizadores.

No âmbito do projecto Future Places, ficou agendado o dia 2 de Outubro para reunir os materiais e “produtos” a levar ao evento. A mostra da tag cloud das profissões, a apresentação do motion chart das legislaturas/ partidos, tudo em vídeo ou imagem, para não haver necessidade de usar navegador e apresentação ao vivo.

O trabalho realizado nesta sessão focalizou-se numa alternativa ao módulo Feeds para Drupal. Foi instalado um módulo muito mais potente e versátil para trabalhar com múltiplas tabelas – o Table Wizard. As 3 tabelas (MP, Caucus e Facts) foram introduzidas na BD do Drupal de testes e foram relacionadas entre si. Isto permite criar views (displays) dos dados, mas ainda há aspectos a limar, como ganhar mais controlo na visualização dos dados e evitar as múltiplas entradas de um mesmo deputado, quando o que se pretende é a reunião num mesmo ponto da informação relacionada com a chave-primária (o id do deputado).

Publicado em Sessões | Publicar um comentário

Deputados arguidos

Surgiu na sessão #3 pela mão do Bernardo o interesse em integrar no registo de deputado eventual envolvimento em casos e visados em processos da Justiça. Não foi discutida nenhuma fonte para esta natureza de dados, mas o seu interesse é indiscutível. Alguns nomes que têm passado pela comunicação social e estado envolvidos em casos de corrupção, abuso de poder, vêm de imediato à cabeça sem que seja sequer necessária investigação: José Sócrates, Isaltino Morais, Ricardo Rodrigues. Fica registada a ideia para alguém pegar.

Publicado em Questões a formular | Publicar um comentário

Hackday – sessão #3

Mais um encontro Hacklaviva-Transparência com algum trabalho e realização do ponto de situação. E foram vários os pontos abordados.
No que se refere a actividade próxima, a presença no evento Future Places (de 12 a 16 de Outubro, Porto) ficará assinalada mais pela exposição do conceito do que propriamente pela apresentação de resultados. Contamos poder mostrar já alguns produtos como a visualização de profissões mas o forte vai incidir na explicação do projecto em si e na metodologia seguida.
Sobre o projecto propriamente dito, foram discutidos alguns aspectos que brevemente começarão a ter de ter contornos mais precisos. A questão do servidor com capacidade para processar pedidos vai ter de ser muito bem trabalhada. Também a disponibilização da BD, que numa primeira fase estará apenas acessível a poucos, em versão beta e para testes, será um ponto de honra. Vemos o tronco principal do projecto como a reunião e disponibilização dos dados de forma neutra e acrítica. Paralelamente, podem ser trabalhadas miniaplicações com selecção e análise de dados que visem pôr a descoberto facetas da realidade: aberrações, distorções, desequilíbrios nos padrões, que desmascarem situações de eventuais promiscuidades, falta de transparência, favorecimentos, etc. Assim, a recolha dos dados não deve visar pessoas em específico ou partir de pressupostos tidos como certos.
Para o interface, existem muitas possibilidades, entre as quais um simples motor de pesquisa à semelhança do Google, uma colecção de widgets com diferentes visualizações e tratamento dos dados. Este segundo modelo parece ser mais condizente com a natureza da equipa e o processo de trabalho implementado. O mais natural é cada pessoa ou pequeno grupo acrescentar uma solução que enriquece o conjunto, não ficando constrangido pelo ritmo de desenvolvimento dos demais nem pelas soluções tecnológicas adoptadas.
A propósito da frente de trabalho do Diário da República, agora numa fase de testes e correcção de bugs, discutiu-se a necessidade de começar a apostar com método na análise de temas e língua. Neste sentido, voltámos ao tema da criação de listagens prévias, espécie de índices, que possam ser contrastados com o texto extraído das sessões. A prioridade vai para uma lista de empresas, tendo para o efeito realizado contacto junto da Ansol e do projecto Transparência AP, no sentido de obter uma matriz que poderia abreviar o tempo de investigação. Caso não seja possível, existem as seguintes bases de recursos: base.gov.pt, INE, PorData (tem, contudo, ficheiros excel muito formatados).

Outra lista que é importante realizar é a dos nomes abreviados dos deputados, pois é por essa designação que são referidos nas sessões parlamentares. A Ana descobriu que na Wikipédia existe uma página dos deputados portugueses com nome completo e nome pelo qual são conhecidos. Recolher esses dados e eventualmente outros aí disponibilizados automaticamente seria óptimo. Nesse sentido, vai tentar usar a ferramenta Dapper.

Relativamente ao trabalho concretizado, o Bernardo prosseguiu a investigação em torno do modelo inglês. À semelhança do que acontece no RU com o País de Gales, Escócia e Irlanda do Norte, chamou a atenção para não ser esquecida a realidade dos parlamentos das regiões, cujas sessões estão também disponíveis.
O Ricardo esteve a corrigir bugs no script que faz o parsing dos ficheiros dos Diários da República e redigiu um excelente artigo a apelar à colaboração e à comunicação de erros. A Ana escreveu à Ansol e esteve com a Cláudia a fazer o levantamento de falhas nos ficheiros extraídos da BD, pois na importação dos .csv para o Drupal foram detectados pequenos erros que impedem que o parsing e a criação dos conteúdos saia perfeita. Listamos as falhas abaixo que decorrem dos ficheiros php resultantes das queries à BD (todas realizadas no dia 1o de setembro). O ficheiro mais explorado foi o da tabela MP.

  • ocorrência de quebras de linha a meio de uma linha de dados (geralmente entre os caracteres 68 e 73)
  • salto de linha no ficheiro informacaoDeputado.php (linha 3077 não existe!)
  • falta de normalização das profissões (género, maiúsculas/ minúsculas, texto descritivo irrelevante). Verificámos ainda que na importação por csv, usando a , (vírgula) como separador, quando existe referência a mais do que uma profissão, a pontuação usada é ;  / e , Esta vírgula revelou-se fatal. Achámos que seria conveniente retirar toda e qualquer pontuação neste campo para não entrar em conflito com a pontuação do sistema.

O Victor ajudou na importação dos ficheiros .csv no Drupal e esteve a normalizar o ficheiro com todas as legislaturas e partidos (tabela Caucus) para aplicar a visualização em Drupal. Neste levantamento, necessitou de pesquisar informação sobre o número de deputados elegíveis para cada legislatura, porque os deputados eleitos são sempre em número superior. Esses dados encontrou-os no Portal do Cidadão e vão dar mais sentido ao que se visualiza.

Publicado em Sessões | 2 Comentários

Decifrando o Diário da Assembleia da República

Um dos trabalhos que estamos a desenvolver no Transparência Hackday é o processamento do Diário da Assembleia da República.

Estamos, para já, a concentrar-nos na 1ª série do documento, que junta as transcrições de todas as sessões parlamentares desde 1998. Esta informação é um tesouro para cruzar informações e fazer vir ao de cima várias particularidades — desde temas que foram discutidos, até expressões comuns. Queremos torná-la acessível através de uma base de dados simples, onde possamos cruzar as intervenções com as informações dos deputados.

O primeiro problema é que toda esta informação está disponível apenas em formato PDF no site do Parlamento, e não há forma de descarregar tudo de uma vez. Para isso, usámos a extensão DownThemAll para o Mozilla Firefox de forma a poder baixar todos os links PDF que encontramos em cada página.

A partir daí, passámos a converter os ficheiros PDF para ficheiros de texto, com recurso ao comando pdf2txt (incluído na package poppler-utils no Ubuntu).

Depois, fizemos um script em Python para analisar os ficheiros que obtivemos, e criar um ficheiro CSV onde esteja identificado o orador, partido e o conteúdo de cada intervenção.

O script pode ser encontrado no repositório do Transparência aqui.

Já existe um conjunto dos ficheiros CSV disponível aqui. Existirão ainda muitas inconsistências e erros na análise automática dos dados, já que ainda não testámos extensivamente os resultados — testámos apenas com alguns documentos da XI Legislatura, por isso será aí o melhor sítio para começar. (Se nos quiseres ajudar, avisa-nos dos erros que encontrares nos ficheiros no bug tracker do Transparência.)

Agora o nosso esforço vai ser afinar pormenores no script de análise, ir actualizando o nosso arquivo de CSV’s, e começar a fazer cruzamento de informação, bem como pensar em formas de análise linguística destes conteúdos.

Publicado em Notícias | 1 Comentário

Hackday – sessão #2

Mais uma sessão de hackerismo radical com muito afinco e algumas dificuldades.
Passa-se a uma breve síntese do que cada elemento esteve a fazer e em que ponto ficou.

O Vítor Silva esteve a criar o ficheiro xml de feeds (escolheu o formato Atom) para automatizar o processo de disponibilização de dados a CMS. Os testes foram realizados com o Drupal e com o Managing News (profile do Drupal). Detectaram-se alguns problemas de renderização de informação. Também se concluiu que o Feeds Importer com as configurações default se adequa mais a conteúdos news/ post, em que há title, description, link, published, author. Perante isto, há duas alternativas: adaptar o conteúdo a importar às tags existentes; pesquisar de que modo seria possível criar tags personalizadas e embebê-las no mapping do feed item. Existe a indicação clara no blog do Development Seed em como é possível agendar importações regulares de csv.

O Victor Cardoso realizou uma experiência de visualização dinâmica da relação nº deputados por partido/ nº de círculos eleitorais ao longo do tempo, leia-se legislaturas. Usou para o efeito o Motion Chart do pacote de módulos de visualização da Dataviz. O teste foi realizado com um ficheiro .csv na plataforma do Dataviz, mas a ideia na futuro é instalar o dito pacote em Drupal ou gerar widgets para embeber onde se desejar. Fica aqui a amostra deste primeiro ensaio.

Outra frente de trabalho foi a edição do ficheiro “deputados_rede_social.ods” que lista deputados que estão a usar redes sociais. Sendo o MPID (número de identificação unívoco os deputados na plataforma da AR) o único critério fiável para compilar dados, teve de ser associado cada deputado e respectivas redes a esse MPID, mediante consulta do website parlamento.pt
O ficheiro ficou terminado no final da sessão para que a nova informação seja integrada à base de dados geral. Quem encontrar novos dados da rede social dos deputados deve comunicá-los ao Vítor Silva que os introduz na BD.

O Bernardo Santos iniciou a pesquisa de case studies de projectos ligados ao tema da Transparência. Explorou o The Public Whip, que foi referência para o próprio They Work For You, um outro caso a analisar com cuidado. Este levantamento consiste em tentar perceber de que modo está organizada a informação, o que é matéria de interesse e formas de apresentar e explorar informação pública dos parlamentos e seus deputados, feitas as devidas salvaguardadas em relação às diferenças de estilo e funcionamento de parlamentos, no caso inglês e português.
Está focado na identificação de categorias e critérios de pesquisa e formulação de queries aos dados compilados que possam ser transversais e estendidos à realidade portuguesa. Exemplos: políticas, empresas, organismos, etc. e efeitos de consenso ou clivagens que desencadeiam no universo e actividade parlamentares. A ideia é criar com as categorias, subcategorias e relações eventuais entre elas, uma estrutura, uma espécie de classificação de temas, que ajude na clarificação de linhas de acção e permita criar índices e listas de categorização dos conteúdos.

A Ana Carvalho dedicou o esforço desta sessão na actualização da wiki, precisamente na secção do Hacklaviva. O suporte documental e a traçabilidade de acções, ideias que vão sendo discutidas ou testadas exigiu para já uma mais efectiva estruturação da informação.
A opção seguida foi a de listar na página inicial do Hacklaviva todos os projectos em curso a que serão adicionados futuros projectos. Cada projecto abre para uma nova página em que são listados tópicos tidos como essenciais para dar a ideia à comunidade participante. São eles:

  • o que se pretende (objectivos),
  • o que se está a fazer (tarefas),
  • de que forma se pensa fazer e se está fazer (ferramentas),
  • listas de recursos próprios, caso de ficheiros de parser, ficheiros .csv, etc., ou externos, como bibliografia, pessoas/ entidades com experiência, glossários, etc. (documentação).

Relacionada ainda com a documentação, o Bernardo defendeu o interesse de listar algumas fontes que expliquem o funcionamento da AR e do sistema parlamentar, para que seja possível questionar de forma mais inteligente e eficaz os dados.

O Ricardo Lafuente terminou o script em phyton que transforma os pdf dos Diários da Assembleia em ficheiros csv. O dito script foi testado com 1 pdf apenas, mas o passo seguinte será alargá-lo para um conjunto de pdf e por fim à totalidade das transcrições. Estas existem desde 2002 e por ano são criadas em média 100.

O Tiago Assis experimentou o import de feeds gerado pelo Vítor no sistema Managing News. Além disso, esteve a testar várias possibilidades desta ferramenta para o projecto. Há três pontos claros acerca do interesse e limitações desta ferramenta para o projecto:
ideal para integrar deputados e/ou actividades com dados geográficos

  • possibilidade de associar notícias de agregadores (Google News, Yahoo News, etc.) de notícias a deputados
  • necessidade de criar listas de tópicos (categorias) que ajudem a relacionar de forma pertinente e significativa notícias a dados do projecto
  • estudo da exequibilidade de estender as tags por default do formato feeds a qualquer tag ou tipo de conteúdo que se deseje recolher e agregar.

A Cláudia Amorim apresentou uma instalação Drupal já com os nodes (registos individuais) de cada deputado, tendo utilizado para o efeito o ficheiro csv da identificação dos deputados. Recorreu-se ao módulo Feeds e à função Feeds importer/ node import. Com base no campo das profissões desse mesmo ficheiro, foi gerada automaticamente uma lista de vocabulário das profissões que com a dupla cumulus+tagadelic gerou uma nuvem dinâmica das tags. Também testou em ambiente Drupal o ficheiro de feeds atom criado pelo Vítor Silva.

Em relação a esta sessão, todos os elementos, que acharem que se justifica, são convidados a criar uma entrada com mais detalhes acerca do que conseguiram realizar e próximos passos.

Publicado em Sessões | Tags , , , , , , | 1 Comentário

Estrutura de dados

Por enquanto estamos a recolher a informação para 3 tabelas:

  • MP
  • Caucus
  • Facts

Dados base dos deputados. o campo occupation, considerando que por vezes pode incluir mais do que uma profissão não deverá ser usado, preferindo o valor calculado que existe na tabela facts
CREATE TABLE IF NOT EXISTS `MP` (
`ID` int(11) NOT NULL auto_increment,
`MPID` int(11) NOT NULL,
`Name` varchar(255) collate latin1_general_ci NOT NULL,
`DateOfBirth` varchar(50) collate latin1_general_ci NOT NULL,
`Occupation` varchar(255) collate latin1_general_ci default NULL,
`CreatedOn` datetime NOT NULL,
PRIMARY KEY  (`ID`)
) ENGINE=MyISAM  DEFAULT CHARSET=latin1 COLLATE=latin1_general_ci AUTO_INCREMENT=15703 ;

Dados base das legislaturas. é simplesmente a copia da tabela html com a indicação de todas as legislaturas em que um deputado participou e mais alguma informação especifica dessa legislatura.
o campo dates tem sempre a indicação do periodo de vigencia da legislatura
os campos hasActivity e hasRegistoInteresses podem servir para posteriormente saber quais os deputados que têm essa informação para a ir buscar
CREATE TABLE IF NOT EXISTS `Caucus` (
`ID` int(11) NOT NULL auto_increment,
`MPID` int(11) NOT NULL,
`CaucusID` varchar(10) collate latin1_general_ci default NULL,
`Dates` varchar(250) collate latin1_general_ci default NULL,
`Constituency` varchar(255) collate latin1_general_ci default NULL,
`Party` varchar(255) collate latin1_general_ci default NULL,
`HasActivity` bit(1) NOT NULL,
`HasRegistoInteresses` bit(1) NOT NULL,
`CreatedOn` datetime NOT NULL,
PRIMARY KEY (`ID`)
) ENGINE=MyISAM DEFAULT CHARSET=latin1 COLLATE=latin1_general_ci AUTO_INCREMENT=13590 ;

Atributos dos Deputados. Como se resume essencialmente a um par nome, valor achei que seria suficiente por agora ter uma estrutura deste género
CREATE TABLE IF NOT EXISTS `Facts` (
`ID` int(11) NOT NULL auto_increment,
`MPID` int(11) NOT NULL,
`FactType` varchar(50) collate latin1_general_ci NOT NULL,
`Value` varchar(500) collate latin1_general_ci NOT NULL,
`CreatedOn` datetime NOT NULL,
PRIMARY KEY  (`ID`),
KEY `FactType` (`FactType`)
) ENGINE=MyISAM  DEFAULT CHARSET=latin1 COLLATE=latin1_general_ci AUTO_INCREMENT=23342 ;
Facts

Publicado em Notícias | Publicar um comentário

Visualização #2 – Profissões

Visualização criada a partir da lista de profissões dos deputados obtida através do serviço informacaoDeputado, opcao MP: http://www.oportoemconversa.com/datagovpt/informacaoDeputado.php?key=aTuaChave&opcao=MP

Publicado em Notícias | Tags | Publicar um comentário

Visualização #1 – Nomes

Visualização criada a partir da lista de nomes obtida através do serviço informacaoDeputado, opcao MP: http://www.oportoemconversa.com/datagovpt/informacaoDeputado.php?key=aTuaChave&opcao=MP

Publicado em Notícias | Tags | Publicar um comentário