yaml – Silveira Neto

Eu nÃ£o achei onde coletar os dados diÃ¡rios de rentabilidade dos fundos de investimento do Banco do Brasil em formato bem estruturado.

Num mundo ideal as coisas seriam assim, vocÃª faria uma requisiÃ§Ã£o numa url como esta:

http://bb.com.br/apps/rentabilidade?fundo=Siderurgia&saida=xml

E ele cuspiria um XML com as informaÃ§Ãµes da rentabilidade diÃ¡ria desse fundo, isso se eu nÃ£o especificasse atravÃ©s de outro parÃ¢metro qual a data ou intervalo de datas desejado ou outro tipo de dados para saÃda como YAML ou JSON. Mas por enquanto nÃ£o temos isso, nem unicÃ³rnios, entÃ£o temos de fazer as coisas do jeito mais difÃcil, que Ã© puxando os dados feitos para humanos e escrevendo um programa pra extrair Ã forÃ§a os dados que desejamos e quem sabe usar eles para algum uso relacionado a mineraÃ§Ã£o de dados.

A primeira abordagem que eu tentei foi a de criar um desses pequenos parsers XML que eu jÃ¡ mostrei como fazer antes, mas o cÃ³digo fonte desse documento se mostrou muito incompatÃvel com o XML que o parser estava disposto a trabalhar. A soluÃ§Ã£o alternativa foi tratar o documento linha a linha.

import urllib

# abrimos o documento referenciado pela url
url = 'http://www21.bb.com.br/portalbb/rentabilidade/index.jsp?tipo=01'
documento = urllib.urlopen(url)

# fundo de investimento que me interessa
fundo = 'small caps'

# estados
INICIO = 0
ACHOU_FUNDO = 1
FIM = 2

# estado inicial
estado = INICIO

# vamos analisar linha a linha do fluxo do documento
for linha in documento:
	# simplificamos, tudo pra minusculas
	linha = linha.lower()

	# no inicio, procura uma linha que tenha o fundo
	if estado == INICIO and linha.find(fundo) != -1:
		estado = ACHOU_FUNDO

	# depois, procuramos o proximo inicio de tabela html.
	# dessa linha, pegamos o que vem depois do primeiro >
	# e entao o que vem antes do primeiro <
	# e trocamos a virgula por ponto.
	elif estado == ACHOU_FUNDO and linha.find('>')[1].split('<')[0].replace(',','.')
		estado = FIM

E para usar:

$ python rendimento_small_caps.py
0.881

Geralmente estamos mais interessados em saber o valor da cota daquele fundo, daÃ podemos calcular o rendimento total sabendo a cota que compramos a aÃ§Ã£o inicialmente. Nesse caso o dado estÃ¡ na 11Âº coluna.

import urllib
 
# abrimos o documento referenciado pela url
url = 'http://www21.bb.com.br/portalbb/rentabilidade/index.jsp?tipo=01'
documento = urllib.urlopen(url)
 
# fundo de investimento que me interessa
fundo = 'small caps'
 
# estados
INICIO = 0
ACHOU_FUNDO = 1
FIM = 2
 
# estado inicial
estado = INICIO
coluna = 0
 
# vamos analisar linha a linha do fluxo do documento
for linha in documento:
	# simplificamos, tudo pra minusculas
	linha = linha.lower()
 
	# no inicio, procura uma linha que tenha o fundo
	if estado == INICIO and linha.find(fundo) != -1:
		estado = ACHOU_FUNDO
 
	# para cada coluna, conta a coluna, mas nao faz nada
	elif estado == ACHOU_FUNDO and linha.find('<'):
		coluna += 1
 
	# quando chegar na coluna onze, retira o conteudo entre os sinais > e <
	# e troca virgula por ponto, transforma em float e joga na tela
	if estado==ACHOU_FUNDO and coluna == 11:
		print float(linha.split('>')[1].split('<')[0].replace(',','.'))
		estado = FIM

$ python cota_small_caps.py
6.156906634

Essa Ã© uma abordagem que eu nÃ£o gosto nem recomendo porque ela Ã© muito frÃ¡gil e estÃ¡ extremamente acoplada a formataÃ§Ã£o de dados para humanos. Esta formataÃ§Ã£o estÃ¡ interessada no saÃda grÃ¡fica que o usuÃ¡rio vai obter e nÃ£o em facilitar a extraÃ§Ã£o (nÃ£o humana) desses dados. Isso torna a soluÃ§Ã£o muito frÃ¡gil:

Se mudarem os nomes internos dos elementos, a soluÃ§Ã£o pode falhar.
Se mudarem a formataÃ§Ã£o da tabela, a soluÃ§Ã£o pode falhar.
Se mudarem a disposiÃ§Ã£o interna dos elementos html, a soluÃ§Ã£o pode falhar.
Se mudarem a url do documento, a soluÃ§Ã£o vai falhar.
Se o documento nÃ£o puder mais ser tratado linha a linha, a soluÃ§Ã£o vai falhar feio.

Ã‰ provÃ¡vel que quando vocÃª estiver lendo isso ela nem funcione mais do jeito que estÃ¡ descrita aqui.

Por outro lado, a soluÃ§Ã£o funciona e nesse caso Ã© o que me interessa. Quando ela quebrar, se ainda for do meu interesse eu posso rapidamente conserta-la e os dados jÃ¡ coletados no passado continuam vÃ¡lidos.

Isso somadoÂ a uma programa como o Cron pode se tornar uma ferramenta realmente poderosa.

Let sandwich.xml be a file at /tmp directory with the content above.

We can open it using java.io.FileInputStream and so use it on a javafx.data.pull.PullParser. A PullParser is a event oriented parser that works with XML and YAML files. Above a general and simple parser with a GUI that show the list of events during the parse process.

import java.io.FileInputStream;
import javafx.data.pull.Event;
import javafx.data.pull.PullParser;
import javafx.ext.swing.SwingList;
import javafx.ext.swing.SwingListItem;
import javafx.scene.Scene;
import javafx.stage.Stage;

var list = SwingList { width: 600 height: 300 }

var myparser = PullParser {
   documentType: PullParser.XML;
   onEvent: function (e: Event) {
      var item = SwingListItem {
         text: "event {e}"
      };
      insert item into list.items;
   }
   input: new FileInputStream("/tmp/sandwich.xml");
}
myparser.parse();

Stage {
   title: "XML Sandwich"
   scene: Scene { content: list }
}

The XML cheese element produce two the outputs.

type:1 typeName:START_ELEMENT level:1 qname:cheese text:” namespaces:{} attributes:{type=chedar}
type:2 typeName:END_ELEMENT level:1 qname:cheese text:” namespaces:{} attributes:{type=chedar}

Notice that white spaces like tab and escape characters like new line also produced events from type TEXT. We are not interested on them. Above a parser that looks only those events of type START_ELEMENT or END_ELEMENT, look into it’s contents, building a sandwich at runtime based on the XML file.

import java.io.FileInputStream;
import javafx.data.pull.Event;
import javafx.data.pull.PullParser;
import javafx.data.xml.QName;
import javafx.scene.image.Image;
import javafx.scene.image.ImageView;
import javafx.scene.layout.VBox;
import javafx.scene.Scene;
import javafx.stage.Stage;

// my sandwich starts as an empty VBox
var mysandwich = VBox {}

// give a name and returns a ImageView with a png image like the name
function ingredient(name){
   return ImageView {
      image: Image {
         url: "{__DIR__}{name}.png"
      }
   }
}

// basicaly, look the event and put a ingredient at mysandwich
var myparser = PullParser {
   documentType: PullParser.XML;
   onEvent: function (e: Event) {
      // starter xml elements
      if(e.type == PullParser.START_ELEMENT){
         // bread
         if(e.qname.name.equals("bread")){
             insert ingredient("bread_top") into mysandwich.content;
         }

         // hamburguer
         if(e.qname.name.equals("hamburguer")){
             insert ingredient("hamburguer") into mysandwich.content;
         }

         // catchup
         if(e.qname.name.equals("catchup")){
             insert ingredient("catchup") into mysandwich.content;
         }

         // maionese
         if(e.qname.name.equals("maionese")){
             insert ingredient("maionese") into mysandwich.content;
         }

         // lettuce
         if(e.qname.name.equals("lettuce")){
             insert ingredient("lettuce") into mysandwich.content;
         }

         // cheese
         if(e.qname.name.equals("cheese")){
            var type= e.getAttributeValue(QName{name:"type"});
            if(type.equals("cheedar")){
                 insert ingredient("cheedar") into mysandwich.content;
            } else {
                insert ingredient("cheese") into mysandwich.content;
            }
         }
      }

      // ending xml elements (just bread)
      if(e.type == PullParser.END_ELEMENT){
         if(e.qname.name.equals("bread")){
            insert ingredient("bread_botton") into mysandwich.content;
         }
      }
   }
   input: new FileInputStream("/tmp/sandwich.xml");
}
myparser.parse();

Stage {
   title: "XML Sandwich"
   scene: Scene {
      height: 300
      content: mysandwich
   }
}

Here’s our sandwich.

Just changing the XML file you got a new sandwich.

Bon appÃ©tit.

For more details on XML and JSON parsing see the JavaFX API.

ps: Sandwich image from commons.wikimedia.org
ps2: We’re out of sesame.
ps3: Sources, xmlsandwich.tar.bz2.

Tag: yaml

ExtraÃ§Ã£o de Dados e Fundos de Investimento do Banco do Brasil

Parsing a XML Sandwich with JavaFX