Trabalho8 Mestrado Igor Oliveira 2020
Trabalho8 Mestrado Igor Oliveira 2020
Trabalho8 Mestrado Igor Oliveira 2020
CENTRO DE TECNOLOGIA
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA CIVIL
Maceió-AL
Dezembro de 2020
IGOR DE MELO NERY OLIVEIRA
Maceió-AL
Dezembro de 2020
Catalogação na fonte
Universidade Federal de Alagoas
Biblioteca Central
Divisão de Tratamento Técnico
Bibliotecário: Marcelino de Carvalho Freitas Neto – CRB-4 – 1767
Bibliografia: f. 83-84.
Banca Examinadora:
_______________________________________________________
Prof. Dr. Eduardo Toledo de Lima Junior
(Orientador – PPGEC/UFAL)
_______________________________________________________
Prof. Dr. João Paulo Lima Santos
(Avaliador Interno- PPGEC/UFAL)
_______________________________________________________
Pesquisador Dr. Ricardo Emanuel Vaz Vargas
(Avaliador Externo – PETROBRAS)
À minha esposa Camila Farias por me apoiar nos momentos difíceis, sempre me moti-
vando para a conclusão deste trabalho.
À minha mãe Maria Cícera, por sempre acreditar em mim e me dar todo o suporte para
concluir mais esta fase da minha vida.
Ao meu pai Esequiel Nery e minha vó Maria Vitória, que não estão mais aqui mas são
minha fonte de inspiração, por sempre terem se preocupado com minha educação e formação.
Ao professor Eduardo Toledo por sua imensa paciência, atenção, apoio, e orientação
incansável. Este trabalho não seria possível sem sua ajuda.
Ao professor William Lira por todas as oportunidades que me foram dadas, imprescindí-
veis para que eu trilhasse esta jornada.
Aos demais professores que contribuíram com minha formação acadêmica, em especial
os professores Eduardo Nobre, Flávio Lima, Márcio André e Adeildo Soares, por compartilharem
seus conhecimentos e serem fonte de inspiração e exemplo.
A todos os amigos que me apoiaram durante os contratempos, em especial Felipe Pedrosa,
Lucas Omena, Weverton Marques, Lucas Gouveia, Wellington Pedro, Thiago Barbosa, Tarciso,
Ricardo, Catarina, Tiago, Heleno e Emerson.
Ao Laboratório de Computação Científica e Visualização (LCCV), por sua infraestrutura
e ambiente propício para desenvolvimento do trabalho.
À PETROBRAS, pelo suporte financeiro concedido por meio do projeto de pesquisa,
desenvolvimento e inovação identificado pelo número ANP 20601-1.
RESUMO
O projeto de um poço de petróleo é uma atividade complexa e multidisciplinar, que tem como uma
de suas principais premissas a adequada previsão de integridade do poço ao longo de seu ciclo de
vida. Apesar de todos os cuidados no dimensionamento da sua estrutura, eventualmente o poço
pode ser exposto a condições de carregamento não previstas. No tocante ao monitoramento de
poços em serviço, a aquisição de dados referentes a variáveis como pressão e temperatura permite
identificar se o poço está operando dentro dos parâmetros previstos em projeto. Por meio de
técnicas de previsão de séries de dados temporais, as informações desses sensores têm potencial
de serem utilizadas não só para diagnosticar um problema já ocorrido, mas também para prevenir
a sua ocorrência, criando um sistema supervisório em tempo real que seja capaz de antecipar
estados futuros de carregamento. Em outra perspectiva, no contexto de projetos de poços, com
a evolução das normas de projeto de revestimento, sugere-se o uso de métodos probabilísticos
em seu dimensionamento, evidenciando a importância de um melhor conhecimento acerca das
variáveis de projeto. A inferência estatística sobre dados de fabricação é motivada pela demanda
por um melhor entendimento das incertezas sobre esses parâmetros, em termos das dimensões
do tubular e das propriedades da liga metálica que o constitui. Esta dissertação versa sobre um
conjunto de técnicas de inferência estatística e previsão de dados, como suporte a práticas de
projeto e de monitoramento de integridade estrutural de poços.
The design of an oil well is a complex and multidisciplinary activity, which has as one of its
main premises the adequate prediction of the well’s integrity throughout its life cycle. Despite
all the effort taken in designing its structure, eventually, the well may be exposed to unpredicted
loading conditions. Regarding the well monitoring, the acquisition of data referring to variables
such as pressure and temperature allows identifying whether the well is operating within the
parameters predicted in the design. By using time series forecasting techniques, the information
gathered from the sensors can be used to diagnose an anomaly that has already occurred and
prevent its occurrence, creating a real-time supervisory system capable of anticipating future
loading states. Furthermore, in the context of well design, with the evolution of the rules for
casing design, it is suggested to use probabilistic methods, highlighting the importance of better
knowledge about the design variables. The statistical inference about manufacturing data is
motivated by the demand for a better understanding of these parameters’ uncertainties in terms
of the dimensions of the tubular and the properties of the metallic alloy that constitutes it. This
dissertation approaches a set of statistical inference and data prediction techniques, aiming to
support designing practices and monitor the structural integrity of wells.
RMSE Raiz Quadrada do Erro Quadrático Médio (Root Mean Square Error)
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Metodologia e Organização do Trabalho . . . . . . . . . . . . . . . . . . 16
1.3 Delimitação do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
14
1 INTRODUÇÃO
1.1 Objetivos
• Criar uma rotina de monitoramento em tempo real para detecção e antecipação de anoma-
lias como apoio à análise de integridade do poço.
Estas etapas são exploradas nas seções seguintes. De forma geral, quanto maior o conjunto
de dados, mais ruído é adicionado à amostra, além disso os testes de aderência tornam-se mais
rigorosos. Um pré-tratamento dos dados pode ajudar na redução destes ruídos.
19
Após a exposição dos métodos para caracterização estatística dos dados, via testes de
aderência, alguns outros conceitos são apresentados, no que diz respeito a: seleção de modelos
por meio de critérios de informação; quantificação de incertezas no processo de aquisição de
dados, e; uma metodologia de imposição de limites numa distribuição hipotética.
Muito utilizada na análise de tempo de vida de produtos e materiais, sendo uma das
distribuições mais gerais em sua definição. Muito utilizada como base geral para criação de
distribuições mais específicas, como casos particulares desta temos os modelos Exponencial e
Chi-Quadrado.
É importante mencionar que o modelo está sendo aproximado para a amostra, a qual
possui um erro intrínseco em relação a sua população total. Ainda assim, este é um método
bastante preciso e utilizado. A depender do modelo de distribuição, a obtenção analítica de seus
parâmetros em função dos momentos da amostra pode não ser direta e o uso de algum método
de otimização é necessário (WOOLDRIDGE, 2001).
O método propõe adequar o modelo à população, diferente do método dos momentos que
visa a adequação aos valores amostrais. Ressalta-se que há um erro intrínseco entre a população
total e seus dados amostrais, qualquer que seja o seu tamanho.
Seja xi o i-ésimo de um total de n valores amostrais, e seja f (x|θ) a PDF do modelo,
de parâmetros θ, aplicada no ponto x. O funcional de verossimilhança L(θ) a ser maximizado
(Equação 2.1) é o produtório da PDF em todos os pontos amostrais, ou seja:
n
Y
L(θ) = f (xi |θ). (2.1)
i=1
n
X
max L(θ) = max ln [f (xi |θ)]. (2.2)
θ θ
i=1
Em termos estatísticos, este método é um dos mais eficientes, por alcançar o limite
inferior da variância entre os estimadores não-viesados de um parâmetro determinístico. Ou
seja, qualquer estimador não-viesado terá um erro médio de estimação maior que o estimador de
máxima verossimilhança (ANG; TANG, 2007).
O ajuste de um modelo estatístico não garante que ele é uma boa representação dos
valores observados, garante apenas que os melhores parâmetros foram determinados, dadas as
características do modelo. Após a parametrização, testes de aderência são usados para avaliar a
fidelidade do ajuste realizado no modelo de distribuição hipotético.
A qualidade do ajuste do modelo hipotético é estimada por um valor denominado valor
observado. Os testes de aderência realizam um teste de hipótese, onde avaliam se o valor
hipotético (valor observado) referente ao ajuste está abaixo do valor esperado. O valor esperado,
por sua vez, quantifica o valor máximo admissível que o modelo hipotético pode apresentar de
forma a ser fiel à amostra de dados.
Os testes são pautados num nível de significância α, que pode ser visto como a margem
de erro admissível do teste, usualmente adotado como 5% em problemas de engenharia. Esse
23
valor significa que existe não mais do que 5% de chances de que um bom modelo seja rejeitado
no teste, ou seja, a adoção de níveis de significância maiores indica a imposição de testes mais
rigorosos. Encontra-se na literatura valores usuais entre 1% e 10%, a depender do nível de
precisão requerida e da natureza dos dados da amostra. Dentre os testes de aderência amplamente
difundidos na literatura, destacam-se os três descritos a seguir.
k
X (Oi − n · (CDF (xi+1 ) − CDF (xi )))2
χ2o = (2.3)
i=1
n · (CDF (xi+1 ) − CDF (xi ))
i
kso = max k n
− CDF (xi ) k (2.4)
1≤i≤n
sendo xi o i-ésimo termo da amostra ordenada e ni a função cumulativa da amostra, razão entre a
ordem da observação e o número total de amostras.
24
n
1X
A2o = −n − [(2i − 1) · ln (CDF (xi )) + (2 (n − i) + 1) · ln (1 − CDF (xi ))] (2.5)
n i−1
Sempre que se discute inferência ou previsão de dados, deve ser dada atenção aos erros
inerentes a estes processos: erros de viés, erros de variância e erros irredutíveis (este último será
discutido posteriormente).
O viés é a diferença entre os valores gerados pelo modelo substituto e o valor real da
população ou que se tenta prever. Um modelo com alto viés absorve pouca informação dos dados
que ajustaram o modelo, resultando em modelos mais simples e com poucos parâmetros.
Variância é a variabilidade da previsão do modelo para um determinado ponto de dados
ou um valor que nos informa a distribuição de nossos dados. Um modelo com alta variância
absorve muita informação dos dados que ajustaram o modelo e não generaliza sobre os dados
que não viu antes.
A Figura 1 ilustra graficamente as combinações de enviesamento e variância. A compen-
sação entre viés e variância (Bias-Variance Tradeoff) se refere ao fato de que ao tentar fazer uma
previsão estatística, há uma compensação entre a exatidão da previsão e sua precisão, ou equi-
valentemente entre seu enviesamento e variância (DOROUDI, 2020). Obter uma compreensão
adequada desses erros ajuda não apenas a construir modelos precisos, mas também a evitar os
erros de sobreajuste (overfitting) e subajuste (underfitting).
25
Uma solução para avaliar a compensação entre viés e variância dos modelos estatísticos
ajustados, que se sobressai ao teste de aderência por não se basear em testes de hipótese, é o
Critério de Informação de Akaike (AIC).
Baseado no funcional de verossimilhança (Equação 2.1), este critério busca maximizar
o logaritmo da verossimilhança enquanto minimiza o número de parâmetros do modelo, sua
fórmula é exposta na Equação 2.6:
A aquisição dos dados amostrais para posterior inferência estatística deve ser realizada
com cuidado quanto à sua precisão. O registro de dados imprecisos diminui a acurácia no cálculo
dos momentos da amostra, podendo originar uma análise estatística inconclusiva ou incorreta.
De forma geral, a margem de erro δf do valor de uma função f propagada a partir
das suas n variáveis xi é avaliada por meio da expressão da Equação 2.8, originada a partir da
expansão em série de Taylor de primeira ordem da função f :
n
X ∂f
δf = δxi (2.8)
i=1
∂x i
δµ = δx (2.9)
n
X 2 (xi − µ)
δν = · δx (2.10)
i=1
n−1
n
X xi − µ δx
δσ = · . (2.11)
i=1
n−1 σ
Observa-se pelas equações acima que a média amostral possui uma incerteza semelhante
à dos dados amostrais. A margem de erro da variância é amplificada de acordo com o número de
elementos da amostra e de sua variância em torno do seu valor médio, já a incerteza no desvio
padrão é semelhante à incerteza da variância mas atenuada pelo seu próprio valor.
27
Grande parte dos modelos contínuos de distribuição de probabilidades não possui valores
limites, ou seus limites não condizem com a natureza da variável estudada. Assim, por mais que
um determinado modelo emule o comportamento de uma variável aleatória, o comportamento de
suas caudas pode ser decisivo no estudo, sendo adequado impor limites nos valores da variável. A
título de ilustração, destaca-se a tolerância preconizada pela API TR 5C3 (2008) para o valor do
diâmetro externo de tubulares de revestimento. Segundo o documento, pode-se ter uma variação
de -0,5% a 1,0% em torno do valor nominal da variável.
Ao ser imposto um limite [a, b] para os valores de uma variável aleatória de distribuição
X, de CDF FX e PDF fX , temos que a probabilidade total dos eventos deixa de ser unitária
(Equação 2.12), o que não é possível para distribuição de probabilidades segundo os axiomas da
teoria da probabilidade:
Z b
fX dx = 1 − [FX (b) − FX (a)] (2.12)
a
0 se x < a
f˜(x) = 1
FX (b)−FX (a)
· fX (x) se a ≤ x ≤ b . (2.13)
0 se x > b
A CDF F̃ do modelo corrigido proposto pode ser avaliada por meio da Equação 2.14,
avaliada a partir da aplicação de integral sobre os termos da Equação 2.13:
0 se x < a
FX (x)−FX (a)
F̃ (x) = FX (b)−FX (a)
se a ≤ x ≤ b . (2.14)
1 se x > b
Caso a variável possua valores limites com uma probabilidade de ocorrência superior à
condição imposta na Equação 2.15, é provável que os dados, em si, não respeitem estes limites.
Assim, as caudas pronunciadas não são um mero produto da distribuição teórica adotada, mas
um comportamento dos dados da amostra.
Para a utilização desta metodologia, é preferível realizar a parametrização dos modelos
estatísticos hipotéticos pelo Método da Máxima Verossimilhança pois, como demonstrado na
Equação 2.16, os parâmetros da distribuição com a imposição de limites são os mesmos da
distribuição sem a imposição de limites, desde que todos os dados amostrais pertençam ao limite
imposto.
n
X h i
max L̃(θ) = max ln f˜(xi |θ)
θ θ
i=1
n
X 1
= max ln · fX (xi |θ)
θ
i=1
FX (b) − FX (a)
Xn
= max [ln [f (xi |θ)] − ln [FX (b) − FX (a)]]
θ
"i=1 # (2.16)
n
X
= max −n · ln [FX (b) − FX (a)] + ln [f (xi |θ)]
θ
i=1
n
X
= max ln [f (xi |θ)]
θ
i=1
= max L(θ).
θ
De forma geral, nem todas as séries de dados temporais são previsíveis. Se todos os dados
da série são independentes, então não existem modelos que garantam a previsão dos valores da
série temporal. Por outro lado, caso os dados da série sejam independentes, indica-se realizar
uma inferência estatística sobre os dados.
A área de previsão de dados assume que uma observação Xt , no tempo t, é passível
de ser estimada por um valor X bt , determinado por meio de um modelo matemático que utiliza
informações anteriores, isto é, as observações passadas Xk , com k < t.
Um modelo de previsão ideal deve reduzir o erro redutível (Equação 3.1) entre o valor
estimado e o dado real, normalmente determinando seus parâmetros de forma a minimizar este
valor segundo alguma métrica de erro (JAMES et al., 2013), sendo comum adotar a soma dos
quadrados das diferenças. Em um modelo ideal, esta diferença entre o valor real e o estimado é
uma série com média zero, independente e identicamente distribuída (IID), denominada ruído
branco.
εt = X t − X
bt . (3.1)
Para verificação das condições de IID do ruído branco, pode-se computar a autocorrelação
da série. Os gráficos de autocorrelação (ACF) e autocorrelação parcial (PACF) também são
utilizados no método de previsão ARIMA e, portanto, serão apresentados a seguir.
A dependência regular entre termos de uma série temporal pode ser avaliada por dife-
rentes métricas, são elas a autocovariância, a autocorrelação e a autocorrelação parcial. Tais
métricas são expostas a seguir.
3.1.1 Autocovariância
A dependência entre um termo Xt da série e o termo Xt+h pode ser computada numeri-
camente através da covariância (Cov) entre eles. Como a covariância é avaliada entre termos da
mesma série, diz-se que foi realizada a autocovariância, sendo sua formulação apresentada na
Equação 3.2:
Para valores amostrais, como a aplicação em questão, temos a fórmula transformada para
Equação 3.3:
Pn−h
k=1 (Xk − µ) · (Xk+h − µ)
γ
bX (h) = . (3.3)
n−h−1
Uma propriedade da autocovariância é que ela não excede o valor da variância da série
temporal, desta forma, o valor da autocovariância pode ser normalizado.
3.1.2 Autocorrelação
Como a autocovariância é menor ou igual à variância de uma série, temos que a auto-
correlação é compreendida entre −1 e 1. Uma correlação positiva (ρX (h) > 0) indica que os
termos Xt e Xt+h estão crescendo ou decrescendo juntos, enquanto que uma correlação negativa
(ρX (h) < 0) indica que quando um dos termos está crescendo, o outro está decrescendo.
A norma da correlação |ρX (h)| indica quão forte a correlação entre os termos é. Quanto
mais próximo de 1, maior a correlação entre os termos. Uma correlação próxima de 0 significa
que não é possível associar uma tendência linear de crescimento (ou decrescimento) no termo
Xt+h graças ao crescimento (ou decrescimento) do termo Xt .
Para valores amostrais, temos a fórmula modificada da Equação 3.5:
Pn−h
k=1 (X − µ) · (Xk+h − µ) n−1
ρbX (h) = Pnk 2
· . (3.5)
k=1 (Xk − µ) n−h−1
Numa série de dados com valores significativos de autocorrelação para atrasos ρX (1),
ρX (2), ρX (3) até ρX (h), temos que um termo Xt+h é relacionado com cada um de seus termos
anteriores. Assim, é interessante avaliar a correlação entre o termo Xt+h e seu atraso h (elemento
Xt ) excluindo-se as relações indiretas com os demais termos intermediários. Temos assim a
autocorrelação parcial.
Cov(Yt , Yt+h )
τX (h) = p (3.6)
V AR[Yt ] · V AR[Yt+h ]
onde Yt é o resíduo obtido ao ajustar um modelo linear multivariado na série [Xt+1 , Xt+2 , ...,
Xt+(h−1) ] de forma a prever o termo Xt , representando a variância residual em Xt após remover
a influência dos demais termos; Yt+h é obtido de forma análoga ao ajustar um modelo linear
multivariado na série [Xt+1 , Xt+2 , ..., Xt+(h−1) ] de forma a prever o termo Xt+h .
Modelos do tipo ARIMA agrupam uma série de estruturas lineares com forte autocorre-
lação de dados, encontradas em séries temporais estáveis com padrões previsíveis.
Este conjunto de modelos é formado pela combinação independente de modelos Autorre-
gressivos (AR), Integrados (I) e de Médias Móveis (MA). A seguir é apresentada a formulação
dos modelos.
Estes modelos são fundamentados na relação linear direta entre uma certa quantidade de
observações passadas e a observação futura. O hiperparâmetro p do modelo identifica quantas
observações passadas interferem no valor da observação seguinte.
Seja Xt a observação no instante t, seu valor pode ser estimado segundo a Equação 3.7:
p
X
(Xt − µ) = φk · (Xt−k − µ) + εt (3.7)
k=1
onde µ é o valor médio da série temporal, os termos φk são as constantes da combinação linear e
os termos εk representam o ruído branco do modelo.
Uma propriedade importante dos modelos autorregressivos é que a autocorrelação parcial
é nula para atrasos superiores à p + 1, onde p é o hiperparâmetro do modelo. A Equação 3.8
resume o resultado:
= 0 se h > p
τX (h) . (3.8)
6= 0 se h ≤ p
Assim, uma série autorregressiva possui uma memória relativamente longa, pois o valor
atual de uma série está correlacionado com todos os anteriores, embora que com coeficientes
decrescentes.
Essa propriedade significa que é possível escrever uma série AR como uma função linear
de todos os termos anteriores, com pesos que tendem a zero com o atraso. Logo, uma série AR
não pode representar muito bem séries curtas, onde o valor atual da série é correlacionado apenas
com um pequeno conjunto de valores anteriores.
Um modelo de previsão semelhante ao AR, mas que possui a propriedade de memória
curta é o Modelo de Médias Móveis, do inglês Moving Average Model (MA). Uma série MA
pode ser vista como uma combinação linear de um número finito, e geralmente pequeno, de seus
elementos anteriores, isto é, um elemento Xt só é influenciado por q elementos anteriores, os
termos xt−k , onde k > q, não influenciam os termos atuais da série.
Diferente dos modelos AR onde as observações futuras são estimadas com uma função
direta das observações anteriores, modelos MA estimam observações futuras por meio dos termos
da série de ruído branco das observações anteriores. A Equação 3.9 apresenta a formulação do
modelo:
q
X
Xt = µ + θk · εt−k + εt (3.9)
k=1
onde µ é o valor médio da série temporal, os termos θk são as constantes da combinação linear e
os termos εk representam o ruído branco do modelo.
O principal ganho do modelo MA, em relação ao modelo AR, é que a autocorrelação de
seus elementos é nula para atrasos superiores à q + 1, onde q é o hiperparâmetro do modelo que
identifica quantos termos passados influenciam a observação seguinte. A Equação 3.10 remete
ao resultado:
= 0 se h > q
ρX (h) . (3.10)
6= 0 se h ≤ q
Um modelo mais genérico, criado a partir da combinação dos dois modelos anteriores,
forma o Modelo Autorregressivo de Médias Móveis (ARMA), capaz de prever observações futu-
ras a partir de sua relação com observações e ruídos anteriores, sua formulação é a combinação
33
das Equações 3.7 e 3.9, como presente na Equação 3.11, pois admite-se que os modelos AR e
MA são independentes:
q p
X X
(Xt − µ) = θj · εt−j + φk · (Xt−k − µ) + εt . (3.11)
j=1 k=1
Uma condição necessária para que uma série temporal seja bem modelada pelo modelo
ARMA é que essa seja estacionária, isto é, que a média e a variância da série se mantenham
constantes, independentemente do intervalo de tempo a ser analisado. Muitas vezes, as séries
temporais podem apresentar uma tendência de crescimento ou decrescimento, impedindo a
aplicação direta do modelo ARMA.
Uma métrica simples, da qual se derivam diversas outras técnicas, é o cálculo do valor
médio entre as diferenças absolutas das observações reais e seus valores estimados, como
presente na Equação 3.13:
Pn
t=1 |Xt − X
bt |
M AE = . (3.13)
n
Desta, derivam-se as métricas RMSE e MAPE, apresentadas a seguir.
n
100 X Xt − X
bt
M AP E = · . (3.14)
n t=1 Xt
A principal vantagem desta métrica é estar em sua forma percentual, de forma que esta
pode ser comparada entre diferentes séries de dados. Esta medida possibilita a análise mesmo
quando o tamanho da série amostral prevista é desconhecido, ao contrário de medidas em valores
absolutos.
35
A raiz quadrada do erro quadrático médio (RMSE) é uma maneira padrão de medir o erro
de um modelo na previsão de dados quantitativos. Formalmente, é definido segundo a Equação
3.15:
v
u n
u1 X 2
RM SE = t · Xt − Xt .
b (3.15)
n t=1
Diferente do MAPE, que é uma métrica linear, a RMSE absorve a variância do erro de
previsão. A desvantagem da métrica é seu valor absoluto ser proporcional à ordem de grandeza
das séries de dados.
r 2
Pn
n· t=1 Xt − X
bt
CV RM SE = Pn . (3.16)
t=1 (Xt )
Uma análise conjunta das métricas CVRMSE e MAPE deve garantir uma boa avaliação
da previsão. Para mais observações e comparações sobre medidas de acurácia, cita-se Armstrong
e Collopy (1992).
36
Como cada tubo possui um registro de cerca de 73 valores amostrais de suas variáveis
geométricas, realizou-se inicialmente uma inferência estatística individual sobre cada conjunto
de dados.
Para ilustração dos resultados, foram expostos nas Tabelas 3 e 4 os dados de espessura
de parede média (avgWT) dos tubos 2 e 18, e de diâmetro médio (avgOD) dos tubos 29 e 46 nas
Tabelas 5 e 6, respectivamente.
aplicado para avaliar se as distribuições candidatas se adéquam aos dados amostrais. A Tabela 11
apresenta o resultado do teste de aderência, assim como os critérios de informação AIC e BIC.
Para um nível de significância de 5%, o valor observado do teste Kolmogorov-Smirnov
deve ser inferior à 0,16 para que uma distribuição candidata com dois parâmetros seja considerada
como população original da amostra utilizada com 72 elementos. Segundo a Tabela 11, as
distribuições Gumbel, Logística, Log Normal, Gamma e Normal passaram no teste, enquanto
que as distribuições Weibull e Uniforme falharam, isto é, não há informações suficientes para
afirmar que estas distribuições são capazes de originar a amostra.
40
Um resultado interessante é que a ordem das distribuições é idêntica para o tubo 2 e tubo
18, segundo os critérios de informação AIC e BIC. Este resultado apoia a hipótese de que os
diferentes conjuntos de dados de uma mesma variável podem ser inferidos por uma distribuição
comum, uma vez que estes dados referem-se à produção de peças metálicas numa indústria
automatizada e de alta precisão.
Para os dados de avgOD, o teste de aderência e os critérios de informação do tubo
29 indicam que a distribuição Normal é a que melhor se adéqua aos dados, seguida pelas
42
distribuições Gamma, Log Normal, Logística, Weibull, Uniforme e Gumbel, nesta ordem, como
apresentado na Tabela 13 e exposto na Figura 4.
Desta vez, as distribuições parametrizadas Normal, Gamma e Log Normal foram numeri-
camente equivalentes. Todas as distribuições candidatas passaram no teste de aderência, o valor
limite para o teste numa amostra de 58 observações é de 0,18.
De forma geral, uma razão para todas as distribuições candidatas passarem no teste de
aderência se dá pelo número reduzido de observações na amostra analisada, de modo que o
teste de aderência tem poucas informações e se torna menos restrito. Uma outra característica,
específica para o teste Kolmogorov-Smirnov, é que o mesmo perde sua eficácia nas caudas, sendo
mais competente em verificar a aderência na região em torno do centro da amostra.
A inferência sobre os dados avgOD do tubo 46 não foi diferente, a Tabela 14 mostra os
resultados do teste de aderência e os critérios de informação, ao passo que a Figura 5 exibe o
resultado de maneira gráfica.
43
Assim como os resultados dos dados de avgOD do tubo 29, o tubo 46 aprovou todos os
testes de aderência, como também a distribuição Normal é a que melhor se adéqua aos dados,
seguida pelas distribuições Gamma, Log Normal, Logística, Weibull, Uniforme e Gumbel, nesta
ordem.
Ainda que que todas as distribuições que passaram nos testes de aderência sejam capazes
de inferir sobre os dados, os resultados dos critérios de informação sofreram uma grande variância
quanto à sua ordem, não sendo claro qual a melhor escolha outra que a distribuição Normal.
Observa-se então um padrão nos resultados de cada tubo, seja na análise dos valores
de avgWT quanto para os valores de avgOD, o que condiz com a ideia de que todos os tubos
possuem o mesmo padrão de comportamento aleatório.
Assim, realizou-se uma nova inferência estatística sobre o conjunto de dados, desta vez
unindo todos os tubos em um único conjunto global. Antes da análise global, explora-se a seguir
a análise da resistência dos tubos, para comparar os resultados da inferência entre características
geométricas e mecânicas.
Observa-se um resultado positivo para quase todos os testes de aderência, com exceção da
distribuição uniforme sobre os dados de UTS. A ordem das distribuições segundos os critérios de
informação para os dois conjuntos de dados também é semelhante, indicando que as distribuições
Log Normal, Gamma, Normal, Logístico e Gumbel se adéquam aos dados, nesta ordem. O
resultado visual da análise pode ser visto pelas Figuras 6 e 7.
De forma diferente dos conjuntos de dados das características geométricas dos tubos, os
dois conjuntos de dados de resistência contêm apenas 81 elementos, cada. Desta forma, a análise
acima já é uma análise global dos tubos, tendo sido concluída de forma positiva. No entanto,
estes dados serão explorados adiante para comparar seus resultados com as demais técnicas
utilizadas.
A união dos conjuntos de dados de 50 tubos resulta em dois conjuntos globais com 3669
valores amostrais cada, representando os valores aferidos de espessura de parede média (avgWT)
47
Contudo, os resultados dos critérios de informação não são suficientes para garantir que
os dados são capazes de representar os dados de produção e a falha no teste de aderência indica,
por ora, a desqualificação das distribuições.
A Figura 8 expõe a diferença entre o histograma de densidade de probabilidades do
conjunto global dos dados de produção e a função equivalente das distribuições parametrizadas.
Observa-se que o conjunto global de dados de produção possui uma característica de modelo de
mistura, isto é, há mais de um pico no gráfico de densidade de probabilidades da distribuição.
Ainda que não haja registro de eventos ocorridos no processo de amostragem entende-se
que este comportamento pode refletir uma mudança importante no processo de manufatura,
como, por exemplo, uma recalibração ou adequação de equipamentos na linha de produção ao
longo do período amostrado, caracterizando dois regimes distintos de fabricação.
Modelos de mistura derivam da união de conjuntos de observações de distribuições
distintas, as quais possuem momentos diferentes. Ou seja, modelos de mistura representam a
49
candidatas.
Três fatores, não excludentes entre si, são apontados como promotores deste resultado
inconclusivo sobre o conjunto de dados global:
51
1. O grau de incerteza dos dados aferidos sobrepõe seu próprio comportamento, poluindo o
conjunto de dados a ser aferido;
Para avaliar o quanto a incerteza na aferição dos dados afeta a análise, utilizou-se da
formulação apresentada nas Equações 2.9, 2.10 e 2.11.
Os valores de avgWT e avgOD registrados possuem duas casas decimais, o que remete
a uma incerteza de ±0, 005 no valor de cada aferição. As Tabelas 25 e 26 exibem o grau de
incerteza para os momentos dos conjuntos globais, comparando-os com os valores reais dos
momentos das amostras.
Observa-se que a média e o desvio padrão das amostras possuem um grau de incerteza
inferior à 1 % de seus valores reais, a variância não difere muito mais que 1 % também. Logo,
descarta-se esta opção dentre os fatores que contribuem com a falha do teste de aderência na
análise global.
O segundo fator apontado como causador do resultado inconclusivo foi o cardápio de
distribuições candidatas utilizado. Desta forma, realizou-se uma nova inferência estatística sobre
os conjuntos globais de avgWT e avgOD, desta vez expandindo o cardápio de distribuições para
todas as distribuições disponíveis na biblioteca estatística scipy stats (Virtanen et al., 2020) que
puderam ser aplicáveis, listadas na Tabela 27 com seu correspondente número de parâmetros.
52
Figura 12 – Gráfico de barras com a composição das distribuições agrupadas pela sua quantidade
de parâmetros segundo a ordem do BIC para o conjunto de dados avgWT.
Figura 13 – Gráfico de barras com a composição das distribuições agrupadas pela sua quantidade
de parâmetros segundo a ordem do BIC para o conjunto de dados avgOD.
distintos de fabricação. Para redução do comportamento multimodal dos dados, realizou-se uma
padronização dos conjuntos de dados individuais.
A padronização dos dados retira a média amostral do conjunto de dados de cada valor
aferido. Este valor é então dividido pelo desvio padrão amostral, alcançando assim conjuntos
padronizados de média nula e desvio padrão unitário para cada um dos conjuntos de tubos
individuais.
Um conjunto de dados padronizado global foi então criado pela união dos conjuntos
padronizados individuais, espera-se que a padronização reduza o ruído gerado por diferentes
padrões de fabricação. Para que os resultados sejam comparados com os resultados anteriores,
optou-se por despadronizar os dados, isto é, multiplicou-se os dados do conjunto padronizado
global pelo desvio padrão do conjunto global, depois foi somada a média do conjunto padronizado
57
Figura 16 – Gráfico de barras com a composição das distribuições agrupadas pela sua quantidade
de parâmetros segundo a ordem do BIC para o conjunto de dados YS.
Figura 17 – Gráfico de barras com a composição das distribuições agrupadas pela sua quantidade
de parâmetros segundo a ordem do BIC para o conjunto de dados UTS.
Verifica-se pelos resultados acima que a padronização dos dados reduziu perceptivel-
mente a multimodalidade dos dados, contribuindo para uma inferência estatística mais assertiva.
Várias distribuições foram aprovadas no testes de aderência Kolmogorov-Smirnov para
um nível de significância de 5%, para os dois conjuntos de dados. 29 das 94 distribuições foram
aprovadas para o conjunto global padronizado avgOD e 28 para o correspondente conjunto
avgWT.
Assim, conclui-se que um cardápio de distribuições robusto e a redução do compor-
tamento multimodal, possivelmente criado por regimes distintos do processo de manufatura,
permitiram gerar resultados conclusivos. O conjunto amostral adquirido e utilizado é evidência
60
Figura 20 – Gráfico de barras com a composição das distribuições agrupadas pela sua quantidade
de parâmetros segundo a ordem do BIC para o conjunto de dados global padronizado
avgOD.
Figura 21 – Gráfico de barras com a composição das distribuições agrupadas pela sua quantidade
de parâmetros segundo a ordem do BIC para o conjunto de dados global padronizado
avgWT.
suficiente para aceitar a hipótese de que este foi originado por qualquer uma das distribuições
teóricas aprovadas, segundo o nível de significância utilizado.
61
A primeira série selecionada refere-se ao registro do poço identificado como 12, com
dados coletados em 20 de março de 2017 às 03:30:22, com valores aferidos a cada segundo por
uma duração de 28 minutos e 22 segundos, gerando um total de 1702 valores registrados no
Medidor de Pressão de Fundo (PDG - Pressure Downhole Gauge). A Figura 22 ilustra a série de
dados completa.
Os dados selecionados para análise e ajuste do modelo ARIMA constituem uma janela
de observação de 2 minutos, nos quais verifica-se uma maior oscilação do valor da pressão logo
após o fechamento espúrio da válvula, vide Figura 23.
O primeiro passo para escolha dos hiperparâmetros do modelo é avaliar qual o valor de d
para o qual os dados se mantêm estacionários. As Figuras 24 e 25 apresentam, respectivamente,
64
o ACF da série original (com d igual a 0) e o PACF da mesma série. A região em azul representa
o intervalo de confiança para um nível de significância de 5%.
Pelos gráficos, observa-se que o ACF se aproxima de zero rapidamente. Assim, o
hiperparâmetro d foi escolhido como nulo, pois os dados originais são estacionários. Como os
valores dos gráficos em grande parte são nulos, as figuras apresentam apenas os seus primeiros
valores.
Para comparação, as Figuras 26 e 27 apresentam o ACF da série diferenciada (com d
igual a 1) e o PACF da série.
A série diferenciada não apresenta muitas diferenças em relação à série original em
ambos ACF e PACF, pois ela é estacionária.
65
Modelo AIC
ARIMA(p=1, d=0, q=10) 2.359,65
ARIMA(p=2, d=0, q=10) 2.360,78
ARIMA(p=1, d=0, q=11) 2.361,54
ARIMA(p=1, d=0, q=12) 2.363,42
ARIMA(p=5, d=0, q=13) 2.363,62
Fonte: próprio autor.
Para quantificação da qualidade das estimativas dos valores utilizados em treino e das
previsões dos valores futuros pelos modelos ARIMA, medidas de acurácia foram utilizadas. As
Tabelas 35 e 36 listam os resultados.
A análise de erro via MAPE leva a um resultado equivalente ao já apresentado pelo MAE,
o mesmo pode ser dito para uma análise por meio do RMSE em relação ao CVRMSE.
Quanto aos resultados, observa-se que os quatro primeiros modelos são semelhantes,
resultado esperado por possuírem hiperparâmetros próximos. Já a diferença entre o quinto
68
Tabela 35 – Medidas de acurácia das estimativas dos valores para treino da Série de Dados 1.
Tabela 36 – Medidas de acurácia das previsões dos valores futuros da Série de Dados 1.
modelo (Figura 30) aos demais, perceptível na Tabela 36 que trata das medidas de acurácia das
previsões futuras, foi captada no crescimento do MAPE e CVRMSE em relação aos demais
modelos.
De forma geral, todos os modelos, inclusive o quinto, apresentam medidas de acurácia
semelhantes. Estes valores serão utilizadas como parâmetros para os demais estudos de caso.
69
CKP
PLATAFORMA
LINHA DE
PRODUÇÃO
TPT
UMBILICAL
ELETRO-
HIDRÁULICO
DHSV
ÁRVORE
DE NATAL PDG
MOLHADA
COLUNA DE
PRODUÇÃO
Uma janela de 340 segundos (5 minutos e 40 segundos) de operação (Figura 33) foi
70
escolhida para treinamento do modelo ARIMA. Como a série de dados possui uma grande
variação e o modelo ARIMA é baseado em modelos lineares, espera-se que o modelo seja capaz
de acompanhar o valor médio das previsões posteriores à janela de treinamento.
Modelo AIC
ARIMA(p=11, d=0, q=19) 5.151,03
ARIMA(p=11, d=0, q=17) 5.162,84
ARIMA(p= 9, d=0, q=19) 5.163,25
ARIMA(p= 9, d=0, q=18) 5.167,53
ARIMA(p= 8, d=0, q=18) 5.170,33
Fonte: próprio autor.
modelo ARIMA. O método não é capaz de prever com precisão dados muito erráticos. Ainda
assim, o método foi capaz de manter uma média móvel capaz de acompanhar o comportamento
geral dos dados.
Tabela 38 – Medidas de acurácia das estimativas dos valores para treino da série de dados 2.
Tabela 39 – Medidas de acurácia das previsões dos valores futuros da série de dados 2.
35), por derivar medidas de acurácia inferiores. Contudo, as previsões para valores futuros da
série de dados 2 (Tabela 39) possui medidas de acurácia muito mais elevadas que as avaliadas
sobre a série de dados 1 (Tabela 36).
O primeiro resultado sobre a comparação das medidas de acurácia para os dois exemplos
pode ser explicado pelo uso de uma janela de dados maior para a segunda série de dados, além
do fato de que o modelo que o modelo ARIMA da segunda série de dados possui mais elementos
dependentes (hiperparâmetros com valores mais altos). Além disso, pressões em PDG são mais
elevadas, o que pode resultar em erros absolutos maiores.
Já o segundo resultado sobre a comparação é simples e visível pelas figuras de previsão
de série temporal. Isto é, os valores previstos para a segunda série de dados possuem um erro
considerável, mesmo que o modelo seja capaz de prever a média móvel do sinal.
Modelo AIC
ARIMA(p=2, d=0, q=0) 1.649,43
ARIMA(p=2, d=0, q=1) 1.651,13
ARIMA(p=3, d=0, q=0) 1.651,37
ARIMA(p=2, d=0, q=2) 1.652,08
ARIMA(p=4, d=0, q=0) 1.652,37
ARIMA(p=3, d=0, q=1) 1.653,18
ARIMA(p=2, d=0, q=3) 1.653,40
Fonte: próprio autor.
Por ser utilizada uma série mais curta e bem comportada para treinamento, os hiperparâ-
metros ótimos do modelo ARIMA são baixos, o que indica uma dependência de termos com um
atraso menor.
A previsão de valores futuros ilustrada na Figura 43 mostra como o modelo, por possuir
hiperparâmetros baixos, mantém uma média móvel capaz de acompanhar o comportamento geral
dos dados.
Para avaliação da capacidade de previsão do modelo nesta série de dados, compara-se
as medidas de acurácia, listadas nas Tabelas 41 e 42, com os valores aferidos dos modelos de
previsão aplicados na série de dados 1.
Observa-se pelas medidas de acurácia que as estimativas dos valores de treino da série de
dados 3 (Tabela 41) foram próximas das estimativas da série de dados 1 (Tabela 35) e inferiores
76
Tabela 41 – Medidas de acurácia das estimativas dos valores para treino da série de dados 3.
Tabela 42 – Medidas de acurácia das previsões dos valores futuros da série de dados 3.
às estimativas da série de dados 2 (Tabela 38). Contudo, as previsões para valores futuros da
série de dados 3 (Tabela 42) indicam uma previsão mais precisa que os indicativos dos dois testes
anteriores (Tabelas 36 e 39). Ainda, há um ganho em precisão da previsão ao utilizar o modelo
ARIMA(p=2, d=0, q=2), o quarto melhor indicado pela otimização dos hiperparâmetros via AIC.
77
Com base nos resultados dos modelos ARIMA sobre os dados de pressão dos poços,
uma metodologia de detecção de anomalias em tempo real por meio de modelos ARIMA foi
criada, sendo descrita e aplicada, conforme apresentado a seguir.
De acordo com os exemplos anteriores, observa-se que os modelos ARIMA são capazes
de identificar mudanças pontuais no comportamento dos dados, a partir da detecção de mudanças
nos valores da média móvel da série.
Logo, os modelos ARIMA podem auxiliar na identificação de mudanças iminentes
de tendência, antecipando eventos indesejáveis e dando suporte aos modelos de detecção de
anomalias.
A metodologia de aplicação do modelo para detecção de anomalias é realizada da
seguinte forma:
• Observações futuras foram previstas pelo modelo e comparadas pelo cálculo do Erro
Médio Absoluto (MAE) com os dados reais adquiridos após previsão;
• Caso o MAE esteja dentro da tolerância, os parâmetros do modelo ARIMA são atualizados
com os novos dados, caso contrário uma anomalia é identificada;
• Para que o algoritmo continue sua verificação de anomalias, em um caso anômalo os novos
hiperparâmetros são avaliados com os dados futuros, de forma a criar um novo modelo
ARIMA que absorva a nova tendência dos dados;
pontos subsequentes são identificados pelo algoritmo como anômalos, representados por uma
nova mudança em seu comportamento.
A linha contínua em azul representa os primeiros 100 dados de pressão do poço, o
pontilhado em azul representa os dados reais futuros, enquanto que a linha pontilhada em
vermelho representa os valores previstos. Trechos de descontinuidade na linha vermelha indicam
os pontos onde os hiperparâmetros do modelo ARIMA foram modificados.
A Fig. 45 apresenta o MAE dos valores previstos, as anomalias são identificadas pelo
MAE exceder a tolerância adotada e representados por pontos vermelhos no gráfico.
Figura 45 – MAE dos valores previstos via ARIMA para o poço número 1.
Figura 47 – MAE dos valores previstos via ARIMA para o poço número 2.
técnicas RNA, comparadas com a precisão e velocidade de captação de anomalias por meio
de modelos ARIMA, como também uma combinação das duas técnicas como alternativa, com
possíveis ganhos em precisão e robustez das previsões.
Diante do exposto, reafirma-se que as técnicas de ciência dos dados são de grande valia
para o cenário de transformação digital no contexto do projeto e do monitoramento de integridade
estrutural de poços. Temas como os abordados aqui são uma demanda premente da indústria, e
entende-se que os pontos explorados podem contribuir nesse contexto.
83
REFERÊNCIAS
ANG, A.; TANG, W. Probability concepts in engineering : emphasis on applications in civil &
environmental engineering. New York: Wiley, 2007. ISBN 9780471720645. Citado na página
22.
API TR 5C3. Technical Report on Equations and Calculations for Casing, Tubing, and Line
Pipe Used as Casing or Tubing; and Performance Properties Tables for Casing and Tubing. 1st.
ed. Washington, D.C., 2008. Citado 4 vezes nas páginas 15, 27, 36 e 81.
ARMSTRONG, J. S.; COLLOPY, F. Error measures for generalizing about forecasting methods:
Empirical comparisons. International journal of forecasting, Elsevier, v. 8, n. 1, p. 69–80, 1992.
Citado na página 35.
BAIRD, G. L.; HARLOW, L. L. Does one size fit all? a case for context-driven null hypothesis
statistical testing. Journal of Modern Applied Statistical Methods, v. 15, n. 1, p. 7, 2016. Citado
na página 49.
DOROUDI, S. The bias-variance tradeoff: How data science can inform educational debates.
AERA Open, SAGE Publications Sage CA: Los Angeles, CA, v. 6, n. 4, p. 2332858420977208,
2020. Citado 2 vezes nas páginas 24 e 25.
DU, X.; HU, Z. First order reliability method with truncated random variables. Journal of
Mechanical Design, American Society of Mechanical Engineers Digital Collection, v. 134, n. 9,
2012. Citado na página 27.
GERKE, G. GE Digital Twin Technology Revamps Offshore Oil Operations. [S.l.], 2018
(acessado em 24/07/2018). Disponível em: <https://www.efficientplantmag.com/2018/03/
ge-digital-twin-technology-revamps-offshore-oil-operations/>. Citado na página 14.
JAMES, G. et al. An introduction to statistical learning. [S.l.]: Springer, 2013. v. 112. Citado 2
vezes nas páginas 17 e 29.
KLEVER, F.; TAMANO, T. A new octg strength equation for collapse under combined loads.
SPE Drilling & Completion, Society of Petroleum Engineers, v. 21, n. 3, Sep 2006. Citado na
página 36.
MAYANI, M. G. et al. Drilling digital twin success stories the last 10 years. In: SOCIETY OF
PETROLEUM ENGINEERS. SPE Norway One Day Seminar. [S.l.], 2018. Citado na página
14.
MCLACHLAN, G. J.; PEEL, D. Finite mixture models. [S.l.]: John Wiley & Sons, 2004. Citado
na página 49.
NADHAN, D. et al. Drilling with digital twins. In: SOCIETY OF PETROLEUM ENGINEERS.
IADC/SPE Asia pacific drilling technology conference and exhibition. [S.l.], 2018. Citado na
página 14.
PAWITAN, Y. In all likelihood: statistical modelling and inference using likelihood. [S.l.]:
Oxford University Press, 2001. Citado na página 22.
SEVERINI, T. A. Likelihood methods in statistics. [S.l.]: Oxford University Press, 2000. Citado
na página 16.
VARGAS, R. E. V. et al. A realistic and public dataset with rare undesirable real events in oil
wells. Journal of Petroleum Science and Engineering, Elsevier, v. 181, p. 106223, 2019. Citado
2 vezes nas páginas 63 e 69.
Virtanen, P. et al. SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python.
Nature Methods, v. 17, p. 261–272, 2020. Citado 2 vezes nas páginas 17 e 51.
VU, K. M. The ARIMA and VARIMA time series: their modelings, Analyses and Applications.
[S.l.]: AuLac Technologies Inc., 2007. Citado na página 17.
WALPOLE, R. E. e. a. Probability and Statistics for Engineers and Scientists. [S.l.]: Pearson
Education Limited, 2011. Citado na página 21.
YUAN, Z. et al. Casing failure mechanism and characterization under hpht conditions in south
texas. In: EUROPEAN ASSOCIATION OF GEOSCIENTISTS & ENGINEERS. IPTC 2013:
International Petroleum Technology Conference. [S.l.], 2013. p. cp–350. Citado na página 14.