Regresión Logística Múltiple

Regresión:

  1. Objetivo del Método

  2. Para la implementación del Método de Aproximación al Mercado (marketing approach) es necesario la localización de inmuebles comparables al objeto del avalúo a fin de cumplir el axioma: "Inmuebles Similares se Venderán en un Mercado Abierto a Precios Similares".

    La fuente principal de Datos Comparables o Referenciales (en Venezuela) son las Oficinas Subalternas de Registro Público de la localidad donde se ubique el bien inmueble objeto del avalúo; sin embargo existen otras fuentes tales como lo son las Notarías, las Oficinas Municipales de Catastro y la Prensa.

    Nos referimos a las Notas del Registro como la fuente principal de Datos Referenciales ya que los mismos son "datos ciertos" que cualquier persona puede consultar y evidenciar, ya que la información es pública y los mismos son certificados por un funcionario público (Registrador), que además de verificar quienes son los otorgantes (vendedor y comprador), comprueba la tradición legal del inmueble.[1]

    El problema fundamental de las Notas de Registro, consiste en que una parte significativa de las operaciones de Compra-Venta protocolizadas, pueden estar sub-valoradas en función de la evasión fiscal de los otorgantes. Sin embargo, desde hace unos pocos años esta costumbre de protocolizar por menos del valor, ha disminuido considerablemente en función de el Nuevo Régimen de Indexación implementado por el Estado Venezolano para el cálculo del Impuesto Sobre la Renta y la reciente autonomía de los Registros Públicos.

    Ante el hecho anterior, pareciese que la prensa tiende a generar referenciales o comparables mas confiables que los que se pudiesen localizar en una Oficina Subalterna de Registro Público; sin embargo la realidad es otra: En los avisos de prensa, solo se indica el precio que una de las partes "aspira" por su inmueble, no indicando el precio definitivo pactado o concertado por "ambas partes" en la operación de compra-venta.

    Por lo tanto, observamos que ambas fuentes (Registro y Prensa), tienen "fortalezas" y "debilidades", pudiendo concluir que:"Debería existir una ponderación entre ambas, de la que resultase una opinión de valor mas afinada que la de tomar individualmente cada una de ellas".[2]

    El objetivo de esta monografía consiste en presentar una hipótesis sobre el manejo simultáneo de referenciales provenientes del Registro y de la Prensa mediante la técnica del Análisis de Regresión Logística Múltiple con la finalidad de verificar la teoría anterior.

  3. Introducción al Análisis de Regresión Logistica

  4. El análisis de regresión logística es la técnica para el estudio de la relación entre una o mas variables independientes (X1, X2,X3....Xn) y una variable dependiente de tipo dicotómica.[3]

    Se define como variable dicotómica aquella que solo admite dos categorías que definen opciones o características mutuamente excluyentes u opuestas tales como (Y=SI , Y=NO); (Y=0 , Y=1), (Y=Encendido , Y=Apagado).

    Un modelo de regresión logística permite estimar o predecir la probabilidad de que un individuo posea una característica (Y=Registro , Y=Oferta) en función de una determinada o unas determinadas características individuales (X1=Precio Unitario, X2=Edad, X3=Area .....Xn).

    La diferencia fundamental entre el modelo de regresión lineal y de regresión logística es que el primero predice el valor medio de la variable dependiente (Y) a partir de una o mas variables independientes (X1, X2, X3 ... Xn); mientras que el segundo permite predecir la proporción de una de las dos categorías de la variable dependiente dicotómica (Y=SI , Y=NO) en función de una o mas variables independientes (X1, X2, X3 ... Xn).

    La probabilidad, por definición, solo puede incluir un valor comprendido entre 0 y 1; por lo tanto hay que desarrollar un modelo matemático que pueda estimar valores de P(Y=1)[4] dentro del rango real de 0 a 1.

    El modelo matemático que mejor estima tal probabilidad, debido a que restringe los valores a su rango 0 < π < 1, es el siguiente:

    Este modelo comúnmente presenta una forma de "S", limitada en el eje de las Ordenadas entre los valores 0 y 1.

    El modelo antes descrito se denomina Función Logística.

    Sustituyendo  por la expresión: P(Y=1).[5]O sea la probabilidad de que el Precio Unitario de un Referencial cualesquiera de la serie se corresponda a un "Valor de Prensa", se obtendrá que la Función Logística vendrá representada por el modelo No Lineal siguiente:

    Este es el momento de interpretar el significado de esta función en base a la problemática de los referenciales obtenidos en el Registro y los obtenidos a través de la Prensa:

    En teoría los Referenciales de Prensa y Registro deberían ser muy similares para cumplir con el axioma del mercado (inmuebles similares se venderán a precios similares). Sin embargo no siempre sucede así, tal como antes se ha explicado.

    P(Y=1) de cada referencial de la serie obtenida en la Oficina de Registro, se interpretará como la probabilidad de que el Precio Unitario de cada uno de ellos se equipare con los Precios Unitarios de la Prensa.

    Para el caso de un referencial de registro, una P(Y=1) = 0.65 indica que, la probabilidad de ese referencial de Registro en equipararse con la serie de referenciales de Prensa es del 65%.

    El mismo razonamiento es válido para los referenciales de Prensa, una P(Y=1) = 0.80, indica que el referencial de Prensa tiene una Probabilidad del 80% de ser equiparado a su propia serie (como en realidad es).

    Para el mismo referencial de prensa, la Probabilidad Complementaria (Y=0) = 0.20 = 1-P(Y=1) = 1-0.80; indica que, la probabilidad de un referencial de Prensa en equipararse con la serie de referenciales de Registro es del 20%.

  5. Demostracion del Metodo para el Caso de Variables Dicotomicas

  6. En el siguiente ejemplo se desarrollará la metodología aquí explicada. Se estudiará un Modelo de Regresión Logística Simple, o sea una variable dicotómica [ (Y=0) ; (Y=1) ] dependiente y una variable independiente (X).

    Se tiene una serie de referenciales obtenidos de dos fuentes:

    • a) Oficina Subalterna del Distrito Sucre del Estado Sucre.
    • b) Avisos Clasificados del Periódico Siglo XXI.

    Correspondientes todos a Precios Unitarios de Apartamentos en Propiedad Horizontal en el casco central de la ciudad de Cumaná, Estado Sucre.

    El primer paso, consiste en la Identificación de la Variable Dicotómica Dependiente: En este caso se asignará como P(Y=1) a los datos obtenidos de la prensa y se asignará como P(Y=0) a los datos obtenidos de la Oficina de Registro.

    La Unica Variable Independiente del modelo de regresión será el Precio Unitario de Apartamentos (X), expresado en Bs/M2.

    Seguidamente se clasificarán y ordenarán los datos de la manera siguiente:

    Una vez examinado los datos anteriores, hay que destacar lo siguiente:

    • a) Los Datos fueron clasificadas de acuerdo con su origen.
    • b) Los Datos fueron ordenadas de menor a mayor de acuerdo al valor de la variable independiente (X).[6]
    • c) Las Variables Dicotómicas Dependientes fueron definidas Y=1 si el dato es tomado de la Prensa, ó Y=0 si el dato es tomado de la Oficina de Registro.[7]

    La representación gráfica de estas series es la siguiente:

    El análisis de Regresión Logística, no es lineal; por lo tanto hay que utilizar un paquete estadístico dedicado, capaz de resolver este tipo de correlación no lineal. Para este ejemplo se utilizará el módulo "Nonlineal Regression",[8] incluído en el software StatGraphics 5.0 para DOS, sin embargo es posible resolver este tipo de regresiones con otros programas.

    En primer lugar se preparan los datos a enterar al sowftware estadístico:

    Variable Independiente Bs/M2 (X)

    Variable Dicotomica Dependiente (Y)

    160,000

    1

    190,000

    1

    200,000

    1

    210,000

    1

    210,000

    1

    220,000

    1

    190,000

    1

    100,000

    0

    110,000

    0

    110,000

    0

    130,000

    0

    140,000

    0

    160,000

    0

    130,000

    0

    Análisis de la Salida del Programa Estadístico:

    Las dos salidas anteriores se interpretan de la siguiente manera:

    1. El modelo de correlación logística quedará conformado de la siguiente manera:

    2. En el modelo de Regresión Logística:

      Se sustituyen los valores de los parámetros a y b del modelo:

      Donde: Coeficiente 1 = -6.04672443 = a
      Coeficiente 2 = 0.00003009 = b

    3. R-Squared = 0.779348, se refiere al coeficiente de regresión; indicando que el modelo no-lineal explica el fenómeno (probabilidad de que un referencial sea de registro o prensa) en un 78%, indicando que la correlación existe.

  7. Aplicación de la Correlacion Logistica en la Ponderacion de los Referenciales.

  8. En el punto anterior, se estudió paso a paso la obtención del Modelo de Correlación Logística de dos series de referenciales.

    En este ejemplo numérico, se aplicará el método estudiado a fin de obtener en un avalúo real la ponderación entre los referenciales de la prensa y los referenciales del registro a fin de generar un valor ponderado en proporción a las dos series de datos.

  9. La Regresion Logistica Multiple

  10. Toda la teoría vista hasta ahora (Regresión Logística Simple), aplicada a Dos (2) Variables, una independiente y la otra dependiente y dicotómica, es válida en el caso de la Regresión Logística Múltiple.

    La Regresión Logística Múltiple podrá expresarse de la siguiente manera:

    Este modelo genera una Probabilidad (del 0 al 1) en base a múltiples variables independientes.

    Debido a que una de las variables independientes, necesariamente debe ser el Precio Unitario y si también se seleccionara la Variable Independiente Area; se podría presentar problemas de Multicolinealidad entre esas dos variables, por estar una función de la otra.

    En estos casos es obligatorio el uso de la Matriz de Correlación para determinar si efectivamente las dos variables independientes estuviesen autocorrelacionadas.

    El paquete estadístico, deberá poder generar la Matriz de Correlación a fin de poder detectar problemas de Multicolinealidad entre las variables independientes. En caso de que no fuera así, es preferible no enterar en el modelo la Variable Independiente Area.

  11. Bibliografía

  12. ALVAREZ CACERES, R., Estadística multivariante y no paramétrica con SPSS, Madrid, Editorial Díaz Santos,1994.

    CARRASCO, J. L. y HERNAN, M. A., Estadística multivariante en las ciencias de la vida, Madrid, Editorial Ciencia 3, 1993.

    HOSMER, D. W.; TABER, S y LEMESHOW, S., Applied logistic regression, New York, Editorial John Wiley, 1989.

    JOVELL, A. J., Análisis de regresión logística, Madrid, Ediciones del Centro de Investigaciones Sociológicas, 1995.

    KLEINBAUM, D.G., Logistic regression. A self-learning text, New York, Editorial Springer-Verlag, 1994.

    PIOL PUPPIO, R., Herramientas estadísticas básicas, 2da. parte: Análisis de variables múltiple, SOITAVE, 1990 - 1997.

  13. Epigrafes

  14. [1] Aunque el Notario y el Registrador son funcionarios públicos que certifican y dan fe de la operación realizada mediante Documento Público; la diferencia fundamental entre estos dos servidores público radica en que solo el segundo de ellos puede verificar la tradición legal del inmueble.

    [2] Mezclar elementos de ambas fuentes de referenciales resultaría sin sentido ya que las mismas tienen un significado diferente; una se corresponde con operaciones acordadas entre las partes, mientras que la otra se corresponde a una simple aspiración de un precio (la mayoría de las veces sin ningún tipo de consideración ténica).

    [3] El modelo de regresión logística múltiple, también es aplicable a variables dependientes (Y) que son politómicas (3 o mas categorías); sin embargo esta monografía solo se abordará el estudio de la regresión logística en el caso de que la variable dependiente sea dicotómica (Y=SI , Y=NO).

    [4] P(Y=1) se define como la probabilidad de que ocurra el acontecimiento mientras que P(Y=0) se define como el rechazo a que ocurra el acontecimiento y comúnmente se representa de la forma 1-P.

    [5] En el caso muy específico de esta monografía, donde los datos a ser analizados son la serie de Referenciales de Registro y de Prensa; se tomarán en cuenta las siguientes definiciones:

    1. Se define como P(Y=1) a la probabilidad de que el Precio Unitario de un Referencial cualesquiera de la serie estudiada se corresponda a un valor de Prensa.
    2. Se define como P(Y=0) a la probabilidad complementaria o sea la probabilidad de que el Precio Unitario de un Referencial cualesquiera de la serie se corresponda a un valor de Registro.

    [6] Estas series se ordenarán de esta manera solo para hacer mas comprensible su representación gráfica. El ordenar las variables no afectará el resultado.

    [7] Tal como es su definición las Variables Dicotómicas son mutuamente excluyentes: El Referencial o fue tomado de la Prensa (Y=1) o fue tomado del Registro (Y=0). Las variables dicotómicas no pueden tomar un valor diferente a 0 ó 1 para este caso.

    [8] El procedimiento de "Regresión No-Lineal", obtiene los parámetros estimados por el método de los mínimos cuadrados en un modelo de regresión no-lineal. El procedimiento utiliza un algoritmo de búsqueda para determinar los parámetros que minimizan el residual de la suma de los cuadrados. Este procedimiento fue desarrollado por el Prof. Marquardt en 1963, siendo complementado por los estadísticos Drapper y Smith en 1966.

Galeria de Imagenes

Areas de Operación

Nuestros servicios estan disponibles en los siguientes estados.

Contacto

Tus dudas y tus comentarios serán resueltos a la brevedad posible, además de ayudarnos a mejorar nuestro servicio para darte una mejor atención.

Telefono: 5793-6526
E-mail: rcbmax@yahoo.com.mx

Cedula Profesional: 2716940
Registro de Perito Valuador Independiente ante la Tesoreria del D.F.: V-0736-126.