#!/usr/bin/awk -f

### lin_reg2.awk
# simple linear regression between columns

BEGIN {
    OFS = "%.18g"
    sign = "[+-]?"
    decimal = "[0-9]+[.]?[0-9]*"
    fraction = "[.][0-9]*"
    exponent = "([Ee]" sign "[0-9]+)?"
    number = "^" sign "(" decimal "|" fraction ")" exponent "$"
}

NR == 1 {
    header_nf = NF
    for (n=1; n<=NF; n++) {
        ($n !~ number) ? header[n] = $n : header[n] = "col" n
    }
}

NF != 0 {
    if (NF > nf_max)
        nf_max = NF

    ### iterate over columns
    for (y=1; y<=nf_max; y++) {
        if ($y ~ number) {

            ### mean
            count[y] += 1
            sum[y] += $y
            sum2[y] += $y*$y
            mean[y] = sum[y]/count[y]

            ### difference from the mean
            delta[y] = $y - mean[y]
            sum_delta[y] += delta[y]
            sum_delta2[y] += delta[y]*delta[y]

            ### sample variance
            (count[y] - 1) ? var[y] = sum_delta2[y]/(count[y] - 1) : var[y] = 0

            # x = row, y = col
            for (x=1; x<=nf_max; x++) {
                count[x,y] += 1
                sum_xy[x,y] += $x*$y
                sum_delta_xy[x,y] += delta[x]*delta[y]

                # correlation
                r_den[x,y] = sqrt(sum_delta2[x]*sum_delta2[y])
                (r_den[x,y]) ? r[x,y] = sum_delta_xy[x,y]/r_den[x,y] : r[x,y] = 1

                ab_den[x,y] = (count[x,y]*sum2[x] - sum[x]*sum[x])
                if (ab_den[x,y]) {
                    a[x,y] = (sum[y]*sum2[x] - sum[x]*sum_xy[x,y])/ab_den[x,y]
                    b[x,y] = (count[x,y]*sum_xy[x,y] - sum[x]*sum[y])/ab_den[x,y]
                }
                else {
                    a[x,y] = 0
                    b[x,y] = 1
                }

                ### error estimate
                err_den[x,y] = count[x,y]*(count[x,y] - 2)
                if (count[x,y] > 2) {
                    err[x,y] = $y - (a[x,y] + b[x,y]*$x)
                    sum_err2[x,y] += err[x,y]*err[x,y]
                }
                b_err_den[x,y] = (count[x,y] - 2)*sum_delta2[x]
                if (b_err_den[x,y])
                    b_err[x,y] = sqrt(sum_err2[x,y]/b_err_den[x,y])
                a_err_den[x,y] = count[x,y]*b_err_den[x,y]
                if (a_err_den[x,y])
                    a_err[x,y] = sqrt(sum2[x]/count[x,y])*b_err[x,y]
            }
        }
        else
            continue
    }
}

END {
    for (y=1; y<=nf_max; y++) {
        for (x=1; x<=nf_max; x++) {
            if (x != y && r[x,y]) {
                printf("\n  %.18g \t (%s) \t = (%.18g +/- %.18g)(%s) \t + (%.18g +/- %.18g)",
                    10.0*log(r[x,y]*r[x,y])/log(10), header[y], b[x,y], b_err[x,y], header[x],
                    a[x,y], a_err[x,y])
            }
        }
    }
}