问题

主题:研究/指标

回归输出

匿名者于 1955点
有人能帮我检查一下这些回归结果吗?结果在我看来似乎与直觉相反。

鉴于p值很低,我拒绝null, x变量对因式没有影响。但是,低的r平方值让我相信结果是没有帮助的…?然而,总体意义F分数似乎表明它是有效的。

换句话说,这个方程说的是,x每增加一个单位,我们预计会增加99,542美元(如果y变量用美元来衡量)。然而,当我查看数据时,我发现了一种相反的关系(游戏邦注:单位较低的观察结果拥有更高的收益,而单位较多的观察结果(游戏邦注:最多5个单位)则拥有更少的收益)……不知道是什么问题,发生了什么。

回归统计

倍数R = 0.125976465
R平方= 0.01587007
调整后的R平方= 0.015694458
标准错误= 214664.046
观察= 5606
方差分析
回归:df=1 SS=4.16431E+12 MS=4.16431E+12 F=90.37004933显著性F=2.85523E-21

残差:df=5604 SS=2.58236E+14 MS=46080652625

总:df = 5605 SS = 2.624 e + 14

拦截:系数=-41406.89864标准误差=11501.13051 t Stat=-3.600245958 P-value=0.000320666下95%=-63953.56927上95%=-18860.22801下95.0%=-63953.56927上95.0%=-18860.22801

X变量1:Coefficients=99542.75227 Standard Error=10471.22242 t Stat=9.506316286 P-value=2.85523E-21 Lower 95%=79015.10042 Upper 95%=120070.4041 Lower 95.0%=79015.10042 Upper 95.0%=120070.4041

谢谢!

布莱恩
要继续阅读这个问题和解决方案,请注册…它是免费的!
订阅
或者,登录

反应

  • 发布的koen.h.pauwels 接受
    你好布莱恩,

    你的模型看起来很好(有了可用的信息),但让我们来解释相关的数字:
    1)系数估计为负!所以你确实发现了x和y之间的负关系,与你的目测数据一致
    2)该系数估计与zeor有显著差异,因此您拒绝无影响的null是正确的
    3)整个模型的f值是显著的,所以你的模型确实帮助你解释因变量
    4) r平方是否过低?这取决于你的观点。在市场营销学术界,消费者行为研究人员通常得到的r平方小于0.10(如果他们报告:-)),而像我这样的定量研究人员得到的r平方超过0.80。主要原因是量化研究人员通常有更多变量的数据(如公司和竞争对手的价格等),因此可以解释更多的销售差异,比模型只有城市市场的平均演示和心理统计。顺便说一下,通过加入Y(t-1)可以很容易地增加时间序列模型中的r平方,例如过去的销售。你的模型现在一定更好吗?

    总之,我不认为你的模型是垃圾。较低的r平方确实表明,为了更好地解释(和预测)销售,添加更多自变量是一个好主意。同时,检查您的数据是否远离正态分布,在这种情况下,转换可能帮助您得到一个接近正态分布。你暗示说单位的上限是5,这让我认为其他变量也有这样的上限。
  • 发布的道森 接受
    布莱恩,

    让我问一个问题-什么类型的变量是因变量?它是序数的还是连续的?我问,因为如果数据是有序的,OLS回归可能不是最好的分析方法。

    基于数据是连续的,并且代表了一些“销售”指标,我从未见过在这种类型的模型中r平方值如此之低。至少,如果你是在一个商业环境(而不是学术环境)中解释这一点,你将面临一些挑战来解释你在这里所做的事情的有效性。无论对错,很少有人会本能地对你的结果感到满意。

    至少,r平方值应该告诉你,还有许多更重要的因素可以用来解释性能。
    约翰
  • 贴在 接受
    你好布莱恩,

    有办法查看你的数据吗?例如,你能在这里发布~10个数据点吗?为了保护你的数据,你可以缩放它们。我只对你说的视觉印象感兴趣。

    相反的结果可能会出现,例如,当你试图将线性函数(y = mx + b)与反函数(y = p/x + q)进行拟合时,会出现非常奇怪的数值情况,通常会有较大的(残余)误差和较低的r值:两个函数都不能很好地拟合,至少在较宽的数据范围内是这样。它们可以在很短的范围内很好地适应。

    这让我想到一个问题,你想要达到什么目的?你是否在寻找可能的最佳契合,即对发现的最佳描述?然后,你应该选择一个适合函数来展示你观察到的数据的重要属性(不要适合每一个峰值)。这可以是一个数据变换(y -> 1/y或x -> 1/x),正如blanalytics所说,它可以是一个移位,一个多项式(最好是:不要)或其他函数。根据你的目的,你甚至可能认为糟糕的线性匹配仍然足够好。

    这些是你必须从工程角度回答的基本问题。这是一种输入,一种你做出的决定。统计数据无法为你解答这个问题。-确定一个变量是一个重要的贡献者是另一回事。要做到这一点,一种方法是先将最突出的变量与数据拟合,然后逐步将残差与其他变量拟合。然而,这并不是最好的方法。

    这给我带来了更多的研究视角。这是一个新的研究领域吗?然后你就只能像我上面描述的那样寻找最好的、貌似合理的适合。对于这个问题,你有(让我们夸张一点)“科学”的推理吗?例如,在物理学中,我们知道一些关于力和重力的知识,我们可以在测量中期待某种“规律”,例如,y = m * x^2,其中y是距离,x是时间,我们会尝试拟合一个好的m值(使用y = m * x^2 + n * x + o将是一个更谨慎的方法)。因此,将数据与预期进行比较是非常合理的。

    换句话说:你能把你的直觉期望建立在一些被普遍接受的推理上,并把它表述成某种拟合方程吗?这将是改进的一个很好的起点。

    我的其他问题是关于你的数据质量和你可能想做的未来预测的可靠性。如果您的数据不可靠,统计数据将在各种高错误消息中向您报告这一点。不管今天你的适合度有多好,当应用到不同的(数据)情况时,你怎么知道明天会有多好呢?(我可以告诉你通往这些结果的路径,但那是另一回事了。)

    希望这有助于
    迈克尔
  • 贴在 作者
    谢谢你所有的回复,至少是大部分的回复。正如我所说,我正在寻找某人(有兴趣提供帮助)谁可能能够检查结果。我感谢你们中那些考虑到这一点并花时间做出回应的人。

    我所测试的假设是,如果将额外的业务单元出售给业务,预期收入(y)是否会增长。上面显示的结果似乎表明,业务部门越多,收入就越多(我知道这似乎是一个合乎逻辑的结论)。

    然而,当我们查看实际数据时,我们发现只有一个业务部门参与的项目的每项目收益更高。涉及五个业务单元的业务约定不仅导致了每个业务单元收入的降低,而且(一般来说)总收入的降低。所以,“参与用户粘性的业务单位越多,用户粘性收益就越高”(如等式所示)的结论似乎并不合理。

    也就是说,数据似乎没有意义的论点是可以接受的(谢谢你说得这么专业)。确实有可能我们没有运行正确的回归(等等)过程……因此发帖。

    再次感谢那些花时间提供实际回应的人。
  • 发布的steven.alker 成员
    布莱恩

    抱歉我错过了这道题,我喜欢数学题。这些数字看起来并不疯狂,但确实与直觉相悖。

    简单的问题,当你绘制数据集时它们是否近似于线性方程?如果不是,你就不能使用那种类型的回归,因为你会在不同的起点得到不同的答案,每次尝试都会得到两个答案!(或3或4取决于幂律)


    也许一些视觉分析可以帮助你在n维空间中工作。Tableau Software在这方面做得很好,它允许你通过2、3和n维的交叉标签来可视化信息。

    一旦你看到你的固定变量和或有变量,然后你可以尝试一些线性化-只有这样回归才有意义。

    史蒂夫。“

发布评论