算法工程师面试-工程师报名-牛课考试网

2个回答默认排序
默认排序
按时间排序

爱到最后却沦为成了朋友

已采纳

autox面试难度一般。

autox（控制算法工程师）面试是一对一技术面，面试是一个部门主管，面试开始先确认身份，然后让自我介绍，然后开始对着简历问问题，项目、技能等，然后聊岗位了解情况，期望薪资、工作城市、最后开始对着简历问问题，第一个让解释项目结果，用到的软件工具及各自的作用。也不算很难，一般难度。

面试简介：

面试是通过书面、面谈或线上交流（视频、电话）的形式来考察一个人的工作能力与综合素质，通过面试可以初步判断应聘者是否可以融入自己的团队。在特定场景下，以面试官对应聘者的交谈与观察为主要手段，由表及里测评应聘者的知识、能力、经验和综合素质等有关素质的考试活动。

面试是公司挑选职工的一种重要方法。面试给公司和应聘者提供了进行双向交流的机会，能使公司和应聘者之间相互了解，从而双方都可更准确做出聘用与否、受聘与否的决定。

以上内容参考百度百科-面试

74 评论22小时前

深夜下起雨我又想起你

参考：

反卷积也称为转置卷积，如果用矩阵乘法实现卷积操作，将卷积核平铺为矩阵，则转置卷积在正向计算时左乘这个矩阵的转置WT，在反向传播是左乘W，与卷积操作刚好相反，需要注意的是，反卷积不是卷积的逆运算。 [知乎问题+caffe实现]

实现上采样；近似重构输入图像，卷积层可视化。

只要激活函数选择得当，神经元的数量足够，至少有一个隐含层的神经网络可以逼近闭区间上任意一个连续函数到任意指定的精度。

判别模型，直接输出类别标签，或者输出类后验概率p(y|x) [ ][ ][ ]

BN是在 batch这个维度上进行归一化，GN是计算channel方向每个group的均值方差.

检测结果与 Ground Truth 的交集比上它们的并集，即为检测的准确率 IoU

内存显存占用；模型收敛速度等

Hessian矩阵是n*n，在高维情况下这个矩阵非常大，计算和存储都是问题。

mini-batch太小会导致收敛变慢，太大容易陷入sharp minima，泛化性不好。

可以把dropout看成是一种ensemble方法，每次做完dropout相当于从原网络中找到一个更瘦的网络。

pooling操作虽然能增大感受野，但是会丢失一些信息。空洞卷积在卷积核中插入权重为0的值，因此每次卷积中会skip掉一些像素点；

空洞卷积增大了卷积输出每个点的感受野，并且不像pooling会丢失信息，在图像需要全局信息或者需要较长sequence依赖的语音序列问题上有着较广泛的应用。

表达式为：

使用BN的原因是网络训练中每一层不断改变的参数会导致后续每一层输入的分布发生变化，而学习的过程又要使每一层去适应输入的分布，因此不得不降低网络的学习率，并且要小心得初始化（internal covariant shift）如果仅通过归一化方法使得数据具有零均值和单位方差，则会降低层的表达能力（如使用Sigmoid函数时，只使用线性区域） BN的具体过程（注意第三个公式中分母要加上epsilon）

最好的解释是通过1 * 1卷积核能实现多个channel间的解耦合，解耦cross-channel correlation和spatial correlation。【但是因为解耦不彻底，因此后续有了mobile net的组卷积方式和shuffle net组卷积方式】

由于 1×1 并不会改变 height 和 width，改变通道的第一个最直观的结果，就是可以将原本的数据量进行增加或者减少。改变的只是 height × width × channels 中的 channels 这一个维度的大小而已。

1*1卷积核，可以在保持feature map尺度不变的（即不损失分辨率）的前提下大幅增加非线性特性（利用后接的非线性激活函数），把网络做的很deep。

备注：一个filter对应卷积后得到一个feature map，不同的filter(不同的weight和bias)，卷积以后得到不同的feature map，提取不同的特征，得到对应的specialized neuron。

例子：使用1x1卷积核，实现降维和升维的操作其实就是channel间信息的线性组合变化，3x3，64channels的卷积核后面添加一个1x1，28channels的卷积核，就变成了3x3，28channels的卷积核，原来的64个channels就可以理解为跨通道线性组合变成了28channels，这就是通道间的信息交互

注意：只是在channel维度上做线性组合，W和H上是共享权值的sliding window

并不能说明这个模型无效导致模型不收敛的原因可能有

A. 在实际场景下，应尽量使用ADAM，避免使用SGD B. 同样的初始学习率情况下，ADAM的收敛速度总是快于SGD方法C. 相同超参数数量情况下，比起自适应的学习率调整方式，SGD加手动调节通常会取得更好效果D. 同样的初始学习率情况下，ADAM比SGD容易过拟合

A.保证每一层的感受野不变，网络深度加深，使得网络的精度更高B.使得每一层的感受野增大，学习小特征的能力变大C.有效提取高层语义信息，且对高层语义进行加工，有效提高网络准确度D.利用该结构有效减轻网络的权重

A.计算简单 B.非线性 C.具有饱和区D.几乎处处可微【relu函数在0处是不可微的。】

的收敛速度比RMSprop慢 B.相比于SGD或RMSprop等优化器，Adam的收敛效果是最好的 C.对于轻量级神经网络，使用Adam比使用RMSprop更合适D.相比于Adam或RMSprop等优化器，SGD的收敛效果是最好的【SGD通常训练时间更长，容易陷入鞍点，但是在好的初始化和学习率调度方案的情况下，结果更可靠。如果在意更快的收敛，并且需要训练较深较复杂的网络时，推荐使用学习率自适应的优化方法。】

A.使用ReLU做为激活函数，可有效地防止梯度爆炸 B.使用Sigmoid做为激活函数，较容易出现梯度消失C.使用Batch Normalization层，可有效的防止梯度爆炸D.使用参数weight decay，在一程度上可防止模型过拟合

对结果存疑。认为二者皆可防止。

L-BFGS（Limited-memory BFGS，内存受限拟牛顿法）方法：所有的数据都会参与训练，算法融入方差归一化和均值归一化。大数据集训练DNN，容易参数量过大 (牛顿法的进化版本，寻找更好的优化方向，减少迭代轮数）从LBFGS算法的流程来看，其整个的核心的就是如何快速计算一个Hesse的近似：重点一是近似，所以有了LBFGS算法中使用前m个近似下降方向进行迭代的计算过程；重点二是快速，这个体现在不用保存Hesse矩阵上，只需要使用一个保存后的一阶导数序列就可以完成，因此不需要大量的存储，从而节省了计算资源；重点三，是在推导中使用秩二校正构造了一个正定矩阵，即便这个矩阵不是最优的下降方向，但至少可以保证函数下降。 FTRL(Follow-the-regularized-Leader)是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法，方便实用，而且效果很好，常用于更新在线的CTR预估模型；FTRL在处理带非光滑正则项（如L1正则）的凸优化问题上表现非常出色，不仅可以通过L1正则控制模型的稀疏度，而且收敛速度快；

在一定程度上解决了传统RNN梯度消失或梯度爆炸的问题相比于全连接的优势之一是模型复杂度低，缓解过拟合C.只要参数设置合理，深度学习的效果至少应优于随机算法D.随机梯度下降法可以缓解网络训练过程中陷入鞍点的问题

实际上，现在有很多针对小目标的措施和改良，如下：

最常见的是Upsample来Rezie网络输入图像的大小；

用dilatedastrous等这类特殊的卷积来提高检测器对分辨率的敏感度；（空洞卷积是针对图像语义分割问题中下采样会降低图像分辨率、丢失信息而提出的一种卷积思路。利用添加空洞扩大感受野，让原本3 x3的卷积核，在相同参数量和计算量下拥有5x5（dilated rate =2）或者更大的感受野，从而无需下采样。在保持参数个数不变的情况下增大了卷积核的感受野）

有比较直接的在浅层和深层的Feature Map上直接各自独立做预测的，这个就是我们常说的尺度问题。

用FPN这种把浅层特征和深层特征融合的，或者最后在预测的时候，用浅层特征和深层特征一起预测；

SNIP（Scale Normalization for Image Pyramids）主要思路：

在训练和反向传播更新参数时，只考虑那些在指定的尺度范围内的目标，由此提出了一种特别的多尺度训练方法。

161评论5小时前

算法工程师面试

2个回答默认排序默认排序按时间排序

相关问答

工程师报名问答专栏

向你推荐

热门问题

2个回答默认排序
默认排序
按时间排序