当前位置：首页 > 我要自学

深度学习综述，深度学习目前主要有哪些研究方向

我要自学
2023-06-14

目录
卷积神经网络CNN在图像识别问题应用综述（20191219）
第五天综述笔记2 10大类基于深度学习的segmentation model
深度学习目前主要有哪些研究方向
人工智能发展综述
人工神经网络综述

卷积神经网络CNN在图像识别问题应用综述（20191219）

司法人员经常考虑使用rule-based和symbol-based方法解决任务，NLP研究者主要考虑data-driven和embedding方法。

在这篇文章中就主要讨论Legal AI的历史、现况、和未来的研究方向。

进行了一些试验来对现有的工作进行更有深度的分析，分析他们的优缺点，并揭示一些未来的研究方向。

可解释性强的symbolic models的效率不高，embedding-methods有更好的性能，但通常没有好的解释性，在一些道德相关的问题上有比较大的问题：经典性别和种族偏见。

我们总结了symbol-based methods和embedding-based方法共同面临的三个主要的挑战：

本文的研究贡献主要如下：

字和词嵌入很重要。

直接从司法案情描述中学习出专业词汇伍渣很困难。为了克服这种困难，可以同时捕捉 语法信息 和 司法知识 。

knowledge graph methods在司法领域很有前景，但是在实际使用之前，还是有两个主要的挑战：

这两种挑战让LegalAI通过embedding进行知识建模不平凡（non-trivial）。研究者在未来会尝试去克服这些困难。

预训练的语言模型（Pretrained language model，PLM）比如BERT，最近集中于很多NLP的领域。鉴于预训练模型的成功，在LegalAI中使用预训练模型是一个很合理很直接的选择。但是在司法文本中，这里还有一些不同，如果直接使用这些PLM会导致不好的性能。这些不同就来自于司法文本中所包含的术语和纤巧知识。为了解决这些问题，Zhong(2019)提出了一腔竖悄个中文司法文档的预训练模型，包括民事和（civil）刑事（criminal）案件的文档。针对司法领域设计的PLM给LegalAI任务提供了一个更有质量的baseline。我们在实验中对比不同的BERT模型应用于LegalAI任务。

对于在未来探索LegalAI中的PLM，研究者可以把目标放在整合knowledge进入PLM。整合knowledge进入预训练模型可以帮助推理司法概念之间。很多工作已经做了，去把general domain融入模型。

symbol-based methods也被叫做structured prediction methods。

符号化的司法知识包括：事件（events）和关系（relationship），这些可以提供可解释性。

深度学习方法可以用于提高symbol-based methods的性能。

信息提取（information extraction，IE）已经被广泛地在NLP中被研究。IE强调从文本中提取有价值的信息，一些技术比如：实体识别（entity recognition），关系提取（relation extraction），事件提取（event extraction）。

为了更好的使用司法文本，研究者尝试使用本体论（ontology）或者全球一致性（global consistency）在LegalAI的命名实体识别（named entity recognition）任务中。为了从司法文本中提取关系和事件，研究者尝试去使用不同的方法，包括：人工规则（hand-crafted rules），CRF（不知道这是啥），联合模型比如SVM，CNN，GRU，或者（scale-free identifier network）（不知道这是啥）。

现存的工作已经做出了很大努力去改善IE的效果，但我们需要跟多的注意力放在怎么好好利用这些提取出来的信息。这些提取出来的符号有司法基础（legal basis）而且可以对司法应用提供可解释性。所以我们不能只把目标定在方法的性能。在这里我们展示两个利用提取出的符号来提高LegalAI可解释性的例子：

在未来的工作中，我们需要更多注意，应用提取的信息在LegalAI任务中。这些信息的利用取决于特定任务的要求，而且这些信息可以提供更多的可解释性。

除了NLP中的共同的symbol，LegalAI有独有的symbol，称作legal elements。提取legal element专注于提取一些关键元素，比如：某个人是不是被杀了，或者某个东西是不是被偷了。这些元素是犯罪活动（crime）的基本组成元素，而且我们可以基于这些元素，直接给犯罪者定罪。利用这些元素，不仅可以给判决预测任务带来直接的监管信息，而且可以让模型的预测结果更加可解释。

从这个例子可以看出，提取元素可以决定判决结果。这些元素对于下游任务很有用。

为了更深度分析基于元素的symbol，Shu(2019)构造了用于提取元素的三个数据集：离婚纠纷，劳工纠纷，贷款纠纷。这些数据集需要我们检测相关元素是否被满足，并把这个任务规范化为一个多标签的分类任务。为了展示现存方法在element extraction上的性能，我们进行了一系列实验，如下表格所示。

我们实现了NLP中几个经典的encoding模型，为了检验elemetnt extraction。包括TextCNN，DPCNN，LSTM，BiDAF，BERT。我们用了两种不同的BERT预训练参数（原始BERT、用中文司法文档训练的BERT：BERT-MS）。从这个结果中可以看到，在广泛领域（general domain）上的预训练模型效果不如在特定领域（domain-specific）训练的预训练模型，这就是在LegalAI中推进PLM的必要性。paper的以下部分，我们就会使用在legal documents上预训练的BERT来达到一个更好的表现。

从目前的element extraction的结果来看，现存的方法已经达到了一个很好的性能，但是在相关的应用上仍然不够。这些元素可以被看作是预先定义好的legal knowledge并且帮助下游任务。怎么改善element extraction也是需要进一步研究。

介绍几个典型的应用：

Legal Judgment Prediction

Similar Case Matching

Legal Question Answering

Legal Judgment Prediction 和Similar Case Matching可以看作民事法律（Civil Law）和普通法系（Common Law System，英美法系，普通法系）判决的核心功能。Legal Question Answering可以给不懂法律的人提供咨询服务。因此探究这三个任务可以基本上涵盖LegalAI的大部分方面。

Legal Judgment Predction（LJP）在民事法律体系中很中国要。在民事法律体系中，判决结果是基于事实和法律条文。LJP主要关心怎么通过 事实描述 和民法中 相关条文 ，来预测判决结果。

下面将介绍LJP方面的研究进展，和未来的研究方向。

早期的工作包括：使用统计和数学方法在特定场景下分析司法案件。同时结合数学方法和司法规则让预测结果具有可解释性。

为了LJP的进展，Xiao(2018)提出了一个大规模的中文刑事判决预测数据集，C-LJP（c指chinese）。这个数据集包含2.68 million个司法文档，是一个LJP的有效的benchmark。C-LJP包含三个子任务：相关文章relevant articles，应用的指控applicable charges，刑期term of penalty。前两个可以被formalize为多标签分类任务，最后一个是回归任务。英文的LJP也有，但是规模比较小。

随着NLP发展，研究者开始考虑在LJP中使用NLP任务。这些工作可以分为两个主要方向：1. 使用更新的模型提高性能：Chen(2019)用门机制提高预测刑期（term of penalty）的性能，Pan(2019)提出使用多尺度（multi-scale）的attention，来处理含有多个被告的案件。除此之外，其他的研究者探究怎么使用legal knowledge和LJP的一些属性。Luo(2017)在fact和law articles之间使用attention来帮助预测可应用的指控（applicable charges）。Zhong(2018)使用拓扑图来利用不同LJP不同任务之间的关系。Hu(2018)整合了是个可辩别的（discriminative）司法属性（legal attributes）来帮助预测低频率的指控。

一系列在C-LJP上的实验

实验结果：

可以看到很多模型在预测高频率指控（high-frequency charges）和文章（articles）中达到了很好的性能。但是在低频率的标签上表现不好，表现为micro-F1和macro-F1之间有很大的差距。

Hu(2018)展示了把few-shot learning应用于LJP。然而他们的模型需要额外的人工添加一些属性信息，这就导致很费劲，而且难以在其他的数据集上应用。除此之外，我们发现BERT的性能不够好，因为在一些模型参数较少的模型上没有什么提升。主要的原因是司法文本的长度一般较长，但是BERT最长的文本长度是512。根据统计数据，最长的司法文本长度是5w多字，15%文档场都超过了512。因此LJP需要一些文本理解（document understanding）和推理技术（reasoning technique）。

虽然embedding-based方法已经有很好的效果了，但是在LJP中我们需要结合embedding-based和symbol-based。拿TopJudge作为一个例子，这个模型规范化LJP任务中（symbol-based part）的拓扑序， 并使用TextCNN用于编码fact description。 （有点好奇这个TopJudge里是怎么通过symbol-based搞一个拓扑序的？对模型是怎么样有用的。）通过结合symbol-based和embedding-based，TopJudge达到了一个很好的效果。通过对比TextCNN和TopJudge可以发现加judgements 的顺序（order）可以提升性能。

为了更好的LJP性能。一些挑战需要研究者来探索：

在使用Common Law System（这好像可以解释为卷宗法律，通过相似的案件来判案）的国家中，比如美国，加拿大，印度，判决决策是通过相似案件和有代表性的（representative）案件来进行的。因此，怎么识别出相似的案件，时Common Law System中所最需要的。

为了更好的预测Common Law System的判决结果，Similar Case Matching（SCM）成了LegalAI的一个重要的话题。SCM中对于相似度（similarity）的定义也是多种多样。SCM需要从不同的信息粒度（information of different granularity）来建模（modeling）案件之间的关联（relationship），比如事实级别（fact-level），事件级别（event-level），和元素级别（element-level）。换一种话说，就是SCM是语义匹配的一种特殊形式（semantic matching），这个对于提取司法信息（legal information retrieval）有帮助。

传统的IR方法集中于使用统计方法来衡量term-level 的相似性，比如TF-IDF。除此之外，其他研究者还尝试利用元信息（meta-information），来捕捉语义相似度。许多机器学习方法也被应用于IR，比如SVD或者矩阵分解（factorization），随着深度学习发展，多层感知机（multi-layer perceptron），CNN，RNN也被应用于IR。

已经有一些LegalIR的数据集：COLIEE，CaseLaw，CM。COLIEE和CaseLaw都被用于从大的语料库中提取最相关的文章。CM中的数据样例提供了三个司法文档用于计算相似度。这些dataset都提供了一个benchmark。许多研究者专注于建立易用的司法搜索引擎（legal search engine，司法版google）。

以计算语义级别（semantic-level）的相似度为目标，深度学习方法被用于LegalIR。Tran(2019)提出了一个CNN-based model，结合了文档级别（document-level）和句子级别（sentence-level）的池化（pooling），在COLIEE上达到了SOTA的效果。

为了对当前的LegalIR进展有一个更好的理解视角，我们使用CM(Xiao 2019)来进行实验。CM包含8964个三元组，每个三元组包含三个司法文档（A, B, C）。CM的任务就是分辨出B和C哪个更接近A。我们实现了几个不同类型的baseline：

我们发现，能够捕捉语义信息的模型性能超过了TF-IDF，但是应用到SCM还不够。如Xiao(2019)所说，主要的原因是司法人员认为数据集中的elements定义了司法案件之间的相似度。司法人员会比较看重两个案件是否有相关的元素（elements）。只考虑term-level和semantic-level的相似度是不足够的。

更深的SCM研究有以下几个方向需要努力：

Legal Question Answering（LQA）：司法方面的问答。

司法专业人员的一个很重要的任务是向不懂法的人提供可靠的、高质量的司法咨询服务。

LQA中，问题的形式会有比较大的变化：有的问题强调对于司法概念的解释，有的问题主要考虑对于特定案件的分析。另外，从专业人员和非专业人员口中表达专业词汇可能会有差别。这些问题给LQA带来了很多挑战。

LegalAI中有很多数据集，Duan(2019)提出CJRC，一个司法阅读理解数据集，和SQUAD 2.0有相似的格式，包括span extraction（不懂），yes/no questions，unanswerable questions。另外COLIEE包含500个yes/no questions。另外，律师资格考试（bar exam）对于律师来说是一个很重要的考试，因此律师资格考试数据集会比较难，因为需要专业的司法知识和技能。

除了这些数据集之外，研究者还用了很多方法在LQA上。rule-based systems在早期的研究中效果显著。为了更好的性能，研究者利用更多的信息，比如概念解释（explanation of concepts）或者把相关文档格式化为图（formalize relevant documents as graph）来帮助推理。机器学习和深度学习方法比如CRF，SVM，CNN也用于LQA。但是，大多数现存方法只在小数据集上进行了实验。

我们选择JEC-QA来作为实验的数据集，因为这是从律师资格考试中收集到的最大的数据集，保证他的困难程度。JEC-QA包含了28641个多项选择、多项回答问题，还包含了79433个相关的文章来帮助回答问题。JEC-QA把问题分为知识驱动问题（knowledge-driven questions, KD-Questions）和案件分析问题（case-analysis questions），并且提供了人类的表现。我们实现了几个有代表性的QA模型，包括BiDAF、BERT、Co-matching、HAF，这些实验结果在表6中呈现。

对比发现，这些模型不能在回答这些司法问题上跟回答open-domain的问题时有一样好的效果。在LQA上，模型和人类之间有巨大的差距。

为了有更好的LQA方法，这里有几个困难需要克服：

除了这篇文章中的，还有其他的LegalAI任务：司法文献概述（legal text summarization），从司法合同中进行信息提取（information extraction from legal contracts）。不管怎样，我们都能够应用embedding-based方法来提高性能，结合symbol-based方法提高可解释性。

三个主要的挑战：

未来的研究者可以主要结合embedding方法和symbol方法解决这三个挑战。

对于一些任务，还没有数据集，或者数据集不够大。我们可以尝试构建规模大、质量高的数据集，或者使用few - shot / zero - shot learning方法来解决这些问题。

第五天综述笔记2 10大类基于深度学习的segmentation model

文章主要分为：

一、人工神经网络的概念；

二、人工神经网络的发展历史；

三、人工神经网络的特点；

四、人工神经网络的结构。

。

人工神经网络（Artificial Neural Network，ANN）简称神经网络(NN)，是基于生物学中神经网络的基本原理，在理解和抽象了人脑结构和外界刺激响应机制后，以网络拓扑知识为理论基础，模拟人脑的神经对复杂信息的处理机制的一种数学模型。该模型以并行分布的处理陆山能力、高容错性、智能化和自学习等能力为特征，将信息的加工和存储结合在一起，以其独特的知识表示方式和智能化的自适应学习能力，引起各学科领域的关注。它实际上是一个有大量简单元件相互连接而成的复杂网络，具有高度的非线性，能够进行复杂的逻辑操作和非线性关系实现的。

神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为激活函数（activation function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重（weight），神经网络就是通过这种方式来模拟人类的记忆。网络的输出则取决于网络的结构、网络的连接方式、权重和激活函数。而网络自身通常都是对自然界某种算法或者函数的逼近，也可能是对一种逻辑策略的表达。神经网络的构筑理念是受到生物的神经网络运作启发而产生的。人工神经网络则是把对生物神经网络的认识与数学统计模型相结合，借助数学统计来实现。另一方面在人工智能学的人工感知领域，我们通过数学统计学的方法，使神经网络能够具备类似于人的决定能力和简单的判断能力，这种方法是对传统逻辑学演算的进一步延伸。

人工神经网络中，神经元处理单元可表示不同的对象，例如特征、字母、概念，或者一些有意义的抽象模式。网络中处理单元的类型分为三类：输入单元、输出单元和隐单元。输入单元接受外部世界的信号与数据；输出单元实现处理结果的输出；隐单元是处在输入和输出单元之间，不能由外部观察的单元。神经元间的连接权值反映了单元间的连接强度，信息的表示和处理体现在网络处理单元的连接关系中。人工神经网络是一种非程序化、适应性、大脑风格的信息处理，其本质是通过网络的变换和动力学行为得到一种并行分布式的信息处理功能，并在不同程度和层次上模仿人脑神经的信息处理功能。

神经网络，是一种应用类似于大脑神经突触连接结构进行信息处理的数学模型，它是在人类对自身大脑组织结合和思维机制的认识理解基础之上模拟出来的，它是根植于神经科学、数学、思维科学、人工智饥悉卖能、统计学、物理学、计算机科学以及工程科学的一门技术。

在介绍神经网络的发展历史之前，首先介绍一下神经网络的概念。神经网络主要烂逗是指一种仿造人脑设计的简化的计算模型，这种模型中包含了大量的用于计算的神经元，这些神经元之间会通过一些带有权重的连边以一种层次化的方式组织在一起。每一层的神经元之间可以进行大规模的并行计算，层与层之间进行消息的传递。

下图展示了整个神经网络的发展历程：

神经网络的发展有悠久的历史。其发展过程大致可以概括为如下4个阶段。

(1)、M-P神经网络模型：20世纪40年代，人们就开始了对神经网络的研究。1943 年，美国心理学家麦克洛奇（Mcculloch）和数学家皮兹（Pitts）提出了M-P模型，此模型比较简单，但是意义重大。在模型中，通过把神经元看作个功能逻辑器件来实现算法，从此开创了神经网络模型的理论研究。

(2)、Hebb规则：1949 年，心理学家赫布（Hebb）出版了《The Organization of Behavior》（行为组织学），他在书中提出了突触连接强度可变的假设。这个假设认为学习过程最终发生在神经元之间的突触部位，突触的连接强度随之突触前后神经元的活动而变化。这一假设发展成为后来神经网络中非常著名的Hebb规则。这一法则告诉人们，神经元之间突触的联系强度是可变的，这种可变性是学习和记忆的基础。Hebb法则为构造有学习功能的神经网络模型奠定了基础。

(3)、感知器模型：1957 年，罗森勃拉特（Rosenblatt）以M-P 模型为基础，提出了感知器（Perceptron）模型。感知器模型具有现代神经网络的基本原则，并且它的结构非常符合神经生理学。这是一个具有连续可调权值矢量的MP神经网络模型，经过训练可以达到对一定的输入矢量模式进行分类和识别的目的，它虽然比较简单，却是第一个真正意义上的神经网络。Rosenblatt 证明了两层感知器能够对输入进行分类，他还提出了带隐层处理元件的三层感知器这一重要的研究方向。Rosenblatt 的神经网络模型包含了一些现代神经计算机的基本原理，从而形成神经网络方法和技术的重大突破。

(4)、ADALINE网络模型： 1959年，美国著名工程师威德罗（B.Widrow）和霍夫（M.Hoff）等人提出了自适应线性元件(Adaptive linear element，简称Adaline)和Widrow-Hoff学习规则（又称最小均方差算法或称δ规则）的神经网络训练方法，并将其应用于实际工程，成为第一个用于解决实际问题的人工神经网络，促进了神经网络的研究应用和发展。ADALINE网络模型是一种连续取值的自适应线性神经元网络模型，可以用于自适应。

人工智能的创始人之一Minsky和Papert对以感知器为代表的网络的功能及局限性从数学上做了深入研究，于1969年发表了轰动一时《Perceptrons》一书，指出简单的线性感知器的功能是有限的，它无法解决线性不可分的两类样本的分类问题，如简单的线性感知器不可能实现“异或”的逻辑关系等。这一论断给当时人工神经元网络的研究带来沉重的打击。开始了神经网络发展史上长达10年的低潮期。

(1)、自组织神经网络SOM模型：1972年，芬兰的KohonenT.教授，提出了自组织神经网络SOM(Self-Organizing feature map)。后来的神经网络主要是根据KohonenT.的工作来实现的。SOM网络是一类无导师学习网络，主要用于模式识别﹑语音识别及分类问题。它采用一种“胜者为王”的竞争学习算法，与先前提出的感知器有很大的不同，同时它的学习训练方式是无指导训练，是一种自组织网络。这种学习训练方式往往是在不知道有哪些分类类型存在时，用作提取分类信息的一种训练。

(2)、自适应共振理论ART：1976年，美国Grossberg教授提出了著名的自适应共振理论ART(Adaptive Resonance Theory)，其学习过程具有自组织和自稳定的特征。

(1)、Hopfield模型：1982年，美国物理学家霍普菲尔德（Hopfield）提出了一种离散神经网络，即离散Hopfield网络，从而有力地推动了神经网络的研究。在网络中，它首次将李雅普诺夫（Lyapunov）函数引入其中，后来的研究学者也将Lyapunov函数称为能量函数。证明了网络的稳定性。1984年，Hopfield 又提出了一种连续神经网络，将网络中神经元的激活函数由离散型改为连续型。1985 年，Hopfield和Tank利用Hopfield神经网络解决了著名的旅行推销商问题（Travelling Salesman Problem）。Hopfield神经网络是一组非线性微分方程。Hopfield的模型不仅对人工神经网络信息存储和提取功能进行了非线性数学概括，提出了动力方程和学习方程，还对网络算法提供了重要公式和参数，使人工神经网络的构造和学习有了理论指导，在Hopfield模型的影响下，大量学者又激发起研究神经网络的热情，积极投身于这一学术领域中。因为Hopfield 神经网络在众多方面具有巨大潜力，所以人们对神经网络的研究十分地重视，更多的人开始了研究神经网络，极大地推动了神经网络的发展。

(2)、Boltzmann机模型：1983年，Kirkpatrick等人认识到模拟退火算法可用于NP完全组合优化问题的求解，这种模拟高温物体退火过程来找寻全局最优解的方法最早由Metropli等人1953年提出的。1984年，Hinton与年轻学者Sejnowski等合作提出了大规模并行网络学习机，并明确提出隐单元的概念，这种学习机后来被称为Boltzmann机。

Hinton和Sejnowsky利用统计物理学的感念和方法，首次提出的多层网络的学习算法，称为Boltzmann 机模型。

(3)、BP神经网络模型：1986年，儒默哈特（D.E.Ru melhart）等人在多层神经网络模型的基础上，提出了多层神经网络权值修正的反向传播学习算法----BP算法（Error Back-Propagation），解决了多层前向神经网络的学习问题，证明了多层神经网络具有很强的学习能力，它可以完成许多学习任务，解决许多实际问题。

(4)、并行分布处理理论：1986年，由Rumelhart和McCkekkand主编的《Parallel Distributed Processing：Exploration in the Microstructures of Cognition》，该书中，他们建立了并行分布处理理论，主要致力于认知的微观研究，同时对具有非线性连续转移函数的多层前馈网络的误差反向传播算法即BP算法进行了详尽的分析，解决了长期以来没有权值调整有效算法的难题。可以求解感知机所不能解决的问题，回答了《Perceptrons》一书中关于神经网络局限性的问题，从实践上证实了人工神经网络有很强的运算能力。

(5)、细胞神经网络模型：1988年，Chua和Yang提出了细胞神经网络（CNN）模型，它是一个细胞自动机特性的大规模非线性计算机仿真。Kosko建立了双向联想存储模型（BAM），它具有非监督学习能力。

(6)、Darwinism模型：Edelman提出的Darwinism模型在90年代初产生了很大的影响，他建立了一种神经网络理论。

(7)、1988年，Linsker对感知机网络提出了新的自组织理论，并在Shanon信息论的基础上形成了最大互信息理论，从而点燃了基于NN的信息应用理论的光芒。

(8)、1988年，Broomhead和Lowe用径向基函数(Radialbasis function, RBF)提出分层网络的设计方法，从而将NN的设计与数值分析和线性适应滤波相挂钩。

(9)、1991年，Haken把协同引入神经网络，在他的理论框架中，他认为，认知过程是自发的，并断言模式识别过程即是模式形成过程。

(10)、1994年，廖晓昕关于细胞神经网络的数学理论与基础的提出，带来了这个领域新的进展。通过拓广神经网络的激活函数类，给出了更一般的时滞细胞神经网络(DCNN)、Hopfield神经网络（HNN）、双向联想记忆网络（BAM）模型。

(11)、90年代初，Vapnik等提出了支持向量机(Supportvector machines, SVM)和VC(Vapnik-Chervonenkis)维数的概念。

经过多年的发展，已有上百种的神经网络模型被提出。

深度学习(Deep Learning,DL)由Hinton等人于2006年提出，是机器学习的一个新领域。深度学习本质上是构建含有多隐层的机器学习架构模型，通过大规模数据进行训练，得到大量更具代表性的特征信息。深度学习算法打破了传统神经网络对层数的限制，可根据设计者需要选择网络层数。

突触是神经元之间相互连接的接口部分，即一个神经元的神经末梢与另一个神经元的树突相接触的交界面，位于神经元的神经末梢尾端。突触是轴突的终端。

大脑可视作为1000多亿神经元组成的神经网络。神经元的信息传递和处理是一种电化学活动．树突由于电化学作用接受外界的刺激，通过胞体内的活动体现为轴突电位，当轴突电位达到一定的值则形成神经脉冲或动作电位；再通过轴突末梢传递给其它的神经元．从控制论的观点来看；这一过程可以看作一个多输入单输出非线性的动态过程。

神经元的功能特性：（1）时空整合功能；（2）神经元的动态极化性；（3）兴奋与抑制状态；（4）结构的可塑性；（5）脉冲与电位信号的转换；（6）突触延期和不应期；（7）学习、遗忘和疲劳。

神经网络从两个方面模拟大脑：

(1)、神经网络获取的知识是从外界环境中学习得来的。

(2)、内部神经元的连接强度，即突触权值，用于储存获取的知识。

神经网络由能够处理人类大脑不同部分之间信息传递的由大量神经元连接形成的拓扑结构组成，依赖于这些庞大的神经元数目和它们之间的联系，人类的大脑能够收到输入的信息的刺激由分布式并行处理的神经元相互连接进行非线性映射处理，从而实现复杂的信息处理和推理任务。

对于某个处理单元（神经元）来说，假设来自其他处理单元（神经元）i的信息为Xi，它们与本处理单元的互相作用强度即连接权值为Wi, i=0,1,…,n-1,处理单元的内部阈值为θ。那么本处理单元（神经元）的输入为：

，而处理单元的输出为：

式中，xi为第i个元素的输入，wi为第i个处理单元与本处理单元的互联权重即神经元连接权值。f称为激活函数或作用函数，它决定节点（神经元）的输出。θ表示隐含层神经节点的阈值。

神经网络的主要工作是建立模型和确定权值，一般有前向型和反馈型两种网络结构。通常神经网络的学习和训练需要一组输入数据和输出数据对，选择网络模型和传递、训练函数后，神经网络计算得到输出结果，根据实际输出和期望输出之间的误差进行权值的修正，在网络进行判断的时候就只有输入数据而没有预期的输出结果。神经网络一个相当重要的能力是其网络能通过它的神经元权值和阈值的不断调整从环境中进行学习，直到网络的输出误差达到预期的结果，就认为网络训练结束。

对于这样一种多输入、单输出的基本单元可以进一步从生物化学、电生物学、数学等方面给出描述其功能的模型。利用大量神经元相互连接组成的人工神经网络，将显示出人脑的若干特征，人工神经网络也具有初步的自适应与自组织能力。在学习或训练过程中改变突触权重wij值，以适应周围环境的要求。同一网络因学习方式及内容不同可具有不同的功能。人工神经网络是一个具有学习能力的，可以发展知识，以至超过设计者原有的知识水平。通常，它的学习(或训练)方式可分为两种，一种是有监督(supervised)或称有导师的学习，这时利用给定的样本标准进行分类或模仿；另一种是无监督(unsupervised)学习或称无导师学习，这时，只规定学习方式或某些规则，而具体的学习内容随所处环境(即输入信号情况)而异，可以自动发现环境特征和规律性，具有更近似于人脑的功能。

在人工神经网络设计及应用研究中，通常需要考虑三个方面的内容，即神经元激活函数、神经元之间的连接形式和网络的学习(训练)。

深度学习目前主要有哪些研究方向

近十多年来，随着算法与控制技术的不断提高，人工智能正在以爆发式的速度蓬勃发展。并且，随着人机交互的优化、大数据的支持、模式识别技术的提升，人工智能正逐渐的走入我们的生活。本文主要阐述了人工智能的发展历史、发展近况、发展前景以及应用领域。

人工智能（Artificial Intelligence）简称AI，是麦卡赛等人在1956年的一场会议时提出的概念。

近几年，在“人机大战”的影响下，人工智能的话题十分的火热，特别是在“阿尔法狗”（AlphaGo）战胜李世石后，人们一直在讨论人是否能“战胜”自己制造的有着大数据支持的“人工智能”，而在各种科幻电影的渲染中，人工智能的伦理性、哲学性的问题也随之加重。

人工智能是一个极其复杂又令人激动的事物，人们需要去了解真正的人工智能，因此本文将会对什么是人工智能以及人工智能的发展历程、未来前景和应用领域等方面进行详细的阐述。

人们总希望使计算机或者机器能够像人一样思考、像人一样行动、合理地思考、合理地行动，并帮助人们解决现实中实际的问题。而要达到以上的功能，则需要计算机（机器人或者机器）具有以下的能力：

自然语言处理（natural language processing）

知识表示（knowledge representation）

自动推理（automated reasoning）

机器学习（machine learning）

计算机视觉（computer vision）

机器人学（robotics）

这6个领域，构成了人工智能的绝大多数内容。人工智能之父阿兰·图灵（Alan Turing）在1950年还提出了一种图灵测试（Turing Test），旨在为计算机的智能性提供一个令人满意的可操作性定义。

关于图灵测试，是指测试者在与被测试者（一个人和一台机器）隔开的情况下，通过一些装置（如键盘）向被测试者随意提问。进行多次测试后，如果有超过30%的测试者不能确定出被测试者是人还是机器，那么这台机器就通过了测试，并被认为具有人类智能。

图灵测试是在60多年前就已经提出来了，但是在现在依然适用，然而我们现在的发展其实远远落后于当年图灵的预测。

在2014年6月8日，由一个俄罗斯团队开发的一个模拟人类说话的脚本——尤金·古斯特曼（Eugene Goostman）成为了首个通过图灵测试的“计算机”，它成功的使人们相信了它是一个13岁的小男孩，该事件成为了人工智能发展的一个里程碑。

在2015年，《Science》杂志报道称，人工智能终于能像人类一样学习，并通过了图灵测试。一个AI能够迅速学会写陌生文字，同时还能识别出非本质特征，这是人工智能发展的一大进步。

①1943-1955年人工智能的孕育期

人工智能的最早工作是Warren McCulloch和Walter Pitts完成的，他们利用了基础生理学和脑神经元的功能、罗素和怀特海德的对命题逻辑的形式分析、图灵的理论，他们提出了一种神经元模型并且将每个神经元叙述为“开”和“关”。人工智能之父图灵在《计算机与智能》中，提出了图灵测试、机器学习、遗传算法等各种概念，奠定了人工智能的基础。

②1956年人工智能的诞生

1956年的夏季，以麦卡锡、明斯基、香农、罗切斯特为首的一批科学家，在达特茅斯组织组织了一场两个月的研讨会，在这场会议上，研究了用机器研究智能的一系列问题，并首次提出了“人工智能”这一概念，人工智能至此诞生。

③1952-1969年人工智能的期望期

此时，由于各种技术的限制，当权者人为“机器永远不能做X”，麦卡锡把这段时期称作“瞧，妈，连手都没有！”的时代。

后来在IBM公司，罗切斯特和他的同事们制作了一些最初的人工智能程序，它能够帮助学生们许多学生证明一些棘手的定理。

1958年，麦卡锡发表了“Program with Common Sense”的论文，文中他描述了“Advice Taker”，这个假想的程序可以被看作第一个人工智能的。

④1966-1973人工智能发展的困难期

这个时期，在人工智能发展时主要遇到了几个大的困难。

第一种困难来源于大多数早期程序对其主题一无所知；

第二种困难是人工智能试图求解的许多问题的难解性。

第三种困难是来源于用来产生智能行为的基本结构的某些根本局限。

⑤1980年人工智能成为产业

此时期，第一个商用的专家开始在DEC公司运转，它帮助新计算机配置订单。1981年，日本宣布了“第五代计算机”计划，随后美国组建了微电子和计算机技术公司作为保持竞争力的集团。随之而来的是几百家公司开始研发“专家”、“视觉”、“机器人与服务”这些目标的软硬件开发，一个被称为“人工智能的冬天”的时期到来了，很多公司开始因为无法实现当初的设想而开始倒闭。

⑥1986年以后

1986年，神经网络回归。

1987年，人工智能开始采用科学的方法，基于“隐马尔可夫模型”的方法开始主导这个领域。

1995年，智能Agent出现。

2001年，大数据成为可用性。

在1997年时，IBM公司的超级计算机“深蓝”战胜了堪称国际象棋棋坛神话的前俄罗斯棋手Garry Kasparov而震惊了世界。

在2016年时，Google旗下的DeepMind公司研发的阿尔法围棋（AlphaGo）以4:1的战绩战胜了围棋世界冠军、职业九段棋手李世石，从而又一次引发了关于人工智能的热议，随后在2017年5月的中国乌镇围棋峰会上以3:0的战绩又战胜了世界排名第一的柯洁。

2017年1月6日，百度的人工智能机器人“小度”在最强大脑的舞台上人脸识别的项目中以3:2的成绩战胜了人类“最强大脑”王峰。1月13日，小度与“听音神童”孙亦廷在语音识别项目中以2:2的成绩战平。随后又在1月21日又一次在人脸识别项目中以2:0的成绩战胜了“水哥”王昱珩，更在最强大脑的收官之战中战胜了人类代表队的黄政与Alex。

2016年9月1日，百度李彦宏发布了“百度大脑”计划，利用计算机技术模拟人脑，已经可以做到孩子的智力水平。李彦宏阐述了百度大脑在语音、图像、自然语言处理和用户画像领域的前沿进展。目前，百度大脑语音合成日请求量2.5亿，语音识别率达97%。

“深度学习”是百度大脑的主要算法，在图像处理方面，百度已经成为了全世界的最领先的公司之一。

百度大脑的四大功能分别是：语音、图像，自然语言处理和用户画像。

语音是指具有语音识别能力与语音合成能力，图像主要是指计算机视觉，自然语言处理除了需要计算机有认知能力之外还需要具备推理能力，用户画像是建立在一系列真实数据之上的目标用户模型。

工业4.0是由德国提出来的十大未来项目之一，旨在提升制造业的智能化水平，建立具有适应性、资源效率及基因工程学的智慧工厂。

工业4.0已经进入中德合作新时代，有明确提出工业生产的数字化就是“工业4.0”对于未来中德经济发展具有重大意义。

工业4.0项目主要分为三大主题：智能工厂、智能生产、智能物流。

它面临的挑战有：缺乏足够的技能来加快第四次工业革命的进程、企业的IT部门有冗余的威胁、利益相关者普遍不愿意改变。

但是随着AI的发展，工业4.0的推进速度将会大大推快。

人工智能可以渗透到各行各业，领域很多，例如：

①无人驾驶：它集自动控制、体系结构、人工智能、视觉计算等众多技术于一体，是计算机科学、模式识别和智能控制技术高度发展的产物世界上最先进的无人驾驶汽车已经测试行驶近五十万公里，其中最后八万公里是在没有任何人为安全干预措施下完成的。英国政府也在资助运输研究实验室（TRL），它将在伦敦测试无人驾驶投递车能否成功用于投递包裹和其他货物，使用无人驾驶投递车辆将成为在格林威治实施的众多项目之一。

②语音识别：该技术可以使让机器知道你在说什么并且做出相应的处理，1952年贝尔研究所研制出了第一个能识别10个英文数字发音的。在国外的应用中，苹果公司的siri一直处于领先状态，在国内，科大讯飞在这方面的发展尤为迅速。

③自主规划与调整：NASA的远程Agent程序未第一个船载自主规划程序，用于控制航天器的操作调度。

④博弈：人机博弈一直是最近非常火热的话题，深度学习与大数据的支持，成为了机器“战胜”人脑的主要方式。

⑤垃圾信息过滤：学习算法可以将上十亿的信息分类成垃圾信息，可以为接收者节省很多时间。

⑥机器人技术：机器人技术可以使机器人代替人类从事某些繁琐或者危险的工作，在战争中，可以运送危险物品、炸弹拆除等。

⑦机器翻译：机器翻译可以将语言转化成你需要的语言，比如现在的百度翻译、谷歌翻译都可以做的很好，讯飞也开发了实时翻译的功能。

⑧智能家居：在智能家居领域，AI或许可以帮上很大的忙，比如模式识别，可以应用在很多家居上使其智能化，提高人机交互感，智能机器人也可以在帮人们做一些繁琐的家务等。

专家是一个智能计算机程序，其内部含有大量的某个领域专家水平的知识与经验，能够利用人类专家的知识和解决问题的方法来处理该领域问题。也就是说，专家是一个具有大量的专门知识与经验的程序，它应用人工智能技术和计算机技术，根据某领域一个或多个专家提供的知识和经验，进行推理和判断，模拟人类专家的决策过程，以便解决那些需要人类专家处理的复杂问题，简而言之，专家是一种模拟人类专家解决领域问题的计算机程序。

知识库是专家质量是否优越的关键所在，即知识库中知识的质量和数量决定着专家的质量水平。一般来说，专家中的知识库与专家程序是相互独立的，用户可以通过改变、完善知识库中的知识内容来提高专家的性能。

机器学习(Machine Learning, ML)是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等的多领域交叉学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，它是人工智能的核心，是使计算机具有智能的根本途径,也是深度学习的基础。

机器学习领域的研究工作主要围绕以下三个方面进行：

（1）面向任务的研究

研究和分析改进一组预定任务的执行性能的学习。

（2）认知模型

研究人类学习过程并进行计算机模拟。

（3）理论分析

从理论上探索各种可能的学习方法和独立于应用领域的算法

机器学习是继专家之后人工智能应用的又一重要研究领域，也是人工智能和神经计算的核心研究课题之一。但是现有的计算机和人工智能没有什么学习能力，至多也只有非常有限的学习能力，因而不能满足科技和生产提出的新要求。

遗传算法（Genetic Algorithm）是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型，是一种通过模拟自然进化过程搜索最优解的方法。它借鉴生物界的进化规律（适者生存，优胜劣汰遗传机制）进行随机化搜索，它是由美国的J.Holland教授1975年首先提出，其主要特点是直接对结构对象进行操作，不存在求导和函数连续性的限定；具有内在的隐并行性和更好的全局寻优能力；采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则。遗传算法的这些性质，已被人们广泛地应用于组合优化、机器学习、信号处理、自适应控制和人工生命等领域，它是现代有关智能计算中的关键技术。

Deep Learning即深度学习，深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。是机器学习中一种基于对数据进行表征学习的方法。

他的基本思想是：假设我们有一个S，它有n层（S1,…Sn），它的输入是I，输出是O，形象地表示为：I =>S1=>S2=>…..=>Sn

=> O，如果输出O等于输入I，即输入I经过这个变化之后没有任何的信息损失，设处理a信息得到b，再对b处理得到c，那么可以证明：a和c的互信息不会超过a和b的互信息。这表明信息处理不会增加信息，大部分处理会丢失信息。保持了不变，这意味着输入I经过每一层Si都没有任何的信息损失，即在任何一层Si，它都是原有信息（即输入I）的另外一种表示。Deep Learning需要自动地学习特征，假设我们有一堆输入I（如一堆图像或者文本），假设设计了一个S（有n层），通过调整中参数，使得它的输出仍然是输入I，那么就可以自动地获取得到输入I的一系列层次特征，即S1，…, Sn。对于深度学习来说，其思想就是对堆叠多个层，也就是说这一层的输出作为下一层的输入。通过这种方式，就可以实现对输入信息进行分级表达了。

深度学习的主要技术有：线性代数、概率和信息论；欠拟合、过拟合、正则化；最大似然估计和贝叶斯统计；随机梯度下降；监督学习和无监督学习深度前馈网络、代价函数和反向传播；正则化、稀疏编码和dropout；自适应学习算法；卷积神经网络；循环神经网络；递归神经网络；深度神经网络和深度堆叠网络；

LSTM长短时记忆；主成分分析；正则自动编码器；表征学习；蒙特卡洛；受限波兹曼机；深度置信网络；softmax回归、决策树和聚类算法；KNN和SVM；

生成对抗网络和有向生成网络；机器视觉和图像识别；自然语言处理；语音识别和机器翻译；有限马尔科夫；动态规划；梯度策略算法；增强学习（Q-learning）。

随着人工智能的发展，人工智能将会逐渐走入我们的生活、学习、工作中，其实人工智能已经早就渗透到了我们的生活中，小到我们手机里的计算机，Siri,语音搜索，人脸识别等等，大到无人驾驶汽车，航空卫星。在未来，AI极大可能性的去解放人类，他会替代人类做绝大多数人类能做的事情，正如刘慈欣所说：人工智能的发展，它开始可能会代替一部分人的工作，到最后的话，很可能他把90%甚至更高的人类的工作全部代替。吴恩达也表明，人工智能的发展非常快，我们可以用语音讲话跟电脑用语音交互，会跟真人讲话一样自然，这会完全改变我们跟机器交互的办法。自动驾驶对人也有非常大的价值，我们的社会有很多不同的领域，比如说医疗、教育、金融，都会可以用技术来完全改变。

[1] Russell,S.J.Norvig,P.人工智能：一种现代的方法（第3版）北京：清华大学出版社，2013（2016.12重印）

[2]库兹韦尔，人工智能的未来杭州：浙江人民出版社，2016.3

[3]苏楠.人工智能的发展现状与未来展望[J].中小企业管理与科技(上旬刊),2017,(04):107-108.

[4]王超.从AlphaGo的胜利看人工智能的发展历程与应用前景[J].中国新技术新产品,2017,(04):125-126.

[5]朱巍,陈慧慧,田思媛,王红武.人工智能:从科学梦到新蓝海——人工智能产业发展分析及对策[J].科技进步与对策,2016,(21):66-70.

[6]王江涛.浅析人工智能的发展及其应用[J].电子技术与工程,2015,(05):264.

[7]杨焱.人工智能技术的发展趋势研究[J].信息与电脑(理论版),2012,(08):151-152.

[8]张妮,徐文尚,王文文.人工智能技术发展及应用研究综述[J].煤矿机械,2009,(02):4-7.

[9]王永忠.人工智能技术在智能建筑中的应用研究[J].科技信息,2009,(03):343+342.

[10]李德毅,肖俐平.网络时代的人工智能[J]中文信息学报,2008,(02):3-9.

[11]李红霞.人工智能的发展综述[J].甘肃科技纵横,2007,(05):17-18

[12]孙科.基于Spark的机器学习应用框架研究与实现[D].上海交通大学,2015.

[13]朱军,胡文波.贝叶斯机器学习前沿进展综述[J].计算机研究与发展,2015,(01):16-26.

[14]何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,(04):327-336.

[15]郭亚宁,冯莎莎.机器学习理论研究[J].中国科技信息,2010,(14):208-209+214.

[16]陈凯,朱钰.机器学习及其相关算法综述[J].统计与信息论坛,2007,(05):105-112.

[17]闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,(07):4-10+13.

[18]张建明,詹智财,成科扬,詹永照.深度学习的研究与发展[J].江苏大学学报(自然科学版),2015,(02):191-200.

[19]尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,(01):48-59.

[20]刘建伟,刘媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,(07):1921-1930+1942

[21]马永杰,云文霞.遗传算法研究进展[J].计算机应用研究,2012,(04):1201-1206+1210.

[22]曹道友.基于改进遗传算法的应用研究[D].安徽大学,2010

人工智能发展综述

随着深度学习在各个领域的井喷式进展，一些学术领域显得有些混乱。因此survey就显得至关重要。一篇好的survey能提好昌供该领域的全面视角，还能帮助其他领域的学者更好的了解该方向，同时也能对该领域现存的问题进行收集总结等等。

这里收集了7篇近年来机器学习各个领域的survey，希望能帮助大家。

1、联邦学习相关进展以及显存问题 Advances and Open Problems in Federated Learning (Peter Kairouz, H. Brendan McMahan, et al. arxiv, 2019)

联邦学习是一种供多用户进行协作的训练方法，通过这种方法，多个终端用户（例如移动设备用户或整个组织）可以在中央服务器（例如服务器提供商）的协同调度下共同合作训练同一个模型，同时保证训练数据的去中心化（来自各个用户）。

联邦学习体现了专注于数据收集和成本最小化的原则，因此可以减轻传统的中心化机器学习以及数据科学方法中存在的性隐私风险和成本。在联邦学习相关研究爆炸性增长的推动下，本文讨论了该领域今年来的相关进展，并提出了大量开放式问题与挑战。

2、基于深度学习的时间序列分类综述 Deep learning for time series classification: a review (Hassan Ismail Fawaz et al. DATA MIN KNOWL DISC, 2018)

时间序列分类（TSC）是数据挖掘中一个既重要又富有挑战性的任务。随着时间序列数据的可用性增加，大量的TSC算法被提出。然而在这些方法中，只有少部分是通过深度神经网络（DNN)来完成该任务的，对比DNN在近年来的大量成功应用，着实让人惊讶。DNN确实是彻底改变了计算机视觉领域，尤其是随着一些新颖的更深层架构，例如残差网络和卷积神经网络的出现。除了图像外，序列结构数据，例如文本和音频等，也能经由DNN处理，从而在文本分类和语音识别任务中达到最优。

本文通过对TSC任务中基于最新DNN结构的方法进行实证研究，从而探究深度学习相关方法在TSC任务中的最优效果。通过同一的DNN分类，我们给出了深度学习在时间序列相关领域的各个应用概览。同时我们也提供了用于构建TSC生态的开源深度学习框架，包含所有参与对比的方法的实现，以及他们在TSC 基准数据集和其他12个时间序列数据集上的验证结果。通过在97个时间序列数据上训练了8730个模型，我们提供了目前为止DNN在TSC任务上最详尽的研究。

3、深度学习最优化理论及算法 Optimization for deep learning: theory and algorithms (Ruoyu Sun, arxiv, 2019)

本文主要探讨在什么条件下能成功训练，以及为什么这样能成功训练神经网络。本文给出了训练神经网络有关的最优化算法和理论的概论。

第一，首先讨论了梯度爆炸/消失的问题，以及更广义的预料之外的情况，接着讨论了一些实用解决方案，包括仔细的初始化和规范化方法。第二，评述了一些通用的优化方法，例如SGD，适应梯度下降，和分布式方法，以及这些方法的现有理论成果。第三，我如埋们评述了用于解决训练过程中全局优化问题的现有方法，包括局部极值，模式连接，彩票假设，以及友橡扒无限宽度上的结果分析。

4、标准化流相关方法的介绍与综述 Normalizing Flows: An Introduction and Review of Current Methods(Ivan Kobyzev, Simon Prince, Marcus A. Brubaker. arxiv, 2019)

标注化流是一种生成模型，其能产生可处理数据分布，并且能高效地进行进行采样和概率密度评估。本文的目标是对标准化流在分布式学习中的建立和使用，进行连贯和全面的回顾。

我们希望能提供相关模型的上下文理解和解释，回顾目前的最优工作，并提出一些开放式问题和未来的研究方向。

5、标准化流：概率建模与推理 Normalizing Flows for Probabilistic Modeling and Inference (George Papamakarios, Eric Nalisnick, et al. arxiv, 2019)

标准化流提供了一种生成机制来定义具有表达力的概率分布，并且只需要指定一个(通常很简单的)基本分布和一系列双射转换。进来有许多研究标准化流的工作，包括提高模型表达能力，以及扩展应用范围等。因此我们相信该领域的研究已经渐趋成熟，需要一个统一的视角。

人工神经网络综述

这两天在公司做PM实习，主要是自学一些CV的知识，以了解产品在解决一些在图像识别、图像搜索方面的问题，学习的主要方式是在知网检索了6.7篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系，后面还会继续更新图片相似度计算（以图搜图）等方面的学习成果

将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题（主要是卷积神经网络CNNs）的基础过程和原理，但这里不会深入到技术的实现层面。

计算机视觉（Computer vision）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，用计算机处理成为更适合人眼观察或传送给仪器检测的图像。

————维基百科

通常而言，计算机视觉的研究包括三个层次：

（1）底层特征的研究：

这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征，具体的研究内容通常包括：物体识别、字符识别等

（2）中层语义特征的研究：

该层次的研究在于在识别出对象的基础上，对其位置、边缘等信息能够准确区分。现在比较热门的：图像分割；语义分割；场景标注等，都属于该领域的范畴

（3）高层语义理解：

这一层次建立在前两层的基础上，其核心在于“理解”一词。目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于：场景识别、图像摘要生成及图像语义回答等。

而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。

人类的视觉工作模式是这样的：

首先，我们大脑中的神经元接收到大量的信息微粒，但我们的大脑还并不能处理它们。

于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。

接着，无数条线又整合成一个个轮廓。

最后多个轮廓累加终于聚合我们现在眼前看到的样子。

计算机科学受到神经科学的启发，也采用了类似的工作方式。具体而言，图像识别问题一般都遵循下面几个流程

（1）获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在

（2）数据预处理工作，在图像识别领域主要包括四个方面的技术：去噪处理（提升信噪比）、图像增强和图像修复（主要针对不够清晰或有破损缺失的图像）；归一化处理（一方面是为了减少开销、提高算法的性能，另一方面则是为了能成功使用深度学习等算法，这类算法必须使用归一化数据）。

巧扰（3）特征提取，这一点是该领域的核心，也是本文的核心。图像识别的基础是能够提取出足够高质量，能体现图像独特性和区分度的特征。

过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法，如PCA\LCA等来提取一些贺蠢人工设计的特征，主要的方法有（HOG、LBP以及十分著名的SIFT算法）。但是这些方法普遍存在（a）一般基于图像的一些提层特征信息（如色彩、纹理等）难以表达复杂的图像高层语义，故泛化能力普遍比较弱。（b）这些禅宽陪方法一般都针对特定领域的特定应用设计，泛化能力和迁移的能力大多比较弱。

另外一种思路是使用BP方法，但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题（每个元素都要负责底层的所有参数），另外也不能根据样本对训练过程进行优化，实在是费时又费力。

因此，一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中，以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线，由于其使用权重共享和特征降采样，充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中，目前使用较多又最为主流的是CNN算法，在第四部分主要也研究CNN方法的机理。

上图是一个简易的神经网络，只有一层隐含层，而且是全连接的（如图，上一层的每个节点都要对下一层的每个节点负责。）具体神经元与神经元的作用过程可见下图。

在诸多传统的神经网络中，BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是：导入训练样本、计算期望值和实际值之间的差值，不断地调整权重，使得误差减少的规定值的范围内。其具体过程如下图：

一般来说，机器学习又分成浅层学习和深度学习。传统的机器学习算法，如SVM、贝叶斯、神经网络等都属于浅层模型，其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。

如果是有多个隐含层的多层神经网络（一般定义为大于5层），那么我们将把这个模型称为深度学习，其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够，特别是在复杂问题分类情况上容易出现分类不足的弊端，深度网络的优势则在于其多层的架构可以分层表示逻辑，这样就可以用简单的方法表示出复杂的问题，一个简单的例子是：

如果我们想计算sin(cos(log(exp(x))))，

那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)

图像识别问题是物体识别的一个子问题，其鲁棒性往往是解决该类问题一个非常重要的指标，该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了：

（1）噪音（2）尺度变化（3）旋转（4）光线变化（5）位移

该部分具体的内容，想要快速理解原理的话推荐看[知乎相关文章] ( https://www.zhihu.com/search?type=content&q=CNN )，

特别是其中有些高赞回答中都有很多动图和动画，非常有助于理解。

但核心而言，CNN的核心优势在于 共享权重 以及 感受野 ，减少了网络的参数，实现了更快的训练速度和同样预测结果下更少的训练样本，而且相对于人工方法，一般使用深度学习实现的CNN算法使用无监督学习，其也不需要手工提取特征。

CNN算法的过程给我的感觉，个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性：局部感知、权重共享和池化。

CNN中的神经元主要分成了两种：

（a）用于特征提取的S元，它们一起组成了卷积层，用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数（控制输出对输入的反映敏感度）和感受野参数（决定了从输入层中提取多大的空间进行输入，可以简单理解为擦玻璃的抹布有多大）

（b）抗形变的C元，它们一起组成了池化层，也被称为欠采样或下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。

（c*）激活函数，及卷积层输出的结果要经过一次激励函数才会映射到池化层中，主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。

也许你会抱有疑问，CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到，一个全连接中，较高一层的每个神经元要对低层的每一个神经元负责，从而导致了过拟合和维度灾难的问题。但是有了区域感受野和，每个神经元只需要记录一个小区域，而高层会把这些信息综合起来，从而解决了全连接的问题。

了解区域感受野后，你也许会想，区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢，这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图，下面给大家一个很直观的理解。

上面的这个过程就被称为一个卷积核。在实际应用中，单特征不足以被学习分类，因此我们往往会使用多个滤波器，每个滤波器对应1个卷积核，也对应了一个不同的特征。比如：我们现在有一个人脸识别应用，我们使用一个卷积核提取出眼睛的特征，然后使用另一个卷积核提取出鼻子的特征，再用一个卷积核提取出嘴巴的特征，最后高层把这些信息聚合起来，就形成了分辨一个人与另一个人不同的判断特征。

现在我们已经有了区域感受野，也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题：

给一个100 100的参数空间，假设我们的感受野大小是10 10，那么一共有squar（1000-10+1）个，即10的六次方个感受野。每个感受野中就有100个参数特征，及时每个感受野只对应一个卷积核，那么空间内也会有10的八次方个次数，，更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数，这就引出了权重共享的概念。

用一句话概括就是，对同一个特征图，每个感受野的卷积核是一样的，如这样操作后上例只需要100个参数。

池化是CNN技术的最后一个特性，其基本思想是：一块区域有用的图像特征，在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据，但往往相邻的边缘具有相似的特性，就好像我们已经得到了一个强边缘，再拥有大量相似的次边缘特征其实是没有太大增量价值的，因为这样会使得里充斥大量冗余信息消耗计算资源。具体而言，池化层把语义上相似的特征合并起来，通过池化操作减少卷积层输出的特征向量，减少了参数，缓解了过拟合问题。常见的池化操作主要包括3种：

分别是最大值池化（保留了图像的纹理特征）、均值池化（保留了图像的整体特征）和随机值池化。该技术的弊端是容易过快减小数据尺寸，目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法，原因是池化会带来一定程度上表征的位移不变性，传统观点认为这是一个优势，但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息，利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征，有望冲破目前卷积网络构架的瓶颈。

CNN总体来说是一种结构，其包含了多种网络模型结构，数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外，CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。

该部分的核心参考文献：

《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36.

深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势，在这里首先对深度学习的基本概念作一简介，其次对深度学习常用的结构模型进行概述说明，主要简述了深度信念网络（DBN）、卷积神经网络（CNN）、循环神经网络（RNN）、生成式对抗网络（GAN）、胶囊网络（CapsNet）以及对各个深度模型的改进模型做一对比分析。

深度学习按照学习架构可分为生成架构、判别架构及混合架构。

其生成架构模型主要包括：

受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括：深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括：受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。

监督学习方法主要包括：深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明，监督学习与非监督学习之间无明确的界限，如：深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。

[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019.

[2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36.

[3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017.

[4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017.

[5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017.

[6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014.

[7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012.

[8]CSDN、知乎、机器之心、维基百科