自然语言处理和词嵌入

词汇表征 计算机是无法直接认识单词的,所以为了让计算机能更好地理解人类语言,需要将词汇进行表征。之前用到的方法是One-hot表征,即创建一个向量,将对应单词的位置用1表示,其余位置用0表示。这种方法的缺点是无法获得词与词之间的相关性。另一种方法是特征表征,即词嵌入,用不同的特征对单词进行特征化表示。 ...

2019-02-10 · 1 min · 156 words · Vozhuo

循环神经网络

对于序列模型,使用传统的神经网络效果并不好。原因是输入输出数据的长度可能不同,另外这种神经网络结果不能共享从文本不同位置所学习到的特征。循环神经则不存在这两个缺点。在每一个时间步中,循环神经网络会传递一个激活值到下一个时间步中,用于下一时间步的计算。 ...

2019-01-29 · 2 min · 342 words · Vozhuo

数据统计——研究生出生日期

最近得到了一份带有班里所有学生身份证号的Excel文件,于是想要统计一下所有同学的出生信息。这里选用xlrd模块读取Excel文件,文件中三个工作表(Sheet)只有第一个有数据,所以读取第一个Sheet的内容。 ...

2019-01-20 · 1 min · 134 words · Vozhuo

深度学习之结构化机器学习

评估 在训练机器学习模型时,设置单一数字评估指标可以更好地评估模型。如查准率、召回率和结合两种的F1分数。 在选择训练、开发、测试集时要遵循一定规则,开发集和测试集的分布要来自同一分布,且随机选取。 ...

2018-12-27 · 1 min · 24 words · Vozhuo

深度学习之改善深层神经网络

本文主要叙述神经网络的数据集、偏差与方差、正则化、随机失活、归一化输入、梯度消失与梯度爆炸、梯度检验等要点。 数据集 在建立神经网络模型前,我们要将数据集划分为三个部分:训练集、交叉验证集和测试集。欠拟合的情况下,出现高偏差;过拟合的情况下,出现高方差。出现高偏差时,可以使用增加隐藏层数目、加长训练时间等方法解决。出现高方差时,可以使用增加训练数据、正则化等方法解决。 ...

2018-12-13 · 2 min · 245 words · Vozhuo