Python

自然语言处理和词嵌入

词汇表征计算机是无法直接认识单词的，所以为了让计算机能更好地理解人类语言，需要将词汇进行表征。之前用到的方法是One-hot表征，即创建一个向量，将对应单词的位置用1表示，其余位置用0表示。这种方法的缺点是无法获得词与词之间的相关性。另一种方法是特征表征，即词嵌入，用不同的特征对单词进行特征化表示。 ...

循环神经网络

对于序列模型，使用传统的神经网络效果并不好。原因是输入输出数据的长度可能不同，另外这种神经网络结果不能共享从文本不同位置所学习到的特征。循环神经则不存在这两个缺点。在每一个时间步中，循环神经网络会传递一个激活值到下一个时间步中，用于下一时间步的计算。 ...

数据统计——研究生出生日期

最近得到了一份带有班里所有学生身份证号的Excel文件，于是想要统计一下所有同学的出生信息。这里选用xlrd模块读取Excel文件，文件中三个工作表（Sheet）只有第一个有数据，所以读取第一个Sheet的内容。 ...

深度学习之结构化机器学习

评估在训练机器学习模型时，设置单一数字评估指标可以更好地评估模型。如查准率、召回率和结合两种的F1分数。在选择训练、开发、测试集时要遵循一定规则，开发集和测试集的分布要来自同一分布，且随机选取。 ...

深度学习之改善深层神经网络

本文主要叙述神经网络的数据集、偏差与方差、正则化、随机失活、归一化输入、梯度消失与梯度爆炸、梯度检验等要点。数据集在建立神经网络模型前，我们要将数据集划分为三个部分：训练集、交叉验证集和测试集。欠拟合的情况下，出现高偏差；过拟合的情况下，出现高方差。出现高偏差时，可以使用增加隐藏层数目、加长训练时间等方法解决。出现高方差时，可以使用增加训练数据、正则化等方法解决。 ...