基于Keras的imdb数据集电影评论情感二分类 - 好文

IMDB数据集下载速度慢，可以在我的[repo库](> IMDB数据集下载速度慢，可以在我的repo库
<https://github.com/fja0kl/HandsNeuralWorks/tree/master/IMDB-BinClass/datasets>
中找到下载，下载后放到/.keras/datasets/目录下，即可正常运行。)中找到下载，下载后**放到
/.keras/datasets/目录下**，即可正常运行。

<>电影评论分类：二分类

二分类可能是机器学习最常解决的问题。我们将基于评论的内容将电影评论分类：正类和负类。

<>IMDB数据集

IMDB数据集有5万条来自网络电影数据库的评论；其中2万5千条用来训练，2万5千条用来测试，每个部分正负评论各占50%.

划分训练集、测试集的必要性：不能在相同的数据集上对机器学习模型进行测试。因为在训练集上模型表现好并不意味着泛化能力好(在没有见过的数据上仍然表现良好)，而我们关心的是
模型的泛化能力.
和MNIST数据集类似，IMDB数据集也集成在Keras中，同时经过了预处理：电影评论转换成了一系列数字，每个数字代表字典中的一个单词。

加载数据集
from keras.datasets import imdb (train_data,train_labels),(test_data,
test_labels) = imdb.load_data(num_words=10000)
num_words=10000意味着只保留训练集中最常出现的前10000个词，不经常出现的单词被抛弃—最终所有评论的维度保持相同。

变量train_data,test_data是电影评论的列表，每条评论由数字(对应单词在词典中出现的位置下标)列表组成。train_labels,test_labels是0,1列表，0负面评论，1表示正面评论。
>>> train_data[0] [1, 14, 22, 16, ... 178, 32] >>> train_labels[0] 1
<>预处理数据

不能直接将list类型的数据送到神经网络中训练，必须将list类型转换为tensor张量类型。有两种转换方式：

* 填充列表使每个列表长度都相同，然后转换为整数类型的张量，形状为(samples,
word_indices),使用张量作为神经网络的第一层(Embedding层，能处理这样的整数类型张量)；
* 将列表进行one-hot编码，转换成0、 1向量。然后用Dense网络层作为神经网络的第一层，处理浮点类型向量数据。 import numpy as
npdef vectorize_sequences(sequences, dimension=10000): results = np.zeros((len(
sequences), dimension)) #数据集长度，每个评论维度10000 for i, sequence in enumerate(
sequences): results[i, sequence] = 1 # one-hot return results x_train =
vectorize_sequences(train_data) x_test = vectorize_sequences(test_data) y_train
= np.asarray(train_labels).astype('float32') # 向量化标签数据 y_test = np.asarray(
test_labels).astype('float32')
<>构建网络模型

现在输入数据是向量类型，对应标签数据为标量(0, 1):最容易处理的数据格式。处理这类问题最常见的网络模型是Dense网络层的线性堆叠，Dense(16,
activation=‘relu’)。

Dense网络层接收的参数16表示网络层神经元数目。一个神经元单元表示网络层表示空间的一个维度。16个神经元表示网络层权重系数形状为(input_dimensions,
16);dot点积运算将会把输出张量转换为16维度的表示张量。越多的神经元数目表示神经网络可以学习到更加复杂的特征表示，相应的计算效率降低，也可能学到不必要的特征。
Dense网络层堆叠时回答两个关键的问题：

* 有多少层网络？
* 每个层网络有多少个神经元？
激活函数能给网络模型增加非线性表示。
使用的网络模型如下：

from keras import models from keras import layers model = models.Sequential()
model.add(layers.Dense(16, activation='relu',input_shape=(10000,))) model.add(
layers.Dense(16,activation='relu')) model.add(layers.Dense(1,activation=
'sigmoid'))

最后，选择损失函数和优化算法。因为是二分类问题，网络模型的输出是一个概率，最好使用binary_crossentropy损失函数，也可以使用mean_squared_error均方误差损失函数。但是交叉熵是处理模型输出为概率时最佳选择。
配置使用rmsprop优化算法以及binary_crossentropy损失函数，选择监测的指标。
model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=[
'accuracy'])
这里参数使用字符串传递，因为在keras中对应字符串已经定义好了。同时，可以传递函数类型给相应的参数。如：
from keras import losses from keras import metrics model.compile(optimizer=
optimizers.RMSprop(lr=0.001), loss=losses.binary_crossentropy, metrics=[metrics.
binary_accuracy])
<>模型验证

为了在训练过程中在没有见过数据上监测准确率变化，需要分出一个验证集。从训练集中分出10000条做验证集。
x_val = x_train[:10000] partial_x_train = x_train[10000:] y_val = y_train[:
10000] partial_y_train = y_train[10000:]
在512小批量，迭代20次进行模型训练，同时在验证集上监测准确率变化。
model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['acc'])
history= model.fit(partial_x_train，partial_y_train,epochs=20,batch_size=512,
validation_data=(x_val, y_val))
通过调用model.fit()方法返回一个history对象，history对象有history属性—一个包含在训练过程中记录的数据的字典。
>>> history_dict = history.history >>> history_dict.keys() [u'acc', u'loss', u
'val_acc', u'val_loss']
字典包括4个键–在训练、验证过程中被监测的指标。

在图中画出训练损失和验证损失的变化图：
import matplotlib.pyplot as plt history_dict = history.history loss_values =
history_dict['loss'] val_loss_values = history_dict['val_loss'] epochs = range(1
, len(loss_values) + 1) plt.plot(epochs, loss_values, 'bo', label='Training
loss')#bo:blue dot蓝点 plt.plot(epochs, val_loss_values, 'b', label='Validation
loss')#b: blue蓝色 plt.title('Training and validation loss') plt.xlabel('Epochs')
plt.ylabel('Loss') plt.legend() plt.show()

训练集和验证集上准确率变化：
plt.clf() acc_values = history_dict['acc'] val_acc_values = history_dict[
'val_acc'] plt.plot(epochs, acc_values, 'bo', label='Training acc') plt.plot(
epochs, val_acc_values, 'b', label='Validation acc') plt.title('Training and
validation accuracy') plt.xlabel('Epochs') plt.ylabel('Loss') plt.legend() plt.
show()

可以从上面的两张图中看到，训练损失逐渐降低，训练准确度逐渐提高–这正是使用梯度下降算法，我们所期望看到的。但是，验证损失和验证集上的准确率却在第4次迭代左右开始变差----模型在训练集上表现良好，在没有见过的数据上表现很差(泛化能力差)。用术语讲，模型发生了过拟合。在这里可以，使模型在第4次epoch时，训练结束，这样来尽可能避免过拟合现象的发生。

重新训练
model = models.Sequential() model.add(layers.Dense(16,activation='relu',
input_shape=(10000,))) model.add(layers.Dense(16,activation='relu')) model.add(
layers.Dense(1,activation='sigmoid')) model.compile(optimizer='rmsprop',loss=
'binary_crossentropy',metrics=['accuracy']) model.fit(x_train,y_train,epochs=4,
batch_size=512) results = model.evaluate(x_test, y_test) #[0.2929924130630493,
0.88327999999999995] 模型准确率为88%
<>使用训练好的模型在新数据上做预测

使用训练好的模型做预测----训练模型的目的.
可以使用predict函数对数据进行预测，给出为正面评论的概率。
>>> model.predict(x_test) array([[ 0.98006207] [ 0.99758697] [ 0.99975556] ...,
[ 0.82167041] [ 0.02885115] [ 0.65371346]], dtype=float32)
<>小结

* 在把数据送到模型训练之前，需要对原始数据进行预处理—将原始数据转换成tensor张量格式。
* 使用relu为激活函数的Dense网络层的线性连接能解决很大一部分问题；
* 在二分类问题中，网络模型应该以包含一个神经元，激活函数为sigmoid的Dense层结束；输出是介于0~1的标量，可以理解为概率。
* 二分类问题，sigmoid标量输出，对应损失函数应该选择binary_crossentropy；
* rmsprop优化算法大多数情况下是一个很好的选择，无论问题是什么。

热门工具换一换