产品名称分类

a5eedaaf · Zhouxingyu · a5eedaaf · a5eedaaf · a5eedaaf · a5eedaaf
Commit a5eedaaf authored Mar 26, 2020 by Zhouxingyu
27 changed files
--- a/.gitignore
+++ b/.gitignore
+.DS_Store
+data/cnews
+data/thucnews
+__pycache__
+cnn_keras.py
+.idea
+*.pyc
+checkpoints
+tensorboard
+.vscode
\ No newline at end of file
--- a/LICENSE
+++ b/LICENSE
+MIT License
+Copyright (c) 2017 dzkang
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.
--- a/README.md
+++ b/README.md
+# Text Classification with CNN and RNN
+使用卷积神经网络进行中文文本分类
+## 环境
+- Python 2/3
+- TensorFlow 1.3以上
+- numpy
+- scikit-learn
+- scipy
+## 数据集
+本训练集由ZI_database中VW_ProductALLState表的66万条产品名称和对应分类组成。
+## 预处理
+`data_prepare.py`保持联网，运行该程序，即可根据数据库，生成指定的训练，测试，验证集。
+`data/cnews_loader.py`为数据的预处理文件。
+- `read_file()`: 读取文件数据;
+- `build_vocab()`: 构建词汇表，使用字符级的表示，这一函数会将词汇表存储下来，避免每一次重复处理;
+- `read_vocab()`: 读取上一步存储的词汇表，转换为`{词：id}`表示;
+- `read_category()`: 将分类目录固定，转换为`{类别: id}`表示;
+- `to_words()`: 将一条由id表示的数据重新转换为文字;
+- `process_file()`: 将数据集从文字转换为固定长度的id序列表示;
+- `batch_iter()`: 为神经网络的训练准备经过shuffle的批次的数据。
+经过数据预处理，数据的格式如下：
+| Data | Shape | Data | Shape |
+| :---------- | :---------- | :---------- | :---------- |
+| x_train | [50000, 600] | y_train | [50000, 10] |
+| x_val | [5000, 600] | y_val | [5000, 10] |
+| x_test | [10000, 600] | y_test | [10000, 10] |
+## CNN卷积神经网络
+### 配置项
+CNN可配置的参数如下所示，在`cnn_model.py`中。
+```python
+class TCNNConfig(object):
+    """CNN配置参数"""
+    embedding_dim = 64      # 词向量维度
+    seq_length = 600        # 序列长度
+    num_classes = len(set(table['SubCategoryName'].tolist()))        # 类别数
+    num_filters = 128        # 卷积核数目
+    kernel_size = 5         # 卷积核尺寸
+    vocab_size = 5000       # 词汇表达小
+    hidden_dim = 128        # 全连接层神经元（随着分类数增加，此层可以自行适当扩大加深，并且加入dropout）
+    dropout_keep_prob = 0.5 # dropout保留比例
+    learning_rate = 1e-3    # 学习率
+    batch_size = 64         # 每批训练大小
+    num_epochs = 10         # 总迭代轮次
+    print_per_batch = 100    # 每多少轮输出一次结果
+    save_per_batch = 10      # 每多少轮存入tensorboard
+```
+### CNN模型
+具体参看`cnn_model.py`的实现。
+### 训练与验证
+#### 注意！以上例子为十分类的，上千分类可能效果有巨大偏差！
+运行 `python run_cnn.py train`，可以开始训练。
+> 若之前进行过训练，请把tensorboard/textcnn删除，避免TensorBoard多次训练结果重叠。
+```
+Configuring CNN model...
+Configuring TensorBoard and Saver...
+Loading training and validation data...
+Time usage: 0:00:14
+Training and evaluating...
+Epoch: 1
+Iter:      0, Train Loss:    2.3, Train Acc:  10.94%, Val Loss:    2.3, Val Acc:   8.92%, Time: 0:00:01 *
+Iter:    100, Train Loss:   0.88, Train Acc:  73.44%, Val Loss:    1.2, Val Acc:  68.46%, Time: 0:00:04 *
+Iter:    200, Train Loss:   0.38, Train Acc:  92.19%, Val Loss:   0.75, Val Acc:  77.32%, Time: 0:00:07 *
+Iter:    300, Train Loss:   0.22, Train Acc:  92.19%, Val Loss:   0.46, Val Acc:  87.08%, Time: 0:00:09 *
+Iter:    400, Train Loss:   0.24, Train Acc:  90.62%, Val Loss:    0.4, Val Acc:  88.62%, Time: 0:00:12 *
+Iter:    500, Train Loss:   0.16, Train Acc:  96.88%, Val Loss:   0.36, Val Acc:  90.38%, Time: 0:00:15 *
+Iter:    600, Train Loss:  0.084, Train Acc:  96.88%, Val Loss:   0.35, Val Acc:  91.36%, Time: 0:00:17 *
+Iter:    700, Train Loss:   0.21, Train Acc:  93.75%, Val Loss:   0.26, Val Acc:  92.58%, Time: 0:00:20 *
+Epoch: 2
+Iter:    800, Train Loss:   0.07, Train Acc:  98.44%, Val Loss:   0.24, Val Acc:  94.12%, Time: 0:00:23 *
+Iter:    900, Train Loss:  0.092, Train Acc:  96.88%, Val Loss:   0.27, Val Acc:  92.86%, Time: 0:00:25
+Iter:   1000, Train Loss:   0.17, Train Acc:  95.31%, Val Loss:   0.28, Val Acc:  92.82%, Time: 0:00:28
+Iter:   1100, Train Loss:    0.2, Train Acc:  93.75%, Val Loss:   0.23, Val Acc:  93.26%, Time: 0:00:31
+Iter:   1200, Train Loss:  0.081, Train Acc:  98.44%, Val Loss:   0.25, Val Acc:  92.96%, Time: 0:00:33
+Iter:   1300, Train Loss:  0.052, Train Acc: 100.00%, Val Loss:   0.24, Val Acc:  93.58%, Time: 0:00:36
+Iter:   1400, Train Loss:    0.1, Train Acc:  95.31%, Val Loss:   0.22, Val Acc:  94.12%, Time: 0:00:39
+Iter:   1500, Train Loss:   0.12, Train Acc:  98.44%, Val Loss:   0.23, Val Acc:  93.58%, Time: 0:00:41
+Epoch: 3
+Iter:   1600, Train Loss:    0.1, Train Acc:  96.88%, Val Loss:   0.26, Val Acc:  92.34%, Time: 0:00:44
+Iter:   1700, Train Loss:  0.018, Train Acc: 100.00%, Val Loss:   0.22, Val Acc:  93.46%, Time: 0:00:47
+Iter:   1800, Train Loss:  0.036, Train Acc: 100.00%, Val Loss:   0.28, Val Acc:  92.72%, Time: 0:00:50
+No optimization for a long time, auto-stopping...
+```
+在验证集上的最佳效果为94.12%，且只经过了3轮迭代就已经停止。
+准确率和误差如图所示：
+![images](images/acc_loss.png)
+### 测试
+#### 注意！类别过多，混淆矩阵会大到爆炸，这个功能慎用！
+运行 `python run_cnn.py test` 在测试集上进行测试。
+```
+Configuring CNN model...
+Loading test data...
+Testing...
+Test Loss:   0.14, Test Acc:  96.04%
+Precision, Recall and F1-Score...
+             precision    recall  f1-score   support
+         体育       0.99      0.99      0.99      1000
+         财经       0.96      0.99      0.97      1000
+         房产       1.00      1.00      1.00      1000
+         家居       0.95      0.91      0.93      1000
+         教育       0.95      0.89      0.92      1000
+         科技       0.94      0.97      0.95      1000
+         时尚       0.95      0.97      0.96      1000
+         时政       0.94      0.94      0.94      1000
+         游戏       0.97      0.96      0.97      1000
+         娱乐       0.95      0.98      0.97      1000
+avg / total       0.96      0.96      0.96     10000
+Confusion Matrix...
+[[991   0   0   0   2   1   0   4   1   1]
+ [  0 992   0   0   2   1   0   5   0   0]
+ [  0   1 996   0   1   1   0   0   0   1]
+ [  0  14   0 912   7  15   9  29   3  11]
+ [  2   9   0  12 892  22  18  21  10  14]
+ [  0   0   0  10   1 968   4   3  12   2]
+ [  1   0   0   9   4   4 971   0   2   9]
+ [  1  16   0   4  18  12   1 941   1   6]
+ [  2   4   1   5   4   5  10   1 962   6]
+ [  1   0   1   6   4   3   5   0   1 979]]
+Time usage: 0:00:05
+```
+在测试集上的准确率达到了96.04%，且各类的precision, recall和f1-score都超过了0.9。
+从混淆矩阵也可以看出分类效果非常优秀。
+### 预测
+运行 `python run_cnn.py predict` 在预测集上进行预测。
+预测集命名为`name2category.predict.txt`,放入data中的name2category文件夹，每行一个产品名称。
+输出在目录文件夹，名称为`predicted_data.txt`
+## RNN循环神经网络
+### 和上面类似，代码尚未修改，可以根据CNN代码自行修改为训练自己模型的格式。
\ No newline at end of file
--- a/VW_ProductALLState.xlsx
+++ b/VW_ProductALLState.xlsx
--- a/cnn_model.py
+++ b/cnn_model.py
+# coding: utf-8
+import tensorflow as tf
+class TCNNConfig(object):
+    """CNN配置参数"""
+    embedding_dim = 64  # 词向量维度
+    seq_length = 300  # 序列长度
+    num_classes = 1078  # 类别数
+    num_filters = 256  # 卷积核数目
+    kernel_size = 5  # 卷积核尺寸
+    vocab_size = 5000  # 词汇表大小
+    hidden_dim = 128  # 全连接层神经元
+    dropout_keep_prob = 0.5  # dropout保留比例
+    learning_rate = 1e-3  # 学习率
+    batch_size = 64  # 每批训练大小
+    num_epochs = 10  # 总迭代轮次
+    print_per_batch = 100  # 每多少轮输出一次结果
+    save_per_batch = 10  # 每多少轮存入tensorboard
+class TextCNN(object):
+    """文本分类，CNN模型"""
+    def __init__(self, config):
+        self.config = config
+        # 三个待输入的数据
+        self.input_x = tf.placeholder(tf.int32, [None, self.config.seq_length], name='input_x')
+        self.input_y = tf.placeholder(tf.float32, [None, self.config.num_classes], name='input_y')
+        self.keep_prob = tf.placeholder(tf.float32, name='keep_prob')
+        self.cnn()
+    def cnn(self):
+        """CNN模型"""
+        # 词向量映射
+        with tf.device('/cpu:0'):
+            embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
+            embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
+        with tf.name_scope("cnn"):
+            # CNN layer
+            conv = tf.layers.conv1d(embedding_inputs, self.config.num_filters, self.config.kernel_size, name='conv')
+            # global max pooling layer
+            gmp = tf.reduce_max(conv, reduction_indices=[1], name='gmp')
+        with tf.name_scope("score"):
+            # 全连接层，后面接dropout以及relu激活
+            fc = tf.layers.dense(gmp, self.config.hidden_dim, name='fc1')
+            fc = tf.contrib.layers.dropout(fc, self.keep_prob)
+            fc = tf.nn.relu(fc)
+            # 分类器
+            self.logits = tf.layers.dense(fc, self.config.num_classes, name='fc2')
+            self.y_pred_cls = tf.argmax(tf.nn.softmax(self.logits), 1)  # 预测类别
+        with tf.name_scope("optimize"):
+            # 损失函数，交叉熵
+            cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.input_y)
+            self.loss = tf.reduce_mean(cross_entropy)
+            # 优化器
+            self.optim = tf.train.AdamOptimizer(learning_rate=self.config.learning_rate).minimize(self.loss)
+        with tf.name_scope("accuracy"):
+            # 准确率
+            correct_pred = tf.equal(tf.argmax(self.input_y, 1), self.y_pred_cls)
+            self.acc = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
--- a/data/__init__.py
+++ b/data/__init__.py
--- a/data/cnews_loader.py
+++ b/data/cnews_loader.py
+# coding: utf-8
+import sys
+from collections import Counter
+import numpy as np
+import tensorflow.keras as kr
+import pandas as pd
+if sys.version_info[0] > 2:
+    is_py3 = True
+else:
+    reload(sys)
+    sys.setdefaultencoding("utf-8")
+    is_py3 = False
+def native_word(word, encoding='utf-8'):
+    """如果在python2下面使用python3训练的模型，可考虑调用此函数转化一下字符编码"""
+    if not is_py3:
+        return word.encode(encoding)
+    else:
+        return word
+def native_content(content):
+    if not is_py3:
+        return content.decode('utf-8')
+    else:
+        return content
+def open_file(filename, mode='r'):
+    """
+    常用文件操作，可在python2和python3间切换.
+    mode: 'r' or 'w' for read or write
+    """
+    if is_py3:
+        return open(filename, mode, encoding='utf-8', errors='ignore')
+    else:
+        return open(filename, mode)
+def read_file(filename):
+    """读取文件数据"""
+    contents, labels = [], []
+    with open_file(filename) as f:
+        for line in f:
+            try:
+                label, content = line.strip().split('\t')
+                if content:
+                    contents.append(list(native_content(content)))
+                    labels.append(native_content(label))
+            except:
+                pass
+    return contents, labels
+def build_vocab(train_dir, vocab_dir, vocab_size=5000):
+    """根据训练集构建词汇表，存储"""
+    data_train, _ = read_file(train_dir)
+    all_data = []
+    for content in data_train:
+        all_data.extend(content)
+    counter = Counter(all_data)
+    count_pairs = counter.most_common(vocab_size - 1)
+    words, _ = list(zip(*count_pairs))
+    # 添加一个 <PAD> 来将所有文本pad为同一长度
+    words = ['<PAD>'] + list(words)
+    open_file(vocab_dir, mode='w').write('\n'.join(words) + '\n')
+def read_vocab(vocab_dir):
+    """读取词汇表"""
+    # words = open_file(vocab_dir).read().strip().split('\n')
+    with open_file(vocab_dir) as fp:
+        # 如果是py2 则每个值都转化为unicode
+        words = [native_content(_.strip()) for _ in fp.readlines()]
+    word_to_id = dict(zip(words, range(len(words))))
+    return words, word_to_id
+def read_category():
+    """读取分类目录，固定"""
+    table = pd.read_excel('VW_ProductALLState.xlsx')
+    categories = list(set(table['SubCategoryName'].tolist()))
+    #categories = ['0', '1']
+    categories = [native_content(x) for x in categories]
+    cat_to_id = dict(zip(categories, range(len(categories))))
+    return categories, cat_to_id
+def to_words(content, words):
+    """将id表示的内容转换为文字"""
+    return ''.join(words[x] for x in content)
+def process_file(filename, word_to_id, cat_to_id, max_length=600):
+    """将文件转换为id表示"""
+    contents, labels = read_file(filename)
+    data_id, label_id = [], []
+    for i in range(len(contents)):
+        data_id.append([word_to_id[x] for x in contents[i] if x in word_to_id])
+        label_id.append(cat_to_id[labels[i]])
+    # 使用keras提供的pad_sequences来将文本pad为固定长度
+    x_pad = kr.preprocessing.sequence.pad_sequences(data_id, max_length)
+    y_pad = kr.utils.to_categorical(label_id, num_classes=len(cat_to_id))  # 将标签转换为one-hot表示
+    return x_pad, y_pad
+def batch_iter(x, y, batch_size=64):
+    """生成批次数据"""
+    data_len = len(x)
+    num_batch = int((data_len - 1) / batch_size) + 1
+    indices = np.random.permutation(np.arange(data_len))
+    x_shuffle = x[indices]
+    y_shuffle = y[indices]
+    for i in range(num_batch):
+        start_id = i * batch_size
+        end_id = min((i + 1) * batch_size, data_len)
+        yield x_shuffle[start_id:end_id], y_shuffle[start_id:end_id]
--- a/data/copy_data.sh
+++ b/data/copy_data.sh
+#!/bin/bash
+# copy MAXCOUNT files from each directory
+MAXCOUNT=6500
+for category in $( ls THUCNews); do
+  echo item: $category
+  dir=THUCNews/$category
+  newdir=data/thucnews/$category
+  if [ -d $newdir ]; then
+    rm -rf $newdir
+    mkdir $newdir
+  fi
+  COUNTER=1
+  for i in $(ls $dir); do
+    cp $dir/$i $newdir
+    if [ $COUNTER -ge $MAXCOUNT ]
+    then
+      echo finished
+      break
+    fi
+    let COUNTER=COUNTER+1
+  done
+done
--- a/data/name2category/name2category.predict.txt
+++ b/data/name2category/name2category.predict.txt
+格林王 GREENKING 英国原装进口 IPA印度麦啤 精酿啤酒印度淡色艾尔啤酒 500ML*6瓶 整箱装
\ No newline at end of file
--- a/data/name2category/name2category.test.txt
+++ b/data/name2category/name2category.test.txt
--- a/data/name2category/name2category.train.txt
+++ b/data/name2category/name2category.train.txt
--- a/data/name2category/name2category.val.txt
+++ b/data/name2category/name2category.val.txt
--- a/data/name2category/name2category.vocab.txt
+++ b/data/name2category/name2category.vocab.txt
+<PAD>
+0
+1
+2
+A
+5
+E
+S
+M
+I
+3
+L
+-
+N
+C
+O
+/
+G
+4
+D
+T
+6
+8
+B
+R
+P
+H
+7
+色
+U
+K
+机
+9
+o
+n
+F
+r
+W
+g
+w
+（
+）
+电
+X
+装
+Y
+V
+.
+用
+器
+套
+车
+式
+水
+黑
+J
+线
+×
+手
+本
+双
+笔
+Z
+家
+白
+件
+英
+寸
+防
+米
+*
+卡
+能
+
+光
+动
+单
+记
+高
+包
+红
+三
+子
+大
+一
+盒
+金
+(
+头
+)
+蓝
+粉
+保
+适
+床
+箱
+架
+清
+板
+全
+人
+面
+型
+茶
+带
+Q
+显
+加
+尔
+花
+空
+柜
+系
+小
+台
+士
+华
+护
+美
+天
+体
+款
+杯
+鼓
+力
+品
+印
+普
+发
+洗
+安
+汽
+气
+多
+口
+盘
+列
+音
+无
+灯
+克
+公
+垫
+宝
+衣
+男
+棉
+支
+网
+钢
+香
+通
+外
+工
+级
+标
+不
+风
+新
+油
+联
+桌
+生
+专
+乐
+中
+配
+合
+可
+特
+具
+袋
+脑
+版
+长
+m
+视
+调
+硒
+e
+四
+自
+纸
+打
+被
+星
+彩
+接
+镜
+斯
+格
+门
+海
+毛
+绿
+达
+热
+惠
+功
+利
+号
+味
+智
+明
+成
+物
+片
+胶
+i
+木
+控
+暖
+果
+充
+洁
+超
+皮
+温
+纯
+内
+便
+层
+滤
+转
+酒
+威
+丝
+a
+纳
+料
+枕
+马
+儿
+芯
+椅
+频
+码
+瓶
+行
+女
+收
+条
+灰
+影
+办
+源
+只
+尼
+拉
+速
+原
+冷
+吸
+务
+黄
+球
+液
+布
+升
+欧
+开
+地
+方
+户
+佳
+想
+厚
+平
+雅
+简
+商
+数
+于
+独
+绒
+龙
+座
+挂
+浴
+室
+博
+爱
+德
+时
+服
+牙
+干
+银
+膜
+巾
+锈
+精
+示
+插
+国
+学
+年
+得
+尚
+业
+约
+度
+康
+五
+季
+化
+立
+代
+页
+管
+墨
+科
+飞
+身
+饰
+集
+晶
+游
+运
+童
+休
+理
+冰
+携
+牌
+净
+牛
+组
+维
+个
+硬
+礼
+心
+耐
+载
+极
+分
+性
+筒
+贴
+迪
+锅
+戴
+连
+进
+l
+仪
+换
+优
+定
+刀
+山
+直
+壶
+路
+对
+闲
+位
+玻
+刷
+鱼
+透
+书
+摄
+雨
+沙
+夹
+客
+折
+瑞
+投
+餐
+璃
+屏
+字
+豆
+压
+两
+麦
+百
+塑
+火
+制
+裤
+池
+储
+c
+下
+&
+备
+阳
+s
+富
+耳
+上
+复
+西
+健
+文
+之
+二
+兰
+秋
+纺
+主
+有
+背
+相
+络
+整
+奶
+置
+量
+青
+角
+咖
+像
+润
+意
+奥
+拍
+滑
+流
+剂
+移
+除
+抽
+乳
+纤
+老
+轮
+效
+夏
+真
+叠
+舒
+赛
+露
+t
+强
+薄
+日
+为
+泳
+桶
+丽
+变
+鞋
+形
+纹
+创
+信
+福
+拖
+叶
+思
+质
+密
+迷
+微
+南
+随
+的
+冬
+房
+修
+后
+材
+铁
+杆
+、
+其
+盖
+鼠
+间
+草
+存
+脚
+莱
+或
+紫
+卷
+底
+然
+软
+扣
+键
+羽
+啡
+厂
+太
+易
+亚
+反
+素
+锁
+东
+席
+罩
+世
+万
+匹
+扇
+湿
+烤
+索
+食
+会
+北
+关
+广
+实
+碳
+圆
+施
+锐
+摩
+罗
+含
+松
+凯
+容
+厨
+雷
+他
+现
+放
+苹
+泡
+尘
+浦
+张
+断
+泰
+旅
+固
+持
+计
+活
+典
+经
+话
+林
+响
+事
+设
+远
+环
+奇
+朗
+神
+深
+你
+录
+节
+提
+波
+饮
+出
+磨
+云
+改
+者
+送
+罐
+养
+雪
+点
+孔
+柔
+壁
+静
+边
+图
+扬
+顶
+比
+正
+六
+前
+瓷
+亮
+铜
+由
+野
+据
+营
+步
+糖
+作
+吉
+玛
+模
+卫
+艾
+腾
+道
+宽
+衫
+交
+居
+戏
+厅
+田
+肩
+喷
+快
+监
+王
+指
+轻
+硕
+磁
+d
+腰
+触
+议
+漆
+烟
+铝
+烧
+颜
+燃
+贝
+钓
+卧
+u
+类
+和
+曼
+帽
+月
+胜
+饼
+凉
+签
+属
+苏
+帐
+羊
+诺
+激
+肤
+春
+宏
+京
+婴
+入
+菲
+照
+弹
+针
+仕
+重
+酷
+睡
+艺
+p
+镀
+把
+准
+感
+越
+洋
+表
+竹
+输
+捷
+情
+托
+好
+夜
+眼
+消
+h
+炉
+法
+训
+膏
+测
+肉
+毯
+沐
+排
+块
+石
+园
+靠
+十
+睿
+骨
+订
+去
+：
+货
+齐
+藏
+声
+圈
+免
+等
+练
+恒
+晨
+绳
+袖
+程
+千
+驰
+雾
+旋
+领
+蜜
+棕
+幕
+桃
+途
+碁
+玫
+墙
+兆
+螺
+产
+珠
+】
+【
+嘉
+甲
+麻
+碗
+骑
+悦
+洛
+缩
+挡
+基
+扫
+离
+沃
+巧
+浅
+框
+盆
+豪
+梦
+蚊
+倍
+尺
+堂
+钻
+古
+伞
+葡
+隔
+坐
+盛
+九
+铃
+零
+丹
+芝
+派
+粒
+档
+熊
+魔
+斤
+y
+浪
+播
+统
+虎
+勒
+宁
+补
+率
+阿
+荣
+证
+按
+汁
+炫
+饭
+同
+卓
+萄
+众
+传
+鹿
+塔
+胎
+陶
+警
+遥
+圾
+垃
+菜
+壳
+封
+逸
+枪
+橙
+史
+技
+低
+跑
+名
+向
+军
+凳
+械
+蛋
+致
+喜
+泽
+七
+晒
+几
+橡
+宜
+森
+画
+顿
+来
+棒
+景
+柄
+轴
+篮
+菌
+待
+潮
+巴
+仅
+灶
+玉
+拓
+母
+爽
+象
+，
+八
+泥
+冲
+鲜
+竿
+窗
+短
+过
+蜂
+猫
+登
+砂
+帝
+采
+顺
+浓
+习
+炭
+b
+吊
+闪
+启
+k
+尾
+夫
+册
+瑰
+降
+酸
+震
+哈
+诗
+语
+汉
+,
+菱
+侣
+铅
+冠
+导
+险
+斜
+毫
+硅
+员
+读
+丰
+粮
+选
+延
+半
+遮
+滋
+粘
+蜡
+擦
+柏
+航
+锋
+展
+蒙
+v
+先
+庭
+匙
+奔
+以
+核
+樱
+臂
+抗
+写
+珍
+稿
+谷
+塞
+起
+碎
+端
+皇
+伟
+钥
+城
+伊
+师
+跳
+侧
+部
+午
+汤
+链
+柯
+享
+识
+混
+织
+扳
+赠
+灭
+槽
+资
+司
+非
+泵
+%
+足
+落
+柠
+术
+李
+韩
+皂
+爆
+痕
+荷
+弟
+毒
+钳
+灵
+迈
+战
+衬
+忆
+兄
+刮
+盾
+漏
+尊
+态
+描
+帆
+细
+伸
+迎
+志
+弗
+应
+盗
+馨
+萨
+娜
+均
+泉
+射
+踏
+篷
+莎
+里
+在
+翻
+邦
+恩
+蒸
+都
+玩
+泊
+酱
+绘
+次
+耗
+榨
+钩
+炒
+脂
+x
+友
+洒
+洲
+摆
+聚
+杰
+元
+榻
+霜
+翼
+澳
+替
+药
+丁
+圣
+槟
+扩
+驱
+欣
+舍
+焦
+别
+檬
+仁
+斗
+梅
+鸡
+虹
+袜
+增
+辣
+拆
+土
+径
+哑
+取
+观
+湖
+费
+颈
+荧
+蚕
+宾
+竞
+穿
+佰
+煲
+岁
+杂
+教
+盔
+佛
+推
+鹅
+曲
+划
+桑
+燕
+祥
+帕
+畅
+骏
+f
+围
+莲
+望
+切
+淋
+探
+益
+胆
+买
+距
+至
+纽
+歌
+剪
+案
+拼
+腿
+站
+兹
+缝
+散
+早
+#
+试
+减
+亲
+绵
+屉
+结
+污
+乓
+请
+章
+宿
+伯
+树
+趣
+御
+造
+兵
+缆
+幻
+薰
+讲
+兴
+刹
+添
+魅
+急
+希
+胸
+乒
+总
+君
+河
+即
+培
+腕
+狼
+报
+烘
+鸟
+店
+粗
+芬
+枚
+钉
+莓
+缘
+嘴
+鹰
+菊
+吧
+铂
+蒂
+血
+笠
+臻
+椰
+必
+价
+武
+爵
+救
+z
+甜
+鸭
+企
+妙
+场
+院
+:
+怡
+共
+烫
+刻
+尖
+堡
+韵
+劳
+氏
+哲
+臭
+锂
+伽
+击
+冻
+旗
+亿
+阀
+宇
+雕
+漫
+浆
+隐
+嵌
+糕
+枣
+瑜
+齿
+胡
+摇
+近
+使
+缎
+异
+仿
+雀
+滚
+绝
+扁
+醛
+算
+锦
+铭
+铺
+刺
+·
+劲
+常
+勺
+妈
+初
+丛
+良
+毂
+农
+耀
+昭
+吹
+附
+根
+贡
+懒
+搭
+炮
+矿
+界
+霸
+狗
+渔
+氧
+族
+摸
+驾
+听
+鲁
+妆
+厕
+狐
+种
+煎
+横
+脸
+柱
+秤
+狮
+互
+碟
+晴
+颗
+淡
+奈
+吃
+讯
+凌
+植
+_
+薇
+啤
+褥
+钱
+埃
+检
+碧
+浮
+偏
+婚
+涂
+纱
+坚
+撕
+津
+蔽
+供
+班
+膝
+莉
+陈
+绣
+箭
+迅
+抱
+屋
+停
+范
+贵
+销
+眠
+革
+肌
+轨
+井
+昂
+瓦
+驼
+缤
+央
+市
+规
+溶
+州
+川
+帅
+筋
+江
+限
+缸
+巢
+焙
+票
+暴
+腹
+雄
+回
+更
+仔
+朵
+职
+批
+孩
+医
+域
+妮
+舞
+伦
+及
+洱
+而
+承
+左
+止
+慧
+洽
+稻
+盈
+瓜
+阅
+绑
+汗
+将
+第
+熟
+段
+豹
+缓
+坊
+棋
+靴
+须
+铲
+右
+呼
+编
+姿
+伴
+卸
+临
+谋
+久
+盐
+锤
+脱
+认
+隆
+考
+鸿
+敏
+船
+漱
+虫
+告
+牧
+漂
+解
+摔
+橱
+错
+抛
+稳
+蝶
+岛
+屑
+鑫
+瘦
+弯
+籽
+醇
+凤
+蟹
+杀
+谈
+值
+庆
+财
+仓
+拌
+悠
+茉
+榄
+钛
+棍
+幼
+帘
+蕾
+藤
+芳
+库
+栏
+槛
+恋
+乌
+轩
+询
+政
+抹
+验
+酿
+蓄
+喇
+振
+叭
+炖
+橘
+舟
+剃
+因
+娃
+抄
+潜
+串
+碱
+媒
+济
+预
+膳
+坑
+勤
+誉
+囊
+刚
+昌
+钟
+铱
+辅
+跃
+凝
+孚
+旦
+负
+垂
+煮
+暗
+纪
+倒
+姆
+螨
+份
+?
+溢
+韦
+紧
+扎
+区
+匠
+簧
+阁
+阻
+疆
+当
+裙
+毕
+破
+兔
+售
+绞
+建
+副
+叉
+沁
+巨
+楼
+旧
+孕
+咨
+岩
+皓
+筷
+醒
+杠
+执
+姜
+夷
+处
+注
+队
+卤
+蛇
+与
+助
+飘
+仙
+噪
+涤
+沫
+钞
+饵
+'
+氛
+酥
+目
+妇
+戈
+幅
+°
+柴
+莫
+竖
+珊
+侠
+终
+撞
+蔬
+诚
+省
+割
+脆
+唐
+如
+杖
+梨
+裕
+旺
+削
+绅
+慕
+唯
+橄
+裁
+周
+庄
+辉
+蔻
+翔
+玄
+霾
+宫
+永
+韧
+猎
+尤
+猛
+滩
+禁
+桂
+搅
+[
+]
+℃
+寒
+甘
+奢
+秀
+凡
+窄
+滴
+琪
+枫
+锯
+守
+蝴
+梳
+舰
+徒
+操
+晾
+爬
+眉
+柚
+引
+尿
+额
+萌
+筐
+鲤
+瑚
+误
+汇
+弓
+霞
+椒
+积
+研
+艳
+念
+粥
+霍
+什
+薯
+账
+酯
+到
+团
+杜
+躺
+龈
+少
+炊
+嫩
+脏
+杞
+兼
+哥
+苇
+琴
+见
+综
+砖
+首
+芙
+走
+满
+宣
+乔
+肥
+肠
+泛
+牒
+笑
+茗
+盟
+俏
+厘
+所
+甩
+每
+"
+荞
+渍
+煤
+恤
+凭
+猪
+梯
+菇
+民
+辰
+阵
+撑
+依
+抖
+窖
+焊
+亨
+浸
+佐
+枸
+峰
+萃
+购
+佑
+镍
+楷
+芽
+晟
+磅
+序
+股
+狂
+抑
+珀
+锥
+臣
+演
+社
+椎
+芒
+际
+寿
+已
+础
+仰
+求
+禧
+避
+焖
+填
+陆
+染
+嫚
+忌
+肚
+桥
+肯
+损
+铬
+祺
+校
+袍
+攻
+赤
+伤
+呢
+酵
+村
+渡
+留
+付
+廷
+杏
+铸
+衡
+官
+芦
+今
+Ⅱ
+釉
+沛
+艇
+治
+欢
+浩
+攀
+;
+披
+追
+拔
+拿
+湾
+育
+桔
+\
+傲
+鲨
+悬
+绗
+鞅
+砸
+朴
+Φ
+禾
+伍
+晖
+j
+粽
+束
+假
+绍
+闸
+鼎
+”
+骆
+援
+澡
+差
+澄
+萝
+拟
+傅
+我
+逍
+扶
+挎
+赢
+危
+宠
+看
+腊
+芭
+权
+矮
+焕
+斑
+烈
+喱
+疗
+乡
+掌
+期
+焰
+锌
+醋
+拢
+斐
+熨
+硌
+驶
+扭
+蟑
+爪
+郎
+坛
+查
+钙
+厢
+“
+朋
+籁
+篓
+抓
+拜
+炸
+鲫
+龟
+咪
+轿
+握
+状
+溪
+柑
+棘
+镇
+葵
+荟
+旭
+私
+黛
+腐
+覆
+熔
+娇
+纷
+薏
+涛
+沣
+党
+馆
+饯
+决
+踪
+唱
+徕
+幽
+汀
+赫
+垢
+扑
+蛙
+砧
+称
+啦
+猴
+弧
+慢
+若
+棚
+锡
+知
+裸
+绕
+颂
+坦
+蚁
+陪
+霉
+疏
+任
+努
+斋
+蓓
+擎
+沥
+踝
+呵
+莹
+靓
+剑
+蕉
+=
+严
+唇
+未
+搁
+蔓
+糯
+秘
+笼
+幸
+旎
+楠
+斧
+闭
+言
+息
+蛛
+挪
+搬
+啫
+爸
+榛
+骐
+伏
+茅
+项
+梵
+镭
+宋
+仑
+—
+义
+也
+俞
+镶
+宗
+继
+续
+渗
+窝
+需
+炬
+命
+卢
+茂
+掸
+叫
+禄
+晚
+钮
+默
+苔
+’
+驭
+褐
+泸
+纶
+虾
+茵
+循
+毅
+菠
+巡
+肘
+靶
+坠
+搓
+跟
+各
+朝
+刃
+檀
+境
+蓉
+融
+鲸
+茄
+榴
+麟
+氢
+麒
+跨
+障
+捕
+昕
+拳
+译
+脯
+历
+帮
+祖
+漾
+笛
+秒
+栓
+裂
+翠
+烯
+昊
+卖
+焗
+瞭
+脉
+汾
+楂
+－
+㎡
+故
+徽
+逃
+骋
+椭
+鳄
+揽
+燥
+碰
+何
+镂
+样
+鸦
+凸
+枝
+洞
+猷
+舌
+祛
+婷
+沱
+废
+肖
+箔
+咸
+辨
+蕴
+蓬
+番
+剥
+捆
+灌
+吻
+昇
+宴
+铛
+羚
+；
+妃
+萱
+赞
+鬼
+舱
+蹭
+鼻
+懿
+申
+佩
+脖
+淮
+羔
+苦
+却
+谱
+善
+磷
+曜
+壹
+姬
+港
+课
+翅
+府
+镁
+阶
+杉
+并
+沉
+腔
+勇
+渐
+荒
+螂
+沿
+弈
+瀚
+勾
+魂
+挥
+虚
+论
+瑟
+诱
+祁
+举
+最
+促
+酪
+逊
+琳
+群
+瞻
+弱
+锹
+券
+犬
+鉴
+栗
+禹
+翁
+构
+茨
+潘
+奖
+琥
+俊
+炼
+萤
+曙
+陌
+氨
+膨
+吨
+蛀
+锉
+余
+唛
+授
+岸
+糙
+街
+沾
+郁
+兜
+熏
+惑
+墅
+瞬
+鸣
+灾
+锰
+末
+参
+黎
+氙
+馈
+迹
+箕
+逻
+烙
+映
+~
+寓
+偶
+飚
+又
+腈
+律
+钒
+胚
+拐
+胖
+凰
+敦
+粤
+耶
+侬
+槐
+骊
+苑
+乘
+丙
+赐
+招
+绮
+喝
+怀
+崎
+候
+墩
+勿
+鄂
+递
+贩
+浇
+贺
+做
+蜘
+拾
+览
+纵
+妍
+慈
+娱
+沸
+蘑
+许
+币
+龄
+赋
+瓣
+给
+协
+悍
+聪
+谊
+哨
+捻
+铆
+征
+介
+荔
+蕊
+鹤
+筑
+葱
+淘
+刨
+说
+倾
+是
+蔡
+逐
+凹
+岭
+要
+矗
+恺
+弘
+矩
+坞
+饺
+硼
+芮
+戒
+苍
+璐
+杨
+繁
+玥
+桐
+氯
+漠
+祈
+骁
+恬
+搏
+姚
+堵
+狸
+捞
+才
+寝
+仆
+寻
+势
+琼
+糊
+煌
+遇
+帖
+蒲
+鹏
+镖
+吕
+缠
+锻
+甬
+雁
+邮
+铠
+完
+访
+押
+の
+牡
+拯
+颐
+|
+掉
+裹
+拭
+拎
+咚
+芥
+煜
+盼
+敌
+突
+溅
+邓
+析
+睛
+珑
+那
+始
+帚
+柳
+拒
+@
+卜
+臀
+著
+邑
+踩
+辑
+蝇
+受
+茯
+痒
+滇
+玺
+昆
+醉
+菁
+喔
+馅
+貂
+弥
+粹
+例
+涌
+扰
+辐
+闹
+绚
+《
+》
+厉
+蹈
+／
+滨
+辛
+盅
+琉
+玲
+樟
+吟
+＋
+拧
+q
+寄
+嘟
+陕
+就
+朱
+逆
+簸
+秦
+腌
+簿
+皱
+徐
+琅
+坡
+问
+琦
+题
+妖
+叮
+绸
+还
+麂
+豚
+脊
+睫
+婆
+廊
+缺
+似
+翎
+椴
+蒜
+珈
+卑
+觉
+芋
+荆
+躲
+从
+俯
+匕
+圭
+轧
+咀
+丸
+占
+悟
+敲
+揉
+鞭
+住
+滢
+腋
+荫
+怪
+牵
+汰
+敷
+黏
+符
+羹
+箍
+隽
+鳍
+Ⅲ
+磊
+灿
+害
+胀
+呆
+骇
+死
+病
+蹲
+昱
+葫
+苗
+痘
+喂
+鱿
+！
+局
+撒
+藻
+鸳
+鸯
+汪
+释
+璨
+鸥
+函
+蚀
+瑙
+镐
+陀
+抚
+胰
+仇
+乙
+馥
+绷
+咬
+珞
+旁
+蜗
+桨
+叙
+铰
+翡
+阴
+喉
+毡
+挤
+隙
+屈
+榈
+往
+烛
+忠
+么
+哆
+涮
+株
+辆
+宙
+恐
+伪
+榜
+藕
+勃
+拷
+胺
+町
+筛
+饱
+葛
+兽
+皙
+鹭
+蔗
+吋
+驿
+溜
+丢
+泼
+璀
+坤
+涡
+冗
+甄
+熙
+卉
+再
+馒
+翘
+窑
+暮
+盎
+Α
+堆
+杭
+了
+沟
+喊
+蹬
+翰
+茱
+氮
+评
+烹
+洪
+嘀
+蔚
+棠
+捏
+珐
+铨
+诞
+狩
+裆
+词
+氟
+诊
+粱
+彼
+确
+迩
+锖
+荐
+蔷
+慰
+嫣
+盲
+呈
+砍
+肪
+闻
+霓
+愿
+珂
+彭
+喵
+镊
+阜
+驳
+妹
+渣
+答
+啪
+俄
+砚
+澈
+哇
+釜
+匣
+敬
+截
+裱
+凑
+豉
+亭
+郑
+澜
+髌
+己
+蝎
+蹄
+咔
+鞍
+丘
+玖
+榕
+令
+摘
+＃
+榉
+浙
+撬
+淇
+谜
+碍
+眩
+窥
+桩
+饪
+邂
+邃
+拨
+抢
+奕
+钨
+炎
+趴
+筝
+谧
+岗
+惊
+搜
+稞
+晓
+鳕
+获
+钼
+退
+稀
+觅
+驴
+屁
+缪
+逅
+郊
+乖
+湛
+腻
+坪
+豌
+～
+剧
+禅
+冈
+夕
+判
+争
+税
+岡
+纬
+眸
+姐
+讴
+苓
+侑
+娘
+篇
+腥
+此
+淀
+魁
+東
+棱
+褪
+斩
+曦
+愈
+碴
+究
+爹
+蜀
+衩
+俐
+「
+」
+哩
+飙
+雏
+璇
+飒
+孜
+楚
+拽
+胭
+晰
+另
+犀
+侦
+返
+湘
+残
+摊
+舜
+栀
+侍
+乃
+挺
+姨
+霆
+恢
+迭
+则
+崇
+俪
+锣
+塘
+岱
+畚
+顽
+咕
+没
+盯
+叔
+犸
+察
+钊
+绪
+鬃
+赏
+矶
+踢
+刊
+泄
+搪
+獒
+躁
+吐
+枯
+娅
+玮
+貔
+貅
+矫
+羯
+奴
+弦
+驹
+憨
+缇
+锚
+秸
+谢
+冀
+归
+烷
+莆
+瑶
+租
+埋
+钴
+蹦
+秆
+奏
+怒
+麝
+括
+绯
+址
+匀
+羌
+穹
+疯
+敞
+噜
+择
+狱
+φ
+昔
+麸
+枇
+杷
+魏
+勐
+硫
+嗨
+痛
+亦
+笋
+汝
+鲍
+溟
+挚
+丫
+伙
+酶
+谐
+忘
+貉
+让
+勋
+>
+搞
+忧
+略
+审
+岚
+馏
+丑
+芸
+±
+籍
+飓
+挑
+倩
+肿
+贤
+梁
+乾
+钜
+淳
+岳
+垚
+鲢
+梭
+<
+蝠
+策
+董
+闷
+暑
+伶
+瑄
+铎
+閣
+钦
+殊
+般
+吞
+炽
+霹
+雳
+挖
+檐
+麋
+舸
+啄
+霖
+颖
+逗
+沈
+璞
+凿
+钎
+榭
+轰
+汞
+耦
+Ф
+愤
+唤
+爷
+＆
+彪
+擀
+嚼
+恨
+藜
+怠
+辞
+瓢
+殿
+瑕
+磐
+蛮
+儒
+扒
+戟
+烁
+较
+畸
+赖
+栅
+痱
+顾
+概
+冉
+绨
+找
+恶
+捉
+俱
+侨
+漩
+跷
+绎
+述
+芡
+这
+茜
+穴
+氰
+骰
+牢
+着
+Ⅰ
+鸽
+禽
+廉
+皎
+骷
+髅
+癀
+樽
+孟
+拱
+腮
+铼
+媛
+刘
+桦
+狠
+彻
+狙
+摹
+镰
+契
+粳
+垒
+父
+祝
+钣
+担
+褶
+谛
+汛
+幂
+跆
+涉
+苯
+失
+吾
+皆
+￠
+!
+茸
+仲
+它
+烂
+撼
+抬
+柬
+泪
+蚝
+陵
+熬
+醴
+骚
+喆
+棵
+催
+寡
+陨
+彤
+蚂
+忍
+啸
+淑
+朦
+≥
+仟
+順
+宅
+驻
+阔
+媚
+盏
+哒
+崂
+媳
+怕
+晕
+肝
+纠
+潭
+佬
+褂
+腱
+銮
+聘
+傻
+穆
+坏
+粟
+莺
+怎
+肺
+蘸
+卵
+绽
+糁
+嘻
+馔
+艮
+挞
+寨
+蛤
+眯
+葉
+萸
+姑
+缔
+拥
+蝙
+浣
+寐
+鸢
+涯
+衰
+钠
+蛳
+毽
+孙
+瑾
+锴
+叁
+秉
+瀑
+。
+桉
+竺
+吴
+患
+糠
+廓
+胧
+冒
+糟
+匈
+葚
+肆
+劵
+铄
+詹
+黒
+鎏
+寂
+缕
+蝰
+毁
+丈
+埔
+姓
+辊
+箩
+菓
+膀
+跪
+汐
+穗
+碘
+哟
+涵
+屿
+疾
+践
+们
+揭
+泓
+滆
+俗
+困
+鳞
+夺
+槿
+Ⅳ
+栈
+歧
+絮
+巷
+炕
+醺
+蟆
+澎
+榙
+渴
+哺
+扉
+疲
+蜥
+肫
+扛
+缀
+芷
+届
+贱
+卞
+浊
+灸
+焱
+庸
+峥
+嵘
+婧
+肛
+柒
+湃
+鲟
+钰
+氩
+戋
+堤
+献
+磺
+笨
+伺
+聖
+疮
+罪
+骄
+浑
+榔
+颠
+惜
+闽
+さ
+帜
+獭
+霏
+萍
+锨
+恪
+烽
+趋
+贯
+懂
+簇
+妞
+酮
+捶
+纫
+憩
+Π
+妥
+琢
+弄
+篱
+逢
+嫂
+猕
+迦
+狄
+魄
+捂
+韶
+苣
+谍
+诠
+瞄
+拇
+迟
+侈
+涩
+巅
+笤
+钇
+裳
+娴
+螃
+婺
+玳
+督
+蕙
+楿
+硃
+梢
+婵
+侘
+缦
+`
+琏
+县
+甸
+赭
+够
+伐
+惟
+溯
+猩
+鹉
+沧
+赁
+ü
+脐
+珏
+芨
+咽
+乱
+掠
+靛
+蚤
+难
+厦
+尸
+篆
+卿
+贸
+楸
+驯
+栽
+蜴
+籼
+筏
+陇
+嗒
+啾
+遗
+é
+绛
+缅
+哎
+筹
+˙
+妤
+幔
+跤
+碌
+您
+Μ
+渊
+偷
+內
+菩
+疑
+–
+既
+碑
+笺
+俩
+梧
+淬
+嫁
+蔺
+剁
+疫
+呛
+胃
+圳
+奋
+婉
+峨
+赣
+详
+旨
+耕
+暇
+妻
+镯
+颍
+霭
+挽
+‘
+铵
+掀
+曝
+涞
+｜
+茧
+龍
+蛊
+尽
+笙
+荪
+嘎
+撸
+鹦
+侯
+鹌
+鹑
+汶
+枞
+毙
+戚
+磕
+贫
+否
+垦
+逼
+涝
+馍
+橇
+腺
+痔
+隧
+む
+す
+び
+裘
+豫
+弃
+隼
+崔
+袭
+败
+尝
+绩
+酚
+廿
+裝
+Ｃ
+慎
+畔
+孝
+蝉
+冥
+励
+遵
+糬
+柿
+沪
+玑
+曾
+剖
+帛
+垮
+寺
+庐
+肢
+栖
+脲
+嗜
+缚
+Ω
+嗳
+涧
+à
+蜓
+况
+渲
+鲮
+聆
+涪
+茴
+铣
+栢
+溴
+责
+瞳
+娩
+舵
+伲
+谭
+馋
+该
+穷
+雍
+靡
+朔
+狭
+榆
+犇
+琨
+赶
+冇
+→
+掘
+晔
+阑
+迁
+…
+蜻
+≤
+肽
+徳
+熠
+惩
+贾
+豇
+暂
+椿
+伢
+颉
+姻
+哄
+涅
+遛
+瀛
+戊
+奉
+宵
+抡
+峡
+庙
+亡
+赵
+聊
+璧
+潔
+鎂
+抠
+酞
+倚
+闯
+碾
+呀
+绀
+蘭
+矢
+葆
+烩
+蒡
+捍
+叽
+Ó
+薫
+症
+藩
+辈
+浒
+迫
+欲
+熄
+倪
+鳊
+鳙
+闺
+鼾
+塌
+苎
+潇
+痰
+茬
+敢
+É
+酋
+署
+吖
+诉
+碉
+捐
+跌
+侵
+郫
+酩
+窈
+窕
+亩
+芍
+稍
+僵
+累
+％
+甾
+彗
+耙
+蛟
+颤
+島
+剔
+坎
+宸
+萬
+疙
+瘩
+癌
+る
+酉
+胗
+毓
+祸
+囍
+恰
+膊
+袁
+雌
+雯
+疝
+き
+祎
+贰
+矽
+赚
+晋
+弑
+罂
+捲
+無
+噢
+删
+＞
+暧
+兑
+鞘
+疼
+掏
+鬓
+蒟
+蒻
+腩
+仗
+夸
+粪
+皖
+膻
+湄
+旷
+趾
+鹊
+崴
+麓
+荼
+啵
+纲
+役
+委
+叛
+些
+髓
+帧
+贮
+虞
+翩
+喏
+兮
+莘
+盂
+借
+臼
+檫
+孤
+硝
+烦
+紅
+呐
+５
+α
+贪
+＜
+厄
+昼
+恭
+锭
+衍
+估
+Ａ
+″
+辄
+鹃
+伡
+哪
+柞
+辩
+陷
+稼
+蛎
+噌
+贻
+鲭
+贞
+捣
+蜇
+鳗
+莞
+鸵
+谣
+肾
+霄
+很
+抵
+姊
+疹
+煨
+馐
+琇
+蹼
+庇
+怦
+梗
+胳
+涨
+Ｄ
+茚
+ふ
+氘
+←
+尧
+襟
+奎
+荡
+佣
+胞
+汲
+恼
+蛾
+溃
+啃
+沂
+殖
+郭
+浏
+矛
+阗
+偿
+壮
+２
+讨
+遐
+Ｍ
+葩
+稽
+骼
+辽
+骅
+黯
+咯
+哦
+苞
+乍
+渠
+歪
+極
+泫
+肴
+炳
+堇
+她
+蠊
+譽
+撰
+屎
+履
+谨
+暨
+彰
+邀
+秩
+镕
+ー
+炻
+趁
+靖
+皲
+椹
+胯
+誌
+蟾
+戌
+珮
+娥
+勝
+轲
+虱
+宛
+嘭
+予
+À
+尹
+芊
+惰
+襁
+褓
+錾
+翌
+愉
+昙
+噬
+遍
+泾
+镉
+蛹
+裔
+扮
+遁
+彦
+『
+斛
+阖
+睐
+貌
+呗
+桀
+骜
+Ｇ
+绢
+Ｔ
+惹
+绫
+醯
+樂
+篦
+諾
+麴
+楞
+羞
+Ｕ
+鲱
+肃
+篾
+嘛
+陛
+醪
+饕
+偲
+烝
+拦
+莳
+惯
+囚
+笈
+羡
+诵
+拂
+阮
+邵
+哀
+烨
+霈
+恣
+稠
+苟
+氦
+亳
+捧
+赔
+嗞
+瑩
+搋
+兿
+蘼
+旱
+鸾
+俑
+琛
+髻
+掛
+臧
+苫
+帷
+鹄
+噁
+僖
+雲
+篼
+罕
+硷
+乏
+Ⅶ
+肱
+凃
+€
+梓
+獾
+龋
+尙
+竟
+召
+蟒
+葳
+ｘ
+刄
+疡
+犁
+罢
+‖
+？
+軨
+＊
+納
+募
+猜
+寰
+甙
+钾
+醚
+郡
+幺
+冽
+Ⅵ
+號
+荚
+牦
+Ⅴ
+杈
+羢
+侶
+饴
+韭
+嗲
+皿
+锄
+髙
+黍
+叹
+蕃
+荤
+汕
+馄
+饨
+簌
+囱
+曹
+棣
+朽
+峭
+坝
+芪
+挫
+勘
+劫
+悄
+崛
+屠
+祭
+乞
+舆
+嗵
+谁
+缥
+诃
+敛
+獣
+谦
+り
+ド
+忙
+崩
+悲
+虑
+岐
+㎝
+凛
+Β
+咒
+娣
+髈
+歇
+熱
+稷
+哞
+啜
+旖
+Δ
+氓
+遂
+羟
+楹
+園
+蔑
+逝
+琊
+麥
+匡
+辫
+藿
+仄
+瘙
+粼
+靑
+搽
+嘞
+翟
+贼
+強
+饿
+寇
+珩
+茹
+忻
+荻
+３
+４
+Λ
+匝
+様
+沖
+↘
+斌
+烃
+苒
+麗
+咛
+殴
+嬷
+揿
+剩
+淌
+薪
+虐
+鲛
+冕
+礴
+沼
+屹
+烊
+煞
+迄
+峻
+愁
+钧
+Ｓ
+
+
+
+锘
+組
+頫
+戮
+郗
+補
+姹
+Ｋ
+∕
+叻
+兀
+垄
+瞌
+栌
+猿
+趟
+孢
+弛
+溉
+笆
+層
+π
+Ｗ
+Ｐ
+屯
+藓
+萧
+肋
+姥
+莜
+邸
+裴
+剐
+淼
+橫
+圃
+讷
+掷
+Á
+咏
+∮
+悔
+倡
+衷
+宪
+卦
+痧
+墉
+餮
+ハ
+凶
+瓯
+咳
+鸠
+傣
+且
+廖
+畏
+袄
+颚
+喀
+躯
+镞
+羲
+慑
+瞰
+農
+菴
+楔
+糍
+榧
+吮
+闫
+吝
+潍
+砌
+①
+卒
+笊
+醌
+妩
+舔
+曳
+瞎
+昵
+悉
+堪
+＝
+誓
+邹
+痞
+撮
+蚯
+蚓
+捨
+酬
+淤
+锍
+煦
+赘
+酰
+戛
+缱
+绻
+搴
+珺
+婕
+匾
+句
+黔
+０
+鹳
+鸸
+鹋
+∑
+苡
+Ⅻ
+眷
+绊
+骤
+羅
+捡
+涿
+気
+娟
+胁
+蟠
+ò
+洇
+渝
+撘
+佗
+奂
+偕
+鲑
+藍
+邪
+﹢
+墓
+巫
+漪
+唾
+綠
+吱
+刁
+劈
+書
+逶
+氲
+
+耘
+祼
+遨
+镝
+△
+猝
+砷
+帯
+瓤
+扯
+嗡
+赌
+髦
+锶
+Ｘ
+Ｌ
+Ｑ
+ｉ
+浚
+溫
+計
+』
+蝌
+蚪
+喬
+爺
+蓭
+鹂
+は
+銹
+惬
+啰
+蕨
+餅
+蘇
+別
+婀
+耍
+禮
+酌
+嗣
+砣
+呕
+璱
+麿
+滕
+芹
+撇
+巳
+噔
+晃
+偌
+槑
+憾
+瀞
+苷
+癫
+﹒
+诀
+咂
+瘤
+吠
+冯
+嘬
+が
+ま
+よ
+{
+}
+ノ
+ル
+イ
+怖
+と
+ン
+啊
+嗽
+ッ
+犯
+壤
+札
+璎
+烬
+昏
+箐
+瞿
+塗
+钽
+贷
+｛
+｝
+宰
+窦
+隶
+黝
+袪
+溺
+涕
+煅
+馓
+濑
+粑
+鲷
+樊
+肇
+钵
+猬
+咩
+厌
+②
+蝮
+骧
+锆
+喧
+呱
+鳐
+颁
+泷
+茎
+娆
+愫
+舐
+幡
+渺
+咲
+汴
+琵
+琶
+漭
+雎
+吗
+擅
+喫
+鲈
+濮
+泠
+儺
+饲
+猾
+蜚
+Ｊ
+枭
+橼
+碛
+劢
+侏
+挝
+炯
+谌
+灼
+薶
+緑
+崖
+稚
+婥
+熵
+芜
+穂
+崃
+绉
+晧
+匆
+桜
+衿
+㎏
+罍
+贽
+峯
+桅
+屛
+钌
+Ｂ
+浜
+１
+薩
+镧
+晞
+荘
+讼
+桝
+傑
+嗬
+弾
+貝
+冼
+荸
+荠
+噗
+铡
+辕
+泗
+攸
+扔
+蝗
+棰
+沄
+揸
+铦
+匍
+匐
+坯
+昶
+踵
+擂
+咘
+铐
+動
+逹
+祜
+嗅
+袅
+憧
+偎
+髋
+樵
+铍
+戳
+獅
+兎
+凉
+歩
+菖
+氪
+鬣
+辎
+僧
+涟
+巩
+惧
+嗖
+惴
+
+颇
+じ
+鲂
+
+孖
+
+饩
+腙
+縮
+欤
+Ò
+
+鶰
+
+
+鶼
+芈
+刈
+
+菷
+∪
+槲
+杳
+
+诓
+
+癈
+懵
+調
+級
+絕
+榱
+ⅲ
+髂
+
+豐
+嫒
+┭
+÷
+倘
+竽
+鄯
+羰
+シ
+鱁
+堅
+岫
+馕
+^
+鉑
+Ｏ
+髣
+盥
+雇
+ф
+Ｒ
+Ｖ
+Ｆ
+轫
+妒
+颊
+嬉
+瑛
+蛏
+炝
+鲳
+摈
+獠
+
+藁
+⑷
+晗
+臊
+抺
+斓
+酝
+碜
+黃
+瘾
+剝
+檸
+鳌
+帶
+酎
+煸
+郝
+義
+枰
+咾
+矾
+疊
+荏
+癸
+廋
+愛
+熹
+誊
+庞
+嗮
+陂
+蜊
+艰
+苕
+撙
+诡
+Γ
+峪
+窃
+谬
+忏
+焚
+掇
+甫
+诘
+蓼
+琯
+谎
+骂
+衔
+臆
+吼
+罚
+わ
+か
+ツ
+諵
+譁
+蠡
+爻
+彷
+徨
+う
+辟
+孺
+债
+匦
+皋
+蒋
+è
+ê
+踊
+砾
+偵
+倶
+楽
+缈
+時
+ナ
+ミ
+ヤ
+雑
+貨
+蹟
+袂
+欺
+骗
+〉
+枢
+ウ
+エ
+終
+ボ
+ワ
+ダ
+ラ
+纂
+庚
+喻
+嶋
+脾
+カ
+フ
+ェ
+バ
+ペ
+パ
+リ
+プ
+術
+馀
+俎
+哭
+泣
+愚
+蠢
+跋
+跡
+読
+冊
+ト
+に
+め
+な
+い
+８
+窍
+風
+を
+聴
+け
+葬
+赎
+祷
+藉
+诸
+殷
+旵
+丧
+昨
+犹
+徘
+徊
+缃
+阐
+聂
+惕
+膑
+措
+槃
+磦
+嚎
+涎
+萦
+歙
+鳃
+潢
+竣
+枧
+撷
+甑
+蕈
+萁
+嘣
+泌
+濞
+娉
+徹
+﹠
+魇
+冶
+瑁
+箴
+隍
+孵
+咋
+允
+咆
+哮
+棷
+俢
+龇
+揣
+萊
+寳
+耿
+蜍
+鲅
+鮻
+褚
+禛
+芘
+撩
+來
+嫦
+菈
+妊
+闰
+隅
+妄
+淫
+冢
+瑠
+捅
+耷
+荃
+悸
+奸
+③
+鳅
+鳝
+鈦
+［
+］
+鹧
+鸪
+钗
+蕥
+師
+违
+鱅
+嗓
+蜁
+顷
+銅
+苜
+蓿
+滌
+挣
+嵋
+幄
+簪
+砺
+畜
+敖
+喑
+擢
+楢
+鴨
+逾
+阒
+筠
+噶
+濠
+鉛
+筆
+橧
+栎
+華
+痂
+坂
+曌
+濉
+兒
+弩
+妳
+恵
+鲞
+榮
+記
+蔼
+莊
+炙
+緞
+弋
+胤
+鼹
+栋
+≧
+唢
+缐
+沅
+皴
+卯
+發
+舀
+雉
+囯
+環
+拙
+佤
+Ｈ
+頻
+浄
+丶
+採
+寅
+拴
+☆
+幌
+酣
+逮
+阱
+砻
+鸨
+岬
+遣
+巍
+祿
+伝
+矣
+摁
+阡
+咭
+秾
+腓
+扼
+淖
+蓍
+鉗
+叩
+疤
+Ⅷ
+莽
+劉
+顔
+慵
+揹
+阙
+Ü
+苛
+窜
+翱
+羿
+邢
+瑧
+彝
+矅
+萘
+澌
+筱
+驮
+靥
+º
+業
+仌
+匏
+夭
+锢
+歆
+揚
+桖
+绶
+乇
+昧
+酊
+廚
+²
+翊
+欠
+鉝
+器
+舶
+帔
+袱
+滔
+呓
+憬
+迥
+拈
+嘿
+彧
+玷
+氤
+侃
+霁
+苼
+⽿
+潞
+漢
+＂
+嬛
+慌
+⑤
+颅
+彬
+尉
+胫
+夯
+戎
+痉
+挛
+蒿
+佺
+μ
--- a/data_prepare.py
+++ b/data_prepare.py
+import pandas as pd
+from function import Index
+table = pd.read_excel('VW_ProductALLState.xlsx')
+#category_set = list(set(table['SubCategoryName'].tolist()))
+#len(list(category_set))
+f = open('D:/Users/86183/Desktop/text-classification-cnn-rnn/data/name2category/name2category.val.txt','w',encoding='utf-8')
+g = open('D:/Users/86183/Desktop/text-classification-cnn-rnn/data/name2category/name2category.train.txt','w',encoding='utf-8')
+h = open('D:/Users/86183/Desktop/text-classification-cnn-rnn/data/name2category/name2category.test.txt','w',encoding='utf-8')
+m = 0
+len_table = len(table)
+index = Index()
+for category,name in zip(table['SubCategoryName'],table['ProductName']):
+    name = str(name).replace('\t',' ')
+    if '错误子类' not in category:
+        if m%13 == 1:
+            f.write(f'{category}\t{name}\n')
+        elif m%13 in [2,3]:
+            h.write(f'{category}\t{name}\n')
+        else:
+            g.write(f'{category}\t{name}\n')
+    m += 1
+    s = m/len_table
+    print(index(m, len_table-1),end = '%')
\ No newline at end of file
--- a/function.py
+++ b/function.py
+# -*- coding: utf-8 -*-
+import pymssql
+import pandas as pd
+import re
+from lxml import etree
+from sqlalchemy import create_engine
+'''
+class product():
+    def __init__(self, product_name, product_SKU, product_class_num = 'na'):
+        self.product_name = str(product_name)
+        self.product_SKU = str(product_SKU)
+        self.product_class = str(product_class_num)
+    def get_parameter(self, **kwargs):
+'''
+class sql_find():
+    def __init__ (self, database='ZI_DataBase', localhost=True):
+        if localhost:
+            self.conn = pymssql.connect(host='localhost', user='zgc',password='1234',database=database,autocommit=True)
+            self.engine = create_engine(f'mssql+pymssql://zgc:1234@localhost/{database}')
+        else:
+            self.conn = pymssql.connect(host='123.56.115.207', user='zgcprice3311',password='admin@2018@)!*',database=database,autocommit=True)
+            self.engine = create_engine(f'mssql+pymssql://zgcprice3311:admin@2018@)!*@123.56.115.207/{database}')
+        self.cursor = self.conn.cursor()
+class mysql_find():
+    def __init__ (self, database='ZI_DataBase', localhost=True):
+        if localhost:
+            self.conn = pymssql.connect(host='localhost', user='zgc',password='1234',database=database,autocommit=True)
+        else:
+            self.conn = pymssql.connect(host='59.110.219.171', user='root',password='qwertyuiop1',database=database,autocommit=True)
+        self.cursor = self.conn.cursor()
+    '''
+    def execute(self, sql_sentence):
+        self.cursor.execute(sql_sentence)
+        return self.cursor
+    '''
+def BN(brand):
+    brand = str(brand)
+    try:
+        country = brand.split('[')[1].split(']')[-2]
+        brand = brand.replace(country,'')
+    except IndexError:
+        pass
+    res = re.findall(r'[0-9\u4E00-\u9FA5]', brand)
+    new_res = ''.join(res)
+    if new_res.isdigit():
+        new_res = ''
+	#print(len(new_res))
+    if len(new_res) == 0:
+        res1 = re.findall(r'[a-zA-Z0-9]', brand)
+        new_res = ''.join(res1)
+        new_res = new_res.upper()
+    return new_res
+class Index(object):
+    def __init__(self, number=50, decimal=2):
+        """
+        :param decimal: 你保留的保留小数位
+        :param number: # 号的 个数
+        """
+        self.decimal = decimal
+        self.number = number
+        self.a = 100/number   # 在百分比 为几时增加一个 # 号
+    def __call__(self, now, total):
+        # 1. 获取当前的百分比数
+        percentage = self.percentage_number(now, total)
+        # 2. 根据 现在百分比计算
+        well_num = int(percentage / self.a)
+        # print("well_num: ", well_num, percentage)
+        # 3. 打印字符进度条
+        progress_bar_num = self.progress_bar(well_num)
+        # 4. 完成的进度条
+        result = "\r%s %s" % (progress_bar_num, percentage)
+        return result
+    def percentage_number(self, now, total):
+        """
+        计算百分比
+        :param now:  现在的数
+        :param total:  总数
+        :return: 百分
+        """
+        return round(now / total * 100, self.decimal)
+    def progress_bar(self, num):
+        """
+        显示进度条位置
+        :param num:  拼接的  “#” 号的
+        :return: 返回的结果当前的进度条
+        """
+        # 1. "#" 号个数
+        well_num = "#" * num
+        # 2. 空格的个数
+        space_num = " " * (self.number - num)
+        return '[%s%s]' % (well_num, space_num)
+def brand_table_create():
+    sql_ZIdatabase = sql_find('ZI_DataBase', False)
+    sql_ZIdatabase.cursor.execute('select BrandID,BrandName from ZI_BrandList')
+    brand_table = sql_ZIdatabase.cursor.fetchall()
+    brand_table = pd.DataFrame(brand_table,columns=[tuple[0] for tuple in sql_ZIdatabase.cursor.description])
+    chinese_brand_lyst = []
+    english_brand_lyst = []
+    for brandname in brand_table['BrandName']:
+        if '错误品牌' in brandname:
+            chinese_brand_lyst.append('该条跳过！')
+            english_brand_lyst.append('该条跳过！')
+        elif '/' in brandname:
+            chinese_brand_lyst.append(brandname.split('/')[0])
+            english_brand_lyst.append(brandname.split('/')[1])
+        else:
+           chinese_brand_lyst.append(brandname)
+           english_brand_lyst.append('该条跳过！')
+    brand_table['中文品牌'] = chinese_brand_lyst
+    brand_table['英文品牌'] = english_brand_lyst
+    return brand_table
+class tool():
+    def __init__(self):
+        self.peijian_table = pd.read_excel('是否需要配件.xlsx')
+        print('生成品牌表中。。。')
+        self.brand_table = brand_table_create()
+        print('生成品牌表完成。')
+    def judge_brand(self, brand, brandcode_original):
+        brandcode_original = str(brandcode_original).zfill(5)[-5:]
+        #print(brandcode_original)
+        #print(self.brand_table[self.brand_table['BrandID']==brandcode_original]['BrandName'].tolist())
+        if brandcode_original == '应指数品牌' or '错误品牌' in self.brand_table[self.brand_table['BrandID']==brandcode_original]['BrandName'].tolist()[0]:
+            BRANDID = '没有对应指数品牌'
+            for ID,Chinese_brand,English_brand in zip(self.brand_table['BrandID'], self.brand_table['中文品牌'], self.brand_table['英文品牌']):
+                if brand == Chinese_brand:
+                    BRANDID = str(ID).zfill(5)
+                elif BN(brand) == English_brand:
+                    BRANDID = str(ID).zfill(5)
+        else:
+            BRANDID = brandcode_original
+        return BRANDID
+    def judge_peijian(self, data_table):
+        ispeijian_lyst = []
+        isunique_lyst = []
+        for class_code in data_table['指数子类编码']:
+            mark = '0'
+            mark2 = '0'
+            class_code = str(class_code).zfill(4)
+            if class_code != '没有匹配的指数子类编码':
+                for categorycode, ispeijian, isunique in zip(self.peijian_table['categorycode'], self.peijian_table['ispeijian'], self.peijian_table['isunique']):
+                    if class_code == str(categorycode).zfill(4):
+                        if str(ispeijian) != '0':
+                            mark = '1'
+                        if str(isunique) != '0':
+                            mark2 = '1'
+                        break
+                ispeijian_lyst.append(mark)
+                isunique_lyst.append(mark2)
+            else:
+                ispeijian_lyst.append(mark)
+                isunique_lyst.append(mark2)
+        #print(len(ispeijian_lyst), len(data_table['指数子类编码']))
+        data_table['有无配件'] = ispeijian_lyst
+        data_table['型号_only'] = isunique_lyst
+        return data_table
+def judge_unit(string):
+    unit_list = {'MM','CM', 'DM', 'ML', 'W', 'KW'}
+    if not string[0].isdigit():
+        return True
+    m = 0
+    for char in string:
+        if char.isdigit() or char == '.':
+            m += 1
+            continue
+        elif char.isalpha():
+            if string[m:].upper() in unit_list:
+                return False
+            else:
+                return True
+    return True
+def type_extract_JD(name, params, brand):
+    #params = eval(params)
+    try:
+        brand_remove = re.findall(r"[A-Za-z0-9]+", brand)[0].upper()
+    except IndexError:
+        brand_remove = '没有英文品牌！'
+    param_xinghao = 'NA'
+    if '产品型号' in params:
+        param_xinghao = params['产品型号']
+    if '型号' in params:
+        param_xinghao = params['型号']
+    elif r'\t型号\t' in params:
+        param_xinghao = params[r'\t型号\t']
+    name_xinghao_lyst = list(filter(lambda x: len(x) >= 2, re.findall(r"[A-Za-z0-9-+/.*]+", name)))
+    for i in range(len(name_xinghao_lyst)):
+        name_xinghao_lyst[i] = name_xinghao_lyst[i].upper()
+    try:
+        name_xinghao_lyst.remove(brand_remove)
+    except ValueError:
+        pass
+    if len(name_xinghao_lyst) == 0:
+        #type_lyst.append(param_xinghao.upper())
+        return param_xinghao.upper()
+    else:
+        if param_xinghao in name_xinghao_lyst:
+            #type_lyst.append(param_xinghao.upper())
+            return param_xinghao.upper()
+        else:
+            xinghao_data = max(name_xinghao_lyst, key=len)
+            for xinghao in name_xinghao_lyst:
+                if len(xinghao) > 2 and '*' not in xinghao and judge_unit(xinghao):
+                    xinghao_data = xinghao
+                    break
+            if not judge_unit(xinghao_data):
+                xinghao_data == 'NA'
+            #type_lyst.append(xinghao_data.upper())
+            return xinghao_data
+def type_extract(name, params):
+    #params = eval(params)
+    param_xinghao = 'NA'
+    if '型号' in params:
+        param_xinghao = params['型号']
+    elif r'\t型号\t' in params:
+        param_xinghao = params[r'\t型号\t']
+    name_xinghao_lyst = list(filter(lambda x: len(x) >= 2, re.findall(r"[A-Za-z0-9-+/.*]+", name)))
+    if len(name_xinghao_lyst) == 0:
+        #type_lyst.append(param_xinghao.upper())
+        return param_xinghao.upper()
+    else:
+        if param_xinghao in name_xinghao_lyst:
+            #type_lyst.append(param_xinghao.upper())
+            return param_xinghao.upper()
+        else:
+            xinghao_data = max(name_xinghao_lyst, key=len)
+            for xinghao in name_xinghao_lyst:
+                if len(xinghao) > 2 and '*' not in xinghao and judge_unit(xinghao):
+                    xinghao_data = xinghao
+                    break
+            if not judge_unit(xinghao_data):
+                xinghao_data == 'NA'
+            #type_lyst.append(xinghao_data.upper())
+            return xinghao_data.upper()
+def param_load(product_id, xml_string):
+    """
+    传入sku，和xml原始代码
+    :param product_id:sku
+    :param xml_string:xml数据
+    :return:csv
+    """
+    xml_str = etree.HTML(xml_string)
+    #title = xml_str.xpath("//th[@class='tdTitle']")
+    secend = xml_str.xpath("//td[@class='tdTitle']")
+    zhi = xml_str.xpath("//tr//td[position()>1]")
+    data_dict = {}
+    for j, k in zip(secend, zhi):
+        #item = i.xpath("./text()")[0]
+        sec = j.xpath("./text()")[0]
+        value = k.xpath("./text()")[0]
+        data_dict[sec] = value
+    return data_dict
+if __name__ == '__main__':
+    a = brand_table_create()
+    '错误品牌' in a[a['BrandID']=='08358']['BrandName'].tolist()[0]
--- a/helper/__init__.py
+++ b/helper/__init__.py
--- a/helper/cnews_group.py
+++ b/helper/cnews_group.py
+#!/usr/bin/python
+# -*- coding: utf-8 -*-
+"""
+将文本整合到 train、test、val 三个文件中
+"""
+import os
+def _read_file(filename):
+    """读取一个文件并转换为一行"""
+    with open(filename, 'r', encoding='utf-8') as f:
+        return f.read().replace('\n', '').replace('\t', '').replace('\u3000', '')
+def save_file(dirname):
+    """
+    将多个文件整合并存到3个文件中
+    dirname: 原数据目录
+    文件内容格式:  类别\t内容
+    """
+    f_train = open('data/cnews/cnews.train.txt', 'w', encoding='utf-8')
+    f_test = open('data/cnews/cnews.test.txt', 'w', encoding='utf-8')
+    f_val = open('data/cnews/cnews.val.txt', 'w', encoding='utf-8')
+    for category in os.listdir(dirname):   # 分类目录
+        cat_dir = os.path.join(dirname, category)
+        if not os.path.isdir(cat_dir):
+            continue
+        files = os.listdir(cat_dir)
+        count = 0
+        for cur_file in files:
+            filename = os.path.join(cat_dir, cur_file)
+            content = _read_file(filename)
+            if count < 5000:
+                f_train.write(category + '\t' + content + '\n')
+            elif count < 6000:
+                f_test.write(category + '\t' + content + '\n')
+            else:
+                f_val.write(category + '\t' + content + '\n')
+            count += 1
+        print('Finished:', category)
+    f_train.close()
+    f_test.close()
+    f_val.close()
+if __name__ == '__main__':
+    save_file('data/thucnews')
+    print(len(open('data/cnews/cnews.train.txt', 'r', encoding='utf-8').readlines()))
+    print(len(open('data/cnews/cnews.test.txt', 'r', encoding='utf-8').readlines()))
+    print(len(open('data/cnews/cnews.val.txt', 'r', encoding='utf-8').readlines()))
--- a/helper/copy_data.sh
+++ b/helper/copy_data.sh
+#!/bin/bash
+# copy MAXCOUNT files from each directory
+MAXCOUNT=6500
+for category in $( ls THUCNews); do
+  echo item: $category
+  dir=THUCNews/$category
+  newdir=data/thucnews/$category
+  if [ -d $newdir ]; then
+    rm -rf $newdir
+    mkdir $newdir
+  fi
+  COUNTER=1
+  for i in $(ls $dir); do
+    cp $dir/$i $newdir
+    if [ $COUNTER -ge $MAXCOUNT ]
+    then
+      echo finished
+      break
+    fi
+    let COUNTER=COUNTER+1
+  done
+done
--- a/images/acc_loss.png
+++ b/images/acc_loss.png
--- a/images/acc_loss_rnn.png
+++ b/images/acc_loss_rnn.png
--- a/images/cnn_architecture.png
+++ b/images/cnn_architecture.png
--- a/images/rnn_architecture.png
+++ b/images/rnn_architecture.png
--- a/predict.py
+++ b/predict.py
+# coding: utf-8
+from __future__ import print_function
+import os
+import tensorflow as tf
+import tensorflow.contrib.keras as kr
+from cnn_model import TCNNConfig, TextCNN
+from data.cnews_loader import read_category, read_vocab
+try:
+    bool(type(unicode))
+except NameError:
+    unicode = str
+base_dir = 'data/cnews'
+vocab_dir = os.path.join(base_dir, 'cnews.vocab.txt')
+save_dir = 'checkpoints/textcnn'
+save_path = os.path.join(save_dir, 'best_validation')  # 最佳验证结果保存路径
+class CnnModel:
+    def __init__(self):
+        self.config = TCNNConfig()
+        self.categories, self.cat_to_id = read_category()
+        self.words, self.word_to_id = read_vocab(vocab_dir)
+        self.config.vocab_size = len(self.words)
+        self.model = TextCNN(self.config)
+        self.session = tf.Session()
+        self.session.run(tf.global_variables_initializer())
+        saver = tf.train.Saver()
+        saver.restore(sess=self.session, save_path=save_path)  # 读取保存的模型
+    def predict(self, message):
+        # 支持不论在python2还是python3下训练的模型都可以在2或者3的环境下运行
+        content = unicode(message)
+        data = [self.word_to_id[x] for x in content if x in self.word_to_id]
+        feed_dict = {
+            self.model.input_x: kr.preprocessing.sequence.pad_sequences([data], self.config.seq_length),
+            self.model.keep_prob: 1.0
+        }
+        y_pred_cls = self.session.run(self.model.y_pred_cls, feed_dict=feed_dict)
+        return self.categories[y_pred_cls[0]]
+if __name__ == '__main__':
+    cnn_model = CnnModel()
+    test_demo = ['三星ST550以全新的拍摄方式超越了以往任何一款数码相机',
+                 '热火vs骑士前瞻：皇帝回乡二番战 东部次席唾手可得新浪体育讯北京时间3月30日7:00']
+    for i in test_demo:
+        print(cnn_model.predict(i))
--- a/predicted_data.txt
+++ b/predicted_data.txt
+迷你植物	格林王 GREENKING 英国原装进口 IPA印度麦啤 精酿啤酒印度淡色艾尔啤酒 500ML*6瓶 整箱装
\ No newline at end of file
--- a/requirements.txt
+++ b/requirements.txt
+scikit-learn
+scipy
+numpy
\ No newline at end of file
--- a/rnn_model.py
+++ b/rnn_model.py
+#!/usr/bin/python
+# -*- coding: utf-8 -*-
+import tensorflow as tf
+class TRNNConfig(object):
+    """RNN配置参数"""
+    # 模型参数
+    embedding_dim = 64      # 词向量维度
+    seq_length = 600        # 序列长度
+    num_classes = 8        # 类别数
+    vocab_size = 5000       # 词汇表达小
+    num_layers= 2           # 隐藏层层数
+    hidden_dim = 128        # 隐藏层神经元
+    rnn = 'gru'             # lstm 或 gru
+    dropout_keep_prob = 0.8 # dropout保留比例
+    learning_rate = 1e-3    # 学习率
+    batch_size = 128         # 每批训练大小
+    num_epochs = 10          # 总迭代轮次
+    print_per_batch = 100    # 每多少轮输出一次结果
+    save_per_batch = 10      # 每多少轮存入tensorboard
+class TextRNN(object):
+    """文本分类，RNN模型"""
+    def __init__(self, config):
+        self.config = config
+        # 三个待输入的数据
+        self.input_x = tf.placeholder(tf.int32, [None, self.config.seq_length], name='input_x')
+        self.input_y = tf.placeholder(tf.float32, [None, self.config.num_classes], name='input_y')
+        self.keep_prob = tf.placeholder(tf.float32, name='keep_prob')
+        self.rnn()
+    def rnn(self):
+        """rnn模型"""
+        def lstm_cell():   # lstm核
+            return tf.contrib.rnn.BasicLSTMCell(self.config.hidden_dim, state_is_tuple=True)
+        def gru_cell():  # gru核
+            return tf.contrib.rnn.GRUCell(self.config.hidden_dim)
+        def dropout(): # 为每一个rnn核后面加一个dropout层
+            if (self.config.rnn == 'lstm'):
+                cell = lstm_cell()
+            else:
+                cell = gru_cell()
+            return tf.contrib.rnn.DropoutWrapper(cell, output_keep_prob=self.keep_prob)
+        # 词向量映射
+        with tf.device('/cpu:0'):
+            embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
+            embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
+        with tf.name_scope("rnn"):
+            # 多层rnn网络
+            cells = [dropout() for _ in range(self.config.num_layers)]
+            rnn_cell = tf.contrib.rnn.MultiRNNCell(cells, state_is_tuple=True)
+            _outputs, _ = tf.nn.dynamic_rnn(cell=rnn_cell, inputs=embedding_inputs, dtype=tf.float32)
+            last = _outputs[:, -1, :]  # 取最后一个时序输出作为结果
+        with tf.name_scope("score"):
+            # 全连接层，后面接dropout以及relu激活
+            fc = tf.layers.dense(last, self.config.hidden_dim, name='fc1')
+            fc = tf.contrib.layers.dropout(fc, self.keep_prob)
+            fc = tf.nn.relu(fc)
+            # 分类器
+            self.logits = tf.layers.dense(fc, self.config.num_classes, name='fc2')
+            self.y_pred_cls = tf.argmax(tf.nn.softmax(self.logits), 1)  # 预测类别
+        with tf.name_scope("optimize"):
+            # 损失函数，交叉熵
+            cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.input_y)
+            self.loss = tf.reduce_mean(cross_entropy)
+            # 优化器
+            self.optim = tf.train.AdamOptimizer(learning_rate=self.config.learning_rate).minimize(self.loss)
+        with tf.name_scope("accuracy"):
+            # 准确率
+            correct_pred = tf.equal(tf.argmax(self.input_y, 1), self.y_pred_cls)
+            self.acc = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
--- a/run_cnn.py
+++ b/run_cnn.py
+#!/usr/bin/python
+# -*- coding: utf-8 -*-
+from __future__ import print_function
+import os
+import sys
+import time
+from datetime import timedelta
+import numpy as np
+import tensorflow as tf
+from sklearn import metrics
+from cnn_model import TCNNConfig, TextCNN
+from data.cnews_loader import read_vocab, read_category, batch_iter, process_file, build_vocab
+import pandas as pd
+base_dir = 'data/name2category'
+train_dir = os.path.join(base_dir, 'name2category.train.txt')
+test_dir = os.path.join(base_dir, 'name2category.test.txt')
+val_dir = os.path.join(base_dir, 'name2category.val.txt')
+vocab_dir = os.path.join(base_dir, 'name2category.vocab.txt')
+pred_dir = os.path.join(base_dir, 'name2category.predict.txt')
+save_dir = 'checkpoints/textcnn'
+save_path = os.path.join(save_dir, 'best_validation')  # 最佳验证结果保存路径
+def get_time_dif(start_time):
+    """获取已使用时间"""
+    end_time = time.time()
+    time_dif = end_time - start_time
+    return timedelta(seconds=int(round(time_dif)))
+def feed_data(x_batch, y_batch, keep_prob):
+    feed_dict = {
+        model.input_x: x_batch,
+        model.input_y: y_batch,
+        model.keep_prob: keep_prob
+    }
+    return feed_dict
+def evaluate(sess, x_, y_):
+    """评估在某一数据上的准确率和损失"""
+    data_len = len(x_)
+    batch_eval = batch_iter(x_, y_, 128)
+    total_loss = 0.0
+    total_acc = 0.0
+    for x_batch, y_batch in batch_eval:
+        batch_len = len(x_batch)
+        feed_dict = feed_data(x_batch, y_batch, 1.0)
+        loss, acc = sess.run([model.loss, model.acc], feed_dict=feed_dict)
+        total_loss += loss * batch_len
+        total_acc += acc * batch_len
+    return total_loss / data_len, total_acc / data_len
+def train():
+    print("Configuring TensorBoard and Saver...")
+    # 配置 Tensorboard，重新训练时，请将tensorboard文件夹删除，不然图会覆盖
+    tensorboard_dir = 'tensorboard/textcnn'
+    if not os.path.exists(tensorboard_dir):
+        os.makedirs(tensorboard_dir)
+    tf.summary.scalar("loss", model.loss)
+    tf.summary.scalar("accuracy", model.acc)
+    merged_summary = tf.summary.merge_all()
+    writer = tf.summary.FileWriter(tensorboard_dir)
+    # 配置 Saver
+    saver = tf.train.Saver()
+    if not os.path.exists(save_dir):
+        os.makedirs(save_dir)
+    print("Loading training and validation data...")
+    # 载入训练集与验证集
+    start_time = time.time()
+    x_train, y_train = process_file(train_dir, word_to_id, cat_to_id, config.seq_length)
+    x_val, y_val = process_file(val_dir, word_to_id, cat_to_id, config.seq_length)
+    time_dif = get_time_dif(start_time)
+    print("Time usage:", time_dif)
+    # 创建session
+    session = tf.Session()
+    session.run(tf.global_variables_initializer())
+    writer.add_graph(session.graph)
+    print('Training and evaluating...')
+    start_time = time.time()
+    total_batch = 0  # 总批次
+    best_acc_val = 0.0  # 最佳验证集准确率
+    last_improved = 0  # 记录上一次提升批次
+    require_improvement = 1000  # 如果超过1000轮未提升，提前结束训练
+    flag = False
+    for epoch in range(config.num_epochs):
+        print('Epoch:', epoch + 1)
+        batch_train = batch_iter(x_train, y_train, config.batch_size)
+        for x_batch, y_batch in batch_train:
+            feed_dict = feed_data(x_batch, y_batch, config.dropout_keep_prob)
+            if total_batch % config.save_per_batch == 0:
+                # 每多少轮次将训练结果写入tensorboard scalar
+                s = session.run(merged_summary, feed_dict=feed_dict)
+                writer.add_summary(s, total_batch)
+            if total_batch % config.print_per_batch == 0:
+                # 每多少轮次输出在训练集和验证集上的性能
+                feed_dict[model.keep_prob] = 1.0
+                loss_train, acc_train = session.run([model.loss, model.acc], feed_dict=feed_dict)
+                loss_val, acc_val = evaluate(session, x_val, y_val)  # todo
+                if acc_val > best_acc_val:
+                    # 保存最好结果
+                    best_acc_val = acc_val
+                    last_improved = total_batch
+                    saver.save(sess=session, save_path=save_path)
+                    improved_str = '*'
+                else:
+                    improved_str = ''
+                time_dif = get_time_dif(start_time)
+                msg = 'Iter: {0:>6}, Train Loss: {1:>6.2}, Train Acc: {2:>7.2%},' \
+                      + ' Val Loss: {3:>6.2}, Val Acc: {4:>7.2%}, Time: {5} {6}'
+                print(msg.format(total_batch, loss_train, acc_train, loss_val, acc_val, time_dif, improved_str))
+            feed_dict[model.keep_prob] = config.dropout_keep_prob
+            session.run(model.optim, feed_dict=feed_dict)  # 运行优化
+            total_batch += 1
+            if total_batch - last_improved > require_improvement:
+                # 验证集正确率长期不提升，提前结束训练
+                print("No optimization for a long time, auto-stopping...")
+                flag = True
+                break  # 跳出循环
+        if flag:  # 同上
+            break
+def test():
+    print("Loading test data...")
+    start_time = time.time()
+    x_test, y_test = process_file(test_dir, word_to_id, cat_to_id, config.seq_length)
+    session = tf.Session()
+    session.run(tf.global_variables_initializer())
+    saver = tf.train.Saver()
+    saver.restore(sess=session, save_path=save_path)  # 读取保存的模型
+    print('Testing...')
+    loss_test, acc_test = evaluate(session, x_test, y_test)
+    msg = 'Test Loss: {0:>6.2}, Test Acc: {1:>7.2%}'
+    print(msg.format(loss_test, acc_test))
+    batch_size = 128
+    data_len = len(x_test)
+    num_batch = int((data_len - 1) / batch_size) + 1
+    y_test_cls = np.argmax(y_test, 1)
+    y_pred_cls = np.zeros(shape=len(x_test), dtype=np.int32)  # 保存预测结果
+    for i in range(num_batch):  # 逐批次处理
+        start_id = i * batch_size
+        end_id = min((i + 1) * batch_size, data_len)
+        feed_dict = {
+            model.input_x: x_test[start_id:end_id],
+            model.keep_prob: 1.0
+        }
+        y_pred_cls[start_id:end_id] = session.run(model.y_pred_cls, feed_dict=feed_dict)
+    # 评估
+    print("Precision, Recall and F1-Score...")
+    print(metrics.classification_report(y_test_cls, y_pred_cls, target_names=categories))
+    # 混淆矩阵
+    print("Confusion Matrix...")
+    cm = metrics.confusion_matrix(y_test_cls, y_pred_cls)
+    print(cm)
+    time_dif = get_time_dif(start_time)
+    print("Time usage:", time_dif)
+def predict():
+    import tensorflow.keras as kr
+    table = pd.read_excel('VW_ProductALLState.xlsx')
+    categories = list(set(table['SubCategoryName'].tolist()))
+    print("Loading predicted data...")
+    f = open(pred_dir, 'r', encoding='utf-8', errors='ignore')
+    contents = []
+    for line in f:
+        try:
+            if line:
+                contents.append(list(line))
+        except:
+            pass
+    f.close()
+    data_id = []
+    for i in range(len(contents)):
+        data_id.append([word_to_id[x] for x in contents[i] if x in word_to_id])
+    x_pred = kr.preprocessing.sequence.pad_sequences(data_id, config.seq_length)
+    session = tf.Session()
+    session.run(tf.global_variables_initializer())
+    saver = tf.train.Saver()
+    saver.restore(sess=session, save_path=save_path)  # 读取保存的模型
+    batch_size = 128
+    data_len = len(x_pred)
+    num_batch = int((data_len - 1) / batch_size) + 1
+    y_pred_cls = np.zeros(shape=len(x_pred), dtype=np.int32)  # 保存预测结果
+    for i in range(num_batch):  # 逐批次处理
+        start_id = i * batch_size
+        end_id = min((i + 1) * batch_size, data_len)
+        feed_dict = {
+            model.input_x: x_pred[start_id:end_id],
+            model.keep_prob: 1.0
+        }
+        y_pred_cls[start_id:end_id] = session.run(model.y_pred_cls, feed_dict=feed_dict)    # y_pred_cls为预测的list。
+    y_pred_list = []
+    for m in range(len(y_pred_cls)):
+        y_pred_list.append(categories[y_pred_cls[m]])
+    f = open('predicted_data.txt','a+', encoding='utf-8', errors='ignore')
+    for n in range(len(contents)):
+        f.write(y_pred_list[n] + "\t") 
+        f.write(''.join(contents[n]))
+    f.close()
+    return 0
+if __name__ == '__main__':
+    if len(sys.argv) != 2 or sys.argv[1] not in ['train', 'test', 'predict']:
+        raise ValueError("""usage: python run_cnn.py [train / test]""")
+    print('Configuring CNN model...')
+    config = TCNNConfig()
+    if not os.path.exists(vocab_dir):  # 如果不存在词汇表，重建
+        build_vocab(train_dir, vocab_dir, config.vocab_size)
+    categories, cat_to_id = read_category()
+    words, word_to_id = read_vocab(vocab_dir)
+    config.vocab_size = len(words)
+    #print(config.vocab_size)
+    model = TextCNN(config)
+    if sys.argv[1] == 'train':
+        train()
+    elif sys.argv[1] == 'predict':
+        predict()
+    else:
+        test()