深度学习之NLP获取词向量

2023年4月12日下午9:15 • 深度学习

1、代码

def clean_text(text, remove_stopwords=False):
    """
    数据清洗
    """
    text = BeautifulSoup(text, 'html.parser').get_text()
    text = re.sub(r'[^a-zA-Z]', ' ', text)
    words = text.lower().split()
    if remove_stopwords:
        words = [w for w in words if w not in eng_stopwords]
    return words

def to_review_vector(review):
    """
    获取词向量
    """
    global word_vec
    
    review = clean_text(review, remove_stopwords=True)
    #print (review)
    #words = nltk.word_tokenize(review)
    word_vec = np.zeros((1,300))
    for word in review:
        #word_vec = np.zeros((1,300))
        if word in model:
            word_vec += np.array([model[word]]) 
    #print (word_vec.mean(axis = 0))
    return pd.Series(word_vec.mean(axis = 0))

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：深度学习之NLP获取词向量 - Python技术站

深度学习

0 0 打赏

微信扫一扫

支付宝扫一扫

深度学习之DCGAN

上一篇 2023年4月12日

深度学习之GAN对抗神经网络

下一篇 2023年4月12日

我在 B 站学习深度学习（生动形象，跃然纸上）

我在 B 站学习深度学习（生动形象，跃然纸上）视频地址：https://www.bilibili.com/video/av16577449/ tensorflow123http://tensorflow123.com

深度学习 2023年4月12日
000
深度学习推荐阅读的论文

Papers to Read General Introduction LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.nature14539.pdf [This is a general introduction by thr…

深度学习 2023年4月10日
000
《python深度学习》笔记—5.3-3、猫狗分类（使用预训练网络-数据增强的特征提取）

一、总结一句话总结：其实就是把vgg16对应的conv_base像层一样放到Sequential中，然后对图片进行数据增强即可 model.add(conv_base) from tensorflow.keras import models from tensorflow.keras import layers model = models.Sequen…

深度学习 2023年4月13日
000
深度学习原理与框架-Tensorboard可视化展示(代码) 1.tf.reuse_default_graph(进行结构图的重置) 2.tf.summary.FileWriter(writer实例化) 3. write.add_graph(graph的写入) 4. tf.summary.merge_all(将summary进行合并) 5.write.add_summary(将所有summary)

1. tf.reuse_default_graph() # 对graph结构图进行清除和重置操作 2.tf.summary.FileWriter(path)构造writer实例化，以便进行后续的graph写入参数说明：path表示路径 3.writer.add_graph(sess.graph) 将当前参数的graph写入到tensorboard中参数说…

深度学习 2023年4月13日
000
深度学习原理与框架-Alexnet(迁移学习代码) 1.sys.argv[1:](控制台输入的参数获取第二个参数开始) 2.tf.split(对数据进行切分操作) 3.tf.concat(对数据进行合并操作) 4.tf.variable_scope(指定w的使用范围) 5.tf.get_variable(构造和获得参数) 6.np.load(加载.npy文件)

1. sys.argv[1:] # 在控制台进行参数的输入时，只使用第二个参数以后的数据参数说明：控制台的输入:python test.py what, 使用sys.argv[1:]，那么将获得what这个数值 # test.py import sys print(sys.argv[1:]) 2. tf.split(value=x, num_or_siz…

深度学习 2023年4月13日
000
吴恩达深度学习笔记（七） —— Batch Normalization

主要内容：一.Batch Norm简介二.归一化网络的激活函数三.Batch Norm拟合进神经网络四.测试时的Batch Norm 一.Batch Norm简介 1.在机器学习中，我们一般会对输入数据进行归一化处理，使得各个特征的数值规模处于同一个量级，有助于加速梯度下降的收敛过程。 2.在深层神经网络中，容易出现梯度小时或者梯度爆炸的…

深度学习 2023年4月13日
000
神经网络与深度学习笔记（四）：向量化以提高计算速度

我们在计算模型w的转置乘上x的时候，往往需要把w和x分别进行向量化然后运算，因为这样会使我们的计算机得到结果的时间更快，而且这种方法不管是在CPU还是在GPU上都是成立的，首先我们来看看代码： import numpy as np import time a=np.random.rand(1000000) b=np.random.rand(1000000) …

深度学习 2023年4月11日
000
深度学习中的归一化方法BN、LN、IN、GN

不同归一化方法计算统计量的方式和施加归一化的范围不一样。 BN受到批尺寸的影响，而LN、IN和GN避开了批尺寸这个维度。这张图与我们平常看到的feature maps有些不同，立方体的3个维度为别为batch/ channel/ HW，而我们常见的feature maps中，3个维度分别为channel/ H/ W，没有batch。分析上图可知：BN计算均…

深度学习 2023年4月12日
000

合作推广

返回顶部

深度学习之NLP获取词向量

相关文章