SuooL's Blog

蛰伏于盛夏 藏华于当春

Introduction

文章提出了一个解决 实体-关系抽取 问题的新范式。

文章要解决的问题如下:

We need to extract four different types of entities,i.e., Person, Company, Time and Position, and three types of relations, FOUND, FOUNDING-TIME and SERVING-ROLE.

阅读全文 »

Introduction

文章翻译自 Trends in Natural Language Processing: ACL 2019 In Review

未全文翻译,仅摘录翻译部分内容。

为强调趋势发展,会引用部分会议论文,然而这是不完全的,建议看下full conference proceedings 发现更多出色的论文。

阅读全文 »

Introduction

Jupyter Notebooks 是当前学习机器学习、入门科学计算、Python新手的必备热门环境选择。但是使用久了就会觉得它却了些编程环境必备的特性,不够好用。

本文将介绍几种插件和扩展及一些命令来扩展增强 Jupyter Notebooks, 希望能够提高生产力。

阅读全文 »

Introduction

鉴于 NVIDIA 的价格和自己的预算, 因此上了 AMD 的船,自此主机组装完成。

AMD 的 CPU 加 AMD 的 GPU, AMD, YES !

装机完成之后,首要问题就是如何在 AMD 的显卡上进行深度学习炼丹?

经过一番配置(折腾),顺利实现上一目标,以下为个人在 Ubuntu 上的折腾指南。

阅读全文 »

Introduction

命名实体识别作为自然语言处理领域中一项基础而关键的技术,被广泛应用于自然语言处理各个应用领域中,也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多 NLP 任务的基础,其目标是对待识别文本中代表知识主体的命名实体(named entity, NE)进行标注。

命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。而在知识图谱等研究的驱动下,NER 识别的实体范围进一步扩大到各个专业知识领域。

目前通用领域的命名实体识别方法有两种,分别是浅层机器学习的方法和深层神经网络的方法。

阅读全文 »

Introduction

人工神经网络求解的实质是寻找合适权重,只有权重合适的神经网络才能发挥出真正的能力,而权重的寻找过程不是靠感觉的,而是一步步优化得来的。由于参数搜索空间非常巨大,训练复杂神经网络因此非常漫长,所以如何快速的经过一定的优化算法确定合适的权重,是一个非常基础而关键的问题。

阅读全文 »

Introduction

本文章主要用来备忘,内容有:

Introduction

tf-idf(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜寻引擎还会使用基于连结分析的评级方法,以确定文件在搜寻结果中出现的顺序。

TF-IDF有两层意思,一层是”词频”(Term Frequency,缩写为TF),另一层是”逆文档频率”(Inverse Document Frequency,缩写为IDF)。

阅读全文 »