$$\newcommand{\bra}[1]{\left<#1\right|}\newcommand{\ket}[1]{\left|#1\right>}\newcommand{\bk}[2]{\left<#1\middle|#2\right>}\newcommand{\bke}[3]{\left<#1\middle|#2\middle|#3\right>}$$
X
INFORMAÇÕES SOBRE DIREITOS AUTORAIS


As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.

A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.

A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.

A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital

Avançada


Estatísticas | Formato DC |



Título: MORPHOSYNTACTIC TAGGER FOR PORTUGUESE-TWITTER
Autor: PEDRO LARRONDA ASTI
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):  RUY LUIZ MILIDIU - ADVISOR
Nº do Conteudo: 18481
Catalogação:  13/10/2011 Idioma(s):  PORTUGUESE - BRAZIL
Tipo:  TEXT Subtipo:  THESIS
Natureza:  SCHOLARLY PUBLICATION
Nota:  Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]:  https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481@1
Referência [en]:  https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=18481@2
Referência DOI:  https://doi.org/10.17771/PUCRio.acad.18481

Resumo:
In this paper we present a language processor that solves the task of Morphosyntactic Tagging of messages posted in Portuguese on Twitter. By analyzing the messages written by Brazilian on Twitter, it is easy to notice that new characters are introduced in the alphabet and also that new words are added to the language. Furthermore, we note that these messages are syntactically malformed. This precludes the use of existing Portuguese processors in these messages, nevertheless this problem can be solved by considering these messages as written in a new language, the Portuguese-Twitter. Both the alphabet and the vocabulary of such idiom contain features of Portuguese. However, the grammar is are different. In order to build the processors for this new language, we have used a supervised learning technique known as Entropy Guided Transformation Learning (ETL). Additionally, to train ETL processors, we have built an annotated corpus of messages in Portuguese-Twitter. We are not aware of any other taggers for the Morphosyntactic Portuguese-Twitter task, thus we have compared our tagger to the the accuracy of state-of-art Morphosyntactic Annotation for Portuguese, which has accuracy around 96% depending on the tag set chosen. To assess the quality of the processor, we have used accuracy, which measures how many tokens were tagged correctly. Our experimental results show an accuracy of 90,24% for the proposed Morphosyntatic Tagger. This corresponds to significant learning, since the initial baseline system has an accuracy of only 76,58%. This finding is consistent with the observed learning for the corresponding regular Portuguese taggers.

Descrição Arquivo
COVER, ACKNOWLEDGEMENTS, RESUMO, ABSTRACT, SUMMARY AND LISTS  PDF
CHAPTER 1  PDF
CHAPTER 2  PDF
CHAPTER 3  PDF
CHAPTER 4  PDF
CHAPTER 5  PDF
CHAPTER 6  PDF
CHAPTER 7  PDF
REFERENCES, APPENDICE  PDF
Logo maxwell Agora você pode usar seu login do SAU no Maxwell!!
Fechar Janela



* Esqueceu a senha:
Senha SAU, clique aqui
Senha Maxwell, clique aqui