XINFORMAÇÕES SOBRE DIREITOS AUTORAIS
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
As obras disponibilizadas nesta Biblioteca Digital foram publicadas sob expressa autorização dos respectivos autores, em conformidade com a Lei 9610/98.
A consulta aos textos, permitida por seus respectivos autores, é livre, bem como a impressão de trechos ou de um exemplar completo exclusivamente para uso próprio. Não são permitidas a impressão e a reprodução de obras completas com qualquer outra finalidade que não o uso próprio de quem imprime.
A reprodução de pequenos trechos, na forma de citações em trabalhos de terceiros que não o próprio autor do texto consultado,é permitida, na medida justificada para a compreeensão da citação e mediante a informação, junto à citação, do nome do autor do texto original, bem como da fonte da pesquisa.
A violação de direitos autorais é passível de sanções civis e penais.
Coleção Digital
Título: O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTML Autor: IAM VITA JABOUR
Instituição: PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO - PUC-RIO
Colaborador(es):
EDUARDO SANY LABER - ORIENTADOR
RAUL PIERRE RENTERIA - COORIENTADOR
Nº do Conteudo: 17247
Catalogação: 11/04/2011 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.17247
Resumo:
Título: O IMPACTO DE ATRIBUTOS ESTRUTURAIS NA IDENTIFICAÇÃO DE TABELAS E LISTAS EM DOCUMENTOS HTML Autor: IAM VITA JABOUR
RAUL PIERRE RENTERIA - COORIENTADOR
Nº do Conteudo: 17247
Catalogação: 11/04/2011 Idioma(s): PORTUGUÊS - BRASIL
Tipo: TEXTO Subtipo: TESE
Natureza: PUBLICAÇÃO ACADÊMICA
Nota: Todos os dados constantes dos documentos são de inteira responsabilidade de seus autores. Os dados utilizados nas descrições dos documentos estão em conformidade com os sistemas da administração da PUC-Rio.
Referência [pt]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@1
Referência [en]: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=17247@2
Referência DOI: https://doi.org/10.17771/PUCRio.acad.17247
Resumo:
A segmentação de documentos HTML tem sido essencial para as tarefas
de extração de informações, como mostram vários estudos na área. Nesta dissertação
investigamos a relação entre o documento HTML e sua representação
visual, mostrando como esta ligação ajuda na abordagem estrutural para a
identificação de segmentos. Também investigamos como utilizar algoritmos de
distância de edição em árvores para encontrar padrões na árvore DOM, tornando
possível resolver duas tarefas de identificação de segmentos. A primeira
tarefa é a identificação de tabelas genuínas, aonde foi obtido 90,40% de F1
utilizando o corpus fornecido por (Wang e Hu, 2002). Mostramos através de
um estudo experimental que este resultado é competitivo com os melhores resultados
da área. A segunda tarefa que consideramos é a identificação de listas
de produtos em sites de comércio eletrônico, nessa obtivemos 94,95% de F1
utilizando um corpus com 1114 documentos HTML, criado a partir de 8 sites.
Concluímos que os algoritmos de similaridade estrutural ajudam na resolução
de ambas às tarefas e acreditamos que possam ajudar na identificação de outros
tipos de segmentos.
Descrição | Arquivo |
CAPA, AGRADECIMENTOS, RESUMO, ABSTRACT, SUMÁRIO E LISTAS | |
CAPÍTULO 1 | |
CAPÍTULO 2 | |
CAPÍTULO 3 | |
CAPÍTULO 4 | |
CAPÍTULO 5 | |
CAPÍTULO 6 | |
REFERÊNCIAS BIBLIOGRÁFICAS |