�m���͐����n�X�N���C�s���O�Ջ󕶌ɂ���f�[�^���擾���Ă݂悤�F����Ď������I�@�f�B�[�v���[�j���O�H�쎺�i1/2 �y�[�W�j

�@�B�w�K���g���ĕ��͂̎����������s�������Ƃ��āA�‹󕶌ɂ��珬���̃f�[�^���擾���āA�{���̃e�L�X�g��1�����ƒ��X�g�Ɋi�[���Ă݂܂��傤�B

» 2021�N01��29�� 05��00�� ���J
[���킳�������CDeep Insider�ҏW��]

���̋L���͉������ł��B����o�^�i�����j����ƑS�Ă������������܂��B

�u����Ď������I�@�f�B�[�v���[�j���O�H�쎺�v�̃C���f�b�N�X

�A�ږڎ�

����̖ړI

�@�O��܂ł͉摜�����ɂ‚��Ă��낢��Ǝ����Ă��܂����B���񂩂�͐���ɕ����āA���R���ꏈ���iNatural Language Processing�j�ɂ‚��Ċw��ł����\��ł��B�������N�A�@�B�w�K�̐��E�ɂ����Ă�Transformer��GPT-x�ABERT�ȂǂȂǁA���܂��܂ȋZ�p�����ݏo����āA���R���ꏈ���̕��삪������悵�Ă��܂��B���̓K�p�̈���|��A���̗͂v��A����́A�`���b�g�{�b�g�ȂǂȂǁA���L�����̂ł��B

�@�����������ŁA��肠�������񂩂���‹󕶌����璘�쌠�̐؂ꂽ��i���w�K�f�[�^�Ƃ��āA���͐������s�����Ƃ�ړI�Ƃ��āA���R���ꏈ���ɂ܂‚�邳�܂��܂ȗv�f���w��ł����‚���ł��B

�‹󕶌ɂ̃g�b�v�y�[�W �‹󕶌ɂ̃g�b�v�y�[�W

�@����͐‹󕶌ɂ��珬���̃f�[�^���擾���鏈��������ǂ��Č��āA�������֐��ɂ܂Ƃ߂邱�Ƃɂ��܂��B�Ȃ��A����̃R�[�h�����̃m�[�g�u�b�N�Ō��J���Ă��܂��B

�����̃f�[�^��1�‚������o����R�[�h

�@�f�[�^�̎擾�ɂ�Python�����ł�������Beautiful Soup 4���g���܂��B�ڂ������Ƃ͑O�f�̃����N���Q�Ƃ��Ă��������Ƃ��āA�܂��͊����Y�̏�������‚��擾����R�[�h�����������Ă����܂��傤�B

�@�ȉ��́u���� ��Y�v�̒���ꗗ�ł��B

�����Y�̒���ꗗ �����Y�̒���ꗗ

�@�����ł͗�Ƃ��ď����Z�߂̍�i�ł���w���̎��̉��ɂ��x�i�V���V�����j�̃f�[�^�����o���Ă݂邱�Ƃɂ��܂��傤�B���̃����N���N���b�N����ƁA���̂悤�ȃy�[�W���\������܂��B

��i�y�[�W ��i�y�[�W

�@�擾�”\�ȃt�@�C���̎�ނɂ�3�‚���܂����A�����ł́m�t�@�C����ʁn���mXHTML�t�@�C���n�ƂȂ��Ă���t�@�C�����擾���邱�Ƃɂ��܂����B���̃����N�i427_19793.html�j���N���b�N����ƈȉ��̂悤�ɍ�i���\������܂��iZIP�t�@�C�����_�E�����[�h�����ꍇ�ɂ̓��r���܂񂾃v���[���e�L�X�g����ɓ�����܂����A�M�҂̎��XHTML�t�@�C���������ł͎g�����Ƃɂ��܂����j�B

�����̖{�� �����̖{��

�@�����ł͍�i���⒘�Җ��Ȃǂ��\������Ă��܂����A����胋�r�����J�ɐU���Ă���܂��B���A�����̏��ɂ‚��Ă͌�قǎ�菜���Ă��܂��܂��B�K�v�Ȃ̂́A�����̖{���e�L�X�g�����ł��B

�@�Ƃ����킯�ŁAurllib.request���W���[�����񋟂���urlopen�֐����g���āA���̃y�[�W�̓��e���擾���āA�����Beautiful Soup 4�ɓ��͂���΁A���܂��܂ȑ��삪�”\�ȃI�u�W�F�N�g����ɓ���܂��B

�@�����܂ł̏��������ۂɍs���̂��A�ȉ��̃R�[�h�ł��B

from bs4 import BeautifulSoup
from urllib import request

url = 'https://www.aozora.gr.jp/cards/000074/files/427_19793.html'
response = request.urlopen(url)
soup = BeautifulSoup(response)
response.close()

print(soup)

�w���̎��̉��ɂ́x��Web�y�[�W�̓��e���擾����R�[�h

�@�Ō�Ɂuprint(soup)�v�Ƃ����s������̂ŁA���̃R�[�h�����s����ƁA�擾����Web�y�[�W�̓��e�iXHTML�j���ȉ��̂悤�ɕ\������܂��B

���s���� ���s����

�@�����̒ʂ�A�{���e�L�X�g�����ł͂Ȃ��A���܂��܂ȃ^�O���܂܂�Ă��܂��B�����ŁA�܂���<div>�^�O�iclass������"main_text"�j�ƂȂ��Ă��镔�����������o���܂��傤�B

main_text = soup.find('div', class_='main_text')
print(main_text)

�����̖{�����������o��

�@��������s����ƁA���̂悤�ɂȂ�܂��B

���s���� ���s����

�@����ŏ����̖{���e�L�X�g�����������܂������A�C�ɂȂ�͎̂R�قǓ����Ă��郋�r�֘A�̃^�O�ł��B���Ƃł������폜���Ă����̂͑�ςł����A����find���\�b�h�Ŏ擾�����{���e�L�X�g�imain_text�I�u�W�F�N�g�j��Beautiful Soup 4��Tag�I�u�W�F�N�g�ƂȂ��Ă��āA���̃I�u�W�F�N�g�ɂ�decompose���\�b�h���p�ӂ���Ă��܂��B���̃��\�b�h�͓���̃^�O�Ƃ��̓��e���폜����̂Ɏg���܂��B�����ŁA��Ŏ��o����main_text�Ń��r�֘A�̃^�O�i�̈ꕔ�j���폜���Ă݂܂��傤�B

tags_to_delete = main_text.find_all(['rp', 'rt'])
for tag in tags_to_delete:
    tag.decompose()
print(main_text)

���r�֘A�̃^�O�i�̈ꕔ�j���폜

�@�����ł�<rp>�^�O��<rt>�^�O��2�‚������폜�̑ΏۂƂ��Ă��܂��B����ȊO�͂������c���Ă��܂��̂ł����A<rb>�^�O�̓��e�͍폜���Ă��܂��Ă͍�����́i���r��U�镶�����̂��́j�ł�����A����͂����������̂��Ǝv���܂��傤�B<ruby>�^�O�����l�ŁA������폜���Ă��܂��ƃ��r�����ł͂Ȃ��A�{���e�L�X�g�̈ꕔ�܂ō폜���Ă��܂��܂��B

�@���s���ʂ͎��̂悤�ɂȂ�܂��B

���s���� ���s����

�@���q�ׂ��悤�ɁA<ruby>�^�O��<rb>�^�O�͈ˑR�Ƃ��Ďc���Ă��܂����A���̑��̃^�O���܂��c���Ă��܂��B�����͂ǂ�����΂悢�ł��傤�BBeautiful Soup 4��Tag�I�u�W�F�N�g�ɂ́uget_text���\�b�h�v�Ƃ����֗��ȃ��\�b�h������܂��B����͐l���ǂ߂�悤�ȃe�L�X�g�𔲂��o���̂Ɏg���܂��i�߂�l��Beautiful Soup 4�̃I�u�W�F�N�g�ł͂Ȃ��A�P�Ȃ镶����ł��j�B���ۂɎg���Ă݂܂��傤�B

main_text = main_text.get_text()
print(main_text)

�“ǐ��̂���e�L�X�g�����𒊏o

�@��������s�������ʂ͈ȉ��̒ʂ�ł��B

���s���� ���s����

�@����B�L���C�ɂȂ�܂����ˁi�����ڂ́j�B�Ƃ������Ƃ́A<rp>�^�O��<rt>�^�O�����̕��@�ŏ����Ă��܂��΂悩�����悤�Ɏv���܂��B���ۂɁi�^�O���폜����O��main_text����j�����̃^�O��get_text���\�b�h�ō폜���Ă݂����ʂ��ȉ��Ɏ����܂��B

�^�O�͏����邪���r�̏��ł���u�i�������j�v�Ȃǂ��c���Ă��܂� �^�O�͏����邪���r�̏��ł���u�i�������j�v�Ȃǂ��c���Ă��܂�

�@�^�O�͏����܂����A���r�̏��ł���u�i�������j�v�Ȃǂ��e�L�X�g���Ɋ܂܂�Ă��邱�Ƃɒ��ڂ��Ă��������B�����͑S�p�������u�i�j�v�Ɉ͂܂ꂽ�Ђ炪�Ȃł�����A���K�\�����g���āumain_text = re.sub('�i[\u3041-\u309F]+�j', '', main_text)�v�̂悤�Ȃ��Ƃ����邱�Ƃō폜�”\�ł��B���A�{���e�L�X�g�Ƃ��Ă��̂悤�ȕ����̕��т��o�ꂷ��”\���̓[���Ƃ͂�������܂���B�����ŁA<rp>�^�O��<rt>�^�O�Ƃ��������肪����Ƃ��āA�폜���Ă��悢���̂�O�����ď������Ă������Ƃɂ��܂����B

�@�Ƃ���ŁA��قǂ̕��͂Ɂu�i�����ڂ́j�v�Ƃ���̂ɋC���t�����������������邩������܂���B�����ڂƂ͂ǂ��������Ƃł��傤�B�����print�֐���main_text��n���̂ł͂Ȃ��A�umain_text�v�Ƃ����Z���ɓ��͂��āAGoogle Colab��ŕ]�����Ă݂�ƕ�����܂��B

�]�v�ȕ��������܂��Ă��� �]�v�ȕ��������܂��Ă���

�@�u\r�v�u\n�v�u\u3000�v�Ȃǂ̕�����main_text�I�u�W�F�N�g�ɖ��ߍ��܂�Ă���̂�������܂��i�Ō�́u\u3000�v�͑S�p�󔒕����̃R�[�h�|�C���g�j�B����͕������replace���\�b�h���g���č폜���Ă��܂��܂��傤�B

main_text = main_text.replace('\r', '').replace('\n', '').replace('\u3000', '')
main_text

�]�v�ȉ��s�����^�󔒕������폜

�@���s���ʂ͈ȉ��̒ʂ�ł��B

���s���� ���s����

�@�Ō�ɃG�N�X�N�����[�V�����}�[�N�u�I�v�Ƌ�_�u�B�v�̒���ɉ��s���܂߂�悤�ɂ��܂��B�����1�����Ƃɉ��s�����悤�ɂȂ�܂��B�Ƃ����Ă��A�����������̂ł͂Ȃ��A�Ō�ɂ����splitlines���\�b�h�ŌX�̕���v�f�Ƃ��郊�X�g���쐬���Ă������߂ł��i����ȍ~�̏����Ŗ𗧂‚悤�ȋC�������̂ł������Ă��܂��j�B

import re

main_text = re.sub('([�I�B])', r'\1\n', main_text)  # �B�ƁI�ʼn��s
text_list = main_text.splitlines()
print(text_list)

1�����‰��s����悤��

�@�@�@�@�@�@ 1|2 ���̃y�[�W��

Copyright© Digital Advantage Corp. All Rights Reserved.

�X�|���T�[����̂��m�点PR

���ڂ̃e�[�}

Microsoft �� Windows�őO��2025
AI for �G���W�j�A�����O
���[�R�[�h�^�m�[�R�[�h �Z���g���� by ��IT - IT�G���W�j�A���r�W�l�X�̒��S�Ŋ��􂷂�g�D��
Cloud Native Central by ��IT - �X�P�[���u���Ȕ\�͂�g�D��
�V�X�e���J���m�E�n�E �y�����i�r�zPR
���Ȃ��ɂ������߂̋L��PR

RSS�ɂ‚���

�A�C�e�B���f�B�AID�ɂ‚���

���[���}�K�W���o�^

��IT�̃��[���}�K�W���́A �������A���ׂĖ����ł��B���Ѓ��[���}�K�W�������w�ǂ��������B